我心飞扬

  IT博客 :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  11 随笔 :: 50 文章 :: 5 评论 :: 0 Trackbacks

2009年8月20日 #

涉及到闭包、lamda演算、函数作用域等各种概念,呵呵,到深入了解的时候了

posted @ 2009-08-20 02:13 Monicax 阅读(159) | 评论 (0)编辑 收藏

2009年8月15日 #

多用户环境下的协作,如何才是有智慧的?

定期分析玩家资源数目,分析玩家活跃度。

多个维度数据的获取,建立模型,并进行分析

有些操作需要发送两个请求,这种是出于事务的要求吗?

posted @ 2009-08-15 14:44 Monicax 阅读(175) | 评论 (0)编辑 收藏

那些众里寻他千百度,蓦然回首,那人却在灯火阑珊处

一些小的知识点,找了很久,直让人憔悴。突然发现,原来离得如此之近。

1、re.search 和 re.match的不同之处,使用了re.S选项,前者可以,而后者不行
2、正则表达式中有中文,出现匹配异常,search不到东西? 于是找其他特征进行匹配了

posted @ 2009-08-15 01:53 Monicax 阅读(189) | 评论 (0)编辑 收藏

2009年8月4日 #

如何实现一个最简单,但是高精度,有着实际意义的分类器,如对网页的分类。
posted @ 2009-08-04 03:43 Monicax 阅读(162) | 评论 (0)编辑 收藏

下载BerkeleyDB的时候,看到了一个包含50个SNS链接收藏的链接,不错。收藏夹共享,很有意义,对用户来说,提供了共享知识。而这些链接对搜索引擎来说是很好的feed。收藏夹链接为oracle

posted @ 2009-08-04 02:42 Monicax 阅读(181) | 评论 (1)编辑 收藏

2009年8月1日 #

没有具体的商务数据怎么办?那就自己yy数据吧,不能从数据库中获得的数据。就自己去下载吧,也可以用爬虫去爬
发现对论坛数据进行挖掘是一个比较有趣的东西。 因为现在可以接触到很多的论坛,数据的获取应该不是很大问题了。关键在于如何yy出一套模型。如挖掘简单的统计量到进入更深层的挖掘,及建立完备的模型。呵呵,终于找到目标了。

数据挖掘和统计之间是什么关系?
很多信息隐藏在大量的数据之中,通过统计,就可以发现很多规律,这个叫数据挖掘吗? 虽然找到了很多规律,但是并没有使用那些所谓高深的数据挖掘算法,如贝叶斯、神经网络、决策树、隐马尔科夫、SVM、核方法等。那么这还是数据挖掘吗?

构造贝叶斯分类器,对用户进行分类。判断他们对于哪类话题比较感兴趣?

统计量:
论坛活跃人数: 31207 考虑到网站随时在更新,统计的结果只能是某个时候的快照。
晕了,到底有多少用户啊。花了一个下午重新抓了一遍,活跃人数怎么变成31937了? 而实际上论坛自身的统计显示这两天新增的用户不超过20个,这是这么回事,人数多出了700多? (对下载下来的页面再进行分析?)

对下载到本地的文件进行分析
8449 共8449个页面,数据量为318M。提取链接,分析用户数,整个计算过程,花费的时间是1分钟。
Sat Aug 01 17:42:06 2009
Sat Aug 01 17:43:02 2009

两次统计出人数有差异的原因已经找到。 因为我统计的并不是论坛所有的注册人数。而是参与发起帖子的所有用户数。
今日贴数:14661   // 今日的新帖子是14661,还有很多新的主题,参与发表主题的人数比原来多了700多人。这个是很自然的事情了。

用户列表下载中发现有重复ID的问题(爬取网站,需要对网站页面的生成和链接参数的意义有一些了解,即使开始不了解,为了爬下来资料的完备性和有效性,也是要了解链接参数意义的)  userlist.asp?page=xx&order_method=xx,发现如果不带order_method参数,各个分页是可以访问的,但是每次刷新,返回的是不同结果?这个是怎么回事?没有使用数据库的排序? 发现,当order_method设置为7时,是以排序结果返回的,每次刷新不会影响页面结果,这个才是我想要的效果啊。。。

但是有3个页面,不知道为何不能得到结果,总是显示内部服务器错误,返回的错误码是 HTTP 500.
这三个页面分别是:1309、1931和2571。 暂时还不知道究竟是什么问题。。。
下载根据ID下载用户信息页面,ID数和页面数目终于对应起来了。
52409个文件已经下到。下载过程中的出错率,并不是很高,呵呵
success/failure: 52409/4750,成功率是78%

搞了真正一个晚上8.3的cookie问题,因为某个论坛的下载一定要用到cookie。并且起先还需要在页面上做登陆操作。按着网上的教程,试了n次,终于还是不行。到了4点半的时候,看到有一个会话Session和持久Session的概念。其实,我正要爬的网站用的是会话Cookie,浏览器关闭,就必须重新登录了。这个Cookie不是放在什么FileCookie等中间,是直接放在head中的。这个操作涉及的面还是挺广的,有httplib, cookielib。

不错啊,这个小网站,居然还有防爬虫的机制。我下了不到20个页面,就要验证本人是否是机器人了。
呵呵,伪装术之后应该也很重要了。以前看到过,可以把爬虫做到Firefox中,服务器没法分别是否是客户浏览。
当然,判别爬虫的方法有多种,方式和实现都可以加以了解的。大致对恶意爬虫的检测列举一些自己能想到的东西吧(防范是之后要考虑的)
1、连接频度
2、下载流量
3、访问模式(是否所有链接都点,或点击链接完全是按一种固定模式进行的。如遍历某些参数。。。)

下载另一个网站的数据。这个网站可以通过两种方式访问。即telnet和Web两种方式访问。
下载页面Index,即分页目录,而不是文件内容。通过对里面的链接进行解析,发现了之前一直不知道的秘密。(在telnet里面不能显示的一些文章,在Web下都露出了原形,虽然也是不能点击进去的(只是表明该文章已经被水了,并没有点击的链接))。
而且这种链接所占的比例还不低。  good: deplicated = 5003:550, 过时文章所占的比例有9.904%,可见比例不低,呵呵
这姑且也算是挖掘吧,总算挖出一些之前所不知道的知识:)

下载格式
下载网页文件的存储格式为: (board_id)_(page).html  // 虽然最初是动态页面,但是这里存成了html页面

posted @ 2009-08-01 12:28 Monicax 阅读(234) | 评论 (0)编辑 收藏

日志往往需要进行离线的挖掘处理,因为日子挖掘往往会涉及到海量信息的处理。
但是也需要一些在线的指数,如当前最热门的帖子,每次登陆的随机推荐,热门推荐,及当日点击排行,热门评论,及新增内容等。

这些实时信息,有些可以30分钟一次统计,而有些可以是马上更新的。

热门搜索关键字Tag(更新频率设为多久?)


posted @ 2009-08-01 00:05 Monicax 阅读(112) | 评论 (0)编辑 收藏

2009年7月31日 #

如何进行有效的挖掘,不是空想,是要解决实际的问题。
最好是带着问题进行学习的,否则理论学了一大堆,但是到了实际问题前面,就一下子傻眼了。

日志有很多种,可以存放在数据库中,如登陆日志,密码修改日志,操作日志等。
较为简单的一种日志是用户浏览日志,说起来简单,做起来却很细致。 (开始最好讨论简化的模型,而不是一开始就很复杂)

现有挖掘案例:
豆瓣、校内,Facebook,淘宝,china-pub(做的应该比当当要晚,或者说是很晚才做的),当当

日志挖掘目标:
1、分析用户的商品浏览日志,分析用户的喜好,潜在的购买力,及感兴趣的产品。这样就可以向其做产品推荐。提升电子商务网站的成交量。(不过一般的网站在初期是不会考虑这一点的,只有当流量很大,很有发展前景的情况下,为了进一步发展的需要,才会想到数据挖掘的。其实也是他们在遇到很多问题后,发现数据挖掘确实很适合做锦上添花的事情,才会着手做开发的。) 一般网站在发展中期,也会做一些简单的挖掘。只有当做大了,才会专门成立小组或团队来系统地分析和建模,并进行挖掘的
2、购物车分析。分析现有的成交数据,以后向用户推荐商品。

在没有具体场景的情况下,找什么数据,并进行挖掘呢?
对代理服务器日志进行分析,并查找活跃用户?


posted @ 2009-07-31 23:24 Monicax 阅读(281) | 评论 (0)编辑 收藏

线性方程在现代计算机应用中,所起的作用有几成?
如何用matlab作概率运算
posted @ 2009-07-31 01:55 Monicax 阅读(103) | 评论 (0)编辑 收藏

2009年7月26日 #

用donews的my博客挺有意思。不过刚才访问居然出现了no available Servers的错误信息。郁闷啊。Wordpress是个很强大的平台。看来以后写博客要多注意博客的稳定性 了。
字体的大小居然可以设定为负数,不错的。

有很多种爬 虫,也有很多的爬虫算法。Google的创始人说过,爬虫是搜索引擎中最薄弱而复杂的模块。
流行的页面被很多链接所指向,它们对于优 先爬虫而言,很具有吸引力。因此,被宽度优先爬虫所访问页面的顺序和它们的PageRank或者入度值紧密相关也就不足为奇了。
宽度优先爬虫并不随机访问页面,因为它们受种子节点选取的影响非常大。主题本地性表明种子页面链接的邻居,通常都和种子页面的内容相关,它们的相关度要远远超过随机选取页面的相关度。
这些偏好和其他偏好,对于通用爬虫而言,都非常重要。链接距离提供了估计爬取网页和相关网页之间距离的机制。 由上下文分类器提供的这种机制。 每层中放了一个优先队列,里面记录了被分类到该层的已访问网页中提取的链接。
爬虫也可以使用分类器,针对爬行到的网页进行分类处理,判断其是否符合某种特征,然后决定是否把这个网页中解析出来的链接加入到队列中来。书中提到的分类器有贝叶斯分类器,如何用贝叶斯分类器对文本进行分类呢?是否有现成的代码?
posted @ 2009-07-26 02:58 Monicax 阅读(209) | 评论 (0)编辑 收藏

仅列出标题  下一页