我心飞扬

  IT博客 :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  11 随笔 :: 50 文章 :: 5 评论 :: 0 Trackbacks
用donews的my博客挺有意思。不过刚才访问居然出现了no available Servers的错误信息。郁闷啊。Wordpress是个很强大的平台。看来以后写博客要多注意博客的稳定性 了。
字体的大小居然可以设定为负数,不错的。

有很多种爬 虫,也有很多的爬虫算法。Google的创始人说过,爬虫是搜索引擎中最薄弱而复杂的模块。
流行的页面被很多链接所指向,它们对于优 先爬虫而言,很具有吸引力。因此,被宽度优先爬虫所访问页面的顺序和它们的PageRank或者入度值紧密相关也就不足为奇了。
宽度优先爬虫并不随机访问页面,因为它们受种子节点选取的影响非常大。主题本地性表明种子页面链接的邻居,通常都和种子页面的内容相关,它们的相关度要远远超过随机选取页面的相关度。
这些偏好和其他偏好,对于通用爬虫而言,都非常重要。链接距离提供了估计爬取网页和相关网页之间距离的机制。 由上下文分类器提供的这种机制。 每层中放了一个优先队列,里面记录了被分类到该层的已访问网页中提取的链接。
爬虫也可以使用分类器,针对爬行到的网页进行分类处理,判断其是否符合某种特征,然后决定是否把这个网页中解析出来的链接加入到队列中来。书中提到的分类器有贝叶斯分类器,如何用贝叶斯分类器对文本进行分类呢?是否有现成的代码?
posted on 2009-07-26 02:58 Monicax 阅读(210) 评论(0)  编辑 收藏 引用 所属分类: spider
只有注册用户登录后才能发表评论。