基于BFO的主题爬行算法

作者:侯航

摘要:首先给出了主题网络爬虫的定叉和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BFO算法。对BFO算法进行性能评价,发现应用此算法搜索不但“召回率”和“收获率”有所提高,还能在一定程度上找到全局围内的最优解。最后对未来的研究方向进行了展望。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 基础科学
  • >
  • 基础科学综合
收录:
  • 万方收录(中)
  • 上海图书馆馆藏
  • 国家图书馆馆藏
  • 知网收录(中)
  • 维普收录(中)
关键词:
  • 主题网络爬虫
  • 算法
  • 召回率

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:中国科技信息

期刊级别:部级期刊

期刊人气:17738

杂志介绍:
主管单位:中国科学技术协会
主办单位:中国科技新闻学会
出版地方:北京
快捷分类:科技
国际刊号:1001-8972
国内刊号:11-2739/N
邮发代号:82-415
创刊时间:1989
发行周期:半月刊
期刊开本:A4
下单时间:1个月内
复合影响因子:0.32
综合影响因子:0.31