基于Scrapy技术的分布式爬虫的设计与优化

作者:刘泽华; 赵文琦; 张楠

摘要:随着全球信息技术的发展,互联网中的信息量呈爆炸式增长,人们对信息的需求量也与日俱增,而传统的单机平台的爬虫技术已经无法实现现如今互联网中大量数据的获取。本文旨在设计一个基于Redis的主从模式分布式爬虫系统来突破传统单机爬虫的限制。本文中的爬虫系统基于python语言的Scrapy框架具体实现。此外,为了实现分布式,该系统还使用了Redis数据库进行url存储与调度分配,最终使用MongoDb数据库储存解析后的网页信息。本文也对该系统进行了一定优化,首先,本文采用半分布式拓扑结构优化了整体主从架构;同时本文也采用二级哈希映射算法优化URL的分配,解决了系统内节点动态加入或退出对系统的影响;初次之外,本文还采用去重与增量爬取优化了服务器的资源效率并使用ip的方式来应对部分网站的防爬虫屏蔽现象。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电子信息科学综合
收录:
  • 维普收录(中)
  • 知网收录(中)
  • 上海图书馆馆藏
  • 万方收录(中)
  • 国家图书馆馆藏
关键词:
  • scrapy
  • 分布式爬虫
  • 哈希映射算法
  • 设计与优化
  • 防爬虫屏蔽

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:信息技术与信息化

期刊级别:省级期刊

期刊人气:5410

杂志介绍:
主管单位:山东省工业和信息化厅
主办单位:山东电子学会
出版地方:山东
快捷分类:电子
国际刊号:1672-9528
国内刊号:37-1423/TN
邮发代号:43031
创刊时间:1976
发行周期:月刊
期刊开本:A4
下单时间:1个月内
复合影响因子:0.53
综合影响因子:0.61