基于Spark框架XGBoost的林业文本并行分类方法研究

作者:崔晓晖; 师栋瑜; 陈志泊; 许福

摘要:针对当前“互联网+”技术与林业的交叉融合,涌现出海量待挖掘的涉林文本,而林业文本分类的相关研究尚不成熟的问题,使用网络爬虫技术面向互联网采集涉林文本,基于丰富的语料重新构建分类标签,提出基于Spark计算框架的XGBoost并行化方法,对林业文本进行分类。经由交叉验证,构建的XGBoost并行分类算法准确率为0.9234,在各类别中最低F1为0.8604,最高为0.9984;其在2.1万条、4.2万条、8.4万条数据集上的训练加速比分别为2.13、3.47、3.82。结果表明,基于该标签设定的分类模型对现存互联网中涉林文本的适应性较好;Spark环境下实现的XGBoost并行化算法的准确率显著优于其他4种机器学习(朴素贝叶斯、GBDT决策树、BP神经网络和ELM神经网络算法)的并行化算法,算法执行效率远高于单机版本,且数据量越大,其加速比越高,能有效应对海量林业文本的实时、准确分类。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 农业科技
  • >
  • 农业工程
收录:
  • 知网收录(中)
  • EI 工程索引(美)
  • 维普收录(中)
  • 国家图书馆馆藏
  • 上海图书馆馆藏
  • JST 日本科学技术振兴机构数据库(日)
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 统计源期刊(中国科技论文优秀期刊)
  • 万方收录(中)
  • 北大期刊(中国人文社会科学期刊)
  • CA 化学文摘(美)
  • 哥白尼索引(波兰)
关键词:
  • 林业文本
  • 文本分类
  • 大数据分析
  • spark
  • xgboost

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:农业机械学报

期刊级别:北大期刊

期刊人气:2132

杂志介绍:
主管单位:中国科学技术协会
主办单位:中国农业机械学会;中国农业机械化科学研究院
出版地方:北京
快捷分类:农业
国际刊号:1000-1298
国内刊号:11-1964/S
邮发代号:2-363
创刊时间:1957
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:2.21
综合影响因子:2.233