基于Spark框架XGBoost的林业文本并行分类方法研究-学术点评

基于Spark框架XGBoost的林业文本并行分类方法研究

作者：崔晓晖; 师栋瑜; 陈志泊; 许福

摘要：针对当前“互联网+”技术与林业的交叉融合,涌现出海量待挖掘的涉林文本,而林业文本分类的相关研究尚不成熟的问题,使用网络爬虫技术面向互联网采集涉林文本,基于丰富的语料重新构建分类标签,提出基于Spark计算框架的XGBoost并行化方法,对林业文本进行分类。经由交叉验证,构建的XGBoost并行分类算法准确率为0.9234,在各类别中最低F1为0.8604,最高为0.9984;其在2.1万条、4.2万条、8.4万条数据集上的训练加速比分别为2.13、3.47、3.82。结果表明,基于该标签设定的分类模型对现存互联网中涉林文本的适应性较好;Spark环境下实现的XGBoost并行化算法的准确率显著优于其他4种机器学习(朴素贝叶斯、GBDT决策树、BP神经网络和ELM神经网络算法)的并行化算法,算法执行效率远高于单机版本,且数据量越大,其加速比越高,能有效应对海量林业文本的实时、准确分类。

分类：

期刊
>
自然科学与工程技术
>
农业科技
>
农业工程

收录：

知网收录(中)
EI 工程索引(美)
维普收录(中)
国家图书馆馆藏
上海图书馆馆藏
JST 日本科学技术振兴机构数据库(日)
CSCD 中国科学引文数据库来源期刊(含扩展版)
统计源期刊(中国科技论文优秀期刊)
万方收录(中)
北大期刊(中国人文社会科学期刊)
CA 化学文摘(美)
哥白尼索引(波兰)

关键词：

林业文本
文本分类
大数据分析
spark
xgboost

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询免费咨询杂志订阅

相关论文

基于供应链的采购管理基于小学核心素养的数学教学

期刊名称：农业机械学报

期刊级别：北大期刊

期刊人气：2132

期刊推荐本期目录

杂志介绍：: 主管单位：中国科学技术协会; 主办单位：中国农业机械学会;中国农业机械化科学研究院; 出版地方：北京; 快捷分类：农业; 国际刊号：1000-1298; 国内刊号：11-1964/S; 邮发代号：2-363; 创刊时间：1957; 发行周期：月刊; 期刊开本：A4; 下单时间：1-3个月; 复合影响因子：2.21; 综合影响因子：2.233