基于语义与分类贡献的文本特征选择研究

作者:景永霞; 苟和平; 王治和

摘要:针对传统文本特征选择算法没有考虑特征的语义及特征与类别之间关系的问题,提出了一种结合语义和分类贡献的特征选择算法.利用LDA主题模型获取文本和词的表示,通过计算词与文本之间的语义相似度,获取词对文本的重要性.再利用Word2vec词向量模型获取文本类别特征,通过计算文本中的词与文本类别特征之间的语义相似度,获取词对类别的重要性,最后结合词对文本的重要性和词对类别的重要性选择分类贡献度高的词作为最终的分类特征.实验表明,该算法能够有效地降低文本特征数量,减少分类计算开销,降低噪声对分类的影响,提升分类效果.

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 基础科学
  • >
  • 基础科学综合
收录:
  • 维普收录(中)
  • 统计源期刊(中国科技论文优秀期刊)
  • 知网收录(中)
  • 上海图书馆馆藏
  • 万方收录(中)
  • CA 化学文摘(美)
  • 国家图书馆馆藏
  • 北大期刊(中国人文社会科学期刊)
  • Pж(AJ) 文摘杂志(俄)
  • JST 日本科学技术振兴机构数据库(日)
关键词:
  • lda
  • 特征选择
  • 文本分类
  • 语义分析

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:西北师范大学学报·自然科学版

期刊级别:北大期刊

期刊人气:2479

杂志介绍:
主管单位:甘肃省教育厅
主办单位:西北师范大学
出版地方:甘肃
快捷分类:科学
国际刊号:1001-988X
国内刊号:62-1087/N
邮发代号:
创刊时间:1942
发行周期:双月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:1.03
综合影响因子:0.69