一种改进的文本分类算法

作者:任朋启; 王芳; 黄树成

摘要:文本分类技术是文本挖掘技术中的研究热点之一,但是传统KNN分类算法的时间复杂度高,在不均匀密度样本下分类准确率低.针对这些问题,提出一种在不均匀密度样本下的优化KNN算法:IKNN算法.首先选取样本分类不均匀的训练样本,并对其中高密度样本做出相应的裁剪,以提高准确率.然后在此基础上,针对裁剪后的训练样本使用投影寻踪理论,选取更小的、更具代表性的样本库,以降低分类算法的时间复杂度.在此理论基础上,通过实验表明,在大量的训练样本下,与经典KNN算法相比,IKNN算法具有更高的效率和准确率.

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 工程科技II
  • >
  • 电力工业
收录:
  • 知网收录(中)
  • 万方收录(中)
  • 上海图书馆馆藏
  • 维普收录(中)
  • 国家图书馆馆藏
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 文本分类
  • knn算法
  • iknn算法
  • 样本裁剪
  • 投影寻踪理论

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:电子设计工程

期刊级别:统计源期刊

期刊人气:14045

杂志介绍:
主管单位:陕西省科学技术协会
主办单位:陕西科技报社
出版地方:陕西
快捷分类:机械
国际刊号:1674-6236
国内刊号:61-1477/TN
邮发代号:5-142
创刊时间:1994
发行周期:半月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:0.91
综合影响因子:1.1