基于改进K-means算法的微博舆情分析研究

作者:谢修娟; 李香菊; 莫凌飞

摘要:为避免初始聚类中心选取到孤立点容易导致聚类结果陷入局部最优的不足,提出一种基于密度的K-means(聚类算法)初始聚类中心选择方法。该方法首先计算每个数据对象与其它数据对象间的平均相似度,找出平均相似度高于某固定阈值的对象视作核心对象,再从核心对象中选取彼此间最不相似的作为初始聚类中心。通过自构建的新浪微博抓取工具,分别抓取不同类别的数千条数据,经过分词、预处理及权重计算后,用改进的K-means算法对其进行聚类分析,查准/全率较传统的K-means算法要稳定,聚类的平均时间也得到缩短。实验结果表明,改进后的算法在微博聚类中有更高的准确性和稳定性,有利于从大量的微博数据中发现热点舆情。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电子信息科学综合
收录:
  • 知网收录(中)
  • 维普收录(中)
  • 上海图书馆馆藏
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 北大期刊(中国人文社会科学期刊)
  • 国家图书馆馆藏
  • 万方收录(中)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 微博
  • 聚类中心
  • 密度

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机工程与科学

期刊级别:北大期刊

期刊人气:9750

杂志介绍:
主管单位:国防科技大学
主办单位:国防科技大学计算机学院
出版地方:湖南
快捷分类:计算机
国际刊号:1007-130X
国内刊号:43-1258/TP
邮发代号:42-153
创刊时间:1973
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:0.79
综合影响因子:1.27