基于词向量语义聚类的微博热点挖掘方法

作者:刘培磊; 唐晋韬; 王挺; 谢松县; 岳大鹏; 刘海池

摘要:随着社交媒体的迅速发展,信息过载问题越发严重,因此如何从海量、短小而充满噪声的社交媒体数据中发现和挖掘出热点话题或者热点事件成为一个重要的问题。结合社交媒体数据实时性、地理性、包含较多元数据等特点,提出了用户行为分析与文本内容分析相结合的热点挖掘方法。在内容分析过程中,提出了从更细的词语粒度进行聚类,以代替传统的在消息粒度进行聚类的经典方法。为了提高话题关键词提取的效果,引入了基于词向量技术,并通过语义聚类的方法进行热点挖掘。在真实数据集上的实验结果表明,该方法提取的关键词语义关联性强、话题划分效果好,在主要指标上优于传统的热点挖掘方法。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电子信息科学综合
收录:
  • 知网收录(中)
  • 维普收录(中)
  • 上海图书馆馆藏
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 北大期刊(中国人文社会科学期刊)
  • 国家图书馆馆藏
  • 万方收录(中)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 热点挖掘
  • 社交媒体
  • 词向量
  • 语义聚类

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机工程与科学

期刊级别:北大期刊

期刊人气:9748

杂志介绍:
主管单位:国防科技大学
主办单位:国防科技大学计算机学院
出版地方:湖南
快捷分类:计算机
国际刊号:1007-130X
国内刊号:43-1258/TP
邮发代号:42-153
创刊时间:1973
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:0.79
综合影响因子:1.27