结合时序和语义的中文微博话题检测与跟踪方法

作者:陈铁明; 王小号; 庞卫巍; 江颉

摘要:微博文本具有短小快捷、主题多变等特点,社交话题检测与跟踪研究面临新的挑战。结合微博的话题时序性和短文本语义相似度等特点,提出了基于微博聚类的话题检测与跟踪系统方法。首先,通过定义微博文本的时序频繁词集,给出面向热点话题的特征词选择方法;然后,根据时序频繁特征词集,利用最大频繁项集获得微博初始聚类;针对初始簇间存在文本重叠情况,提出基于短文本扩展语义隶属度的簇间重叠消减算法,获得完全分离的初始簇;最后,根据簇语义相似度矩阵,给出凝聚式话题聚类方法。通过新浪微博完成实验测试,表明所提方法可用于中文微博热点话题检测与跟踪。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 互联网技术
收录:
  • 知网收录(中)
  • 维普收录(中)
  • 万方收录(中)
  • 国家图书馆馆藏
  • 上海图书馆馆藏
  • 统计源期刊(中国科技论文优秀期刊)
  • 文摘与引文数据库
关键词:
  • 微博文本
  • 频繁词集
  • 特征选择
  • 聚类
  • 话题检测
  • 时序
  • 语义

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:网络与信息安全学报

期刊级别:统计源期刊

期刊人气:2509

杂志介绍:
主管单位:工业和信息化部
主办单位:人民邮电出版社有限公司
出版地方:北京
快捷分类:计算机
国际刊号:2096-109X
国内刊号:10-1366/TP
邮发代号:80-529
创刊时间:2015
发行周期:双月刊
期刊开本:B5
下单时间:1-3个月
复合影响因子:0.7
综合影响因子:0.94