摘要:为解决OLDA模型挖掘大规模文档主题时计算效率低下和不能发现新主题的问题,提出一种分布式的DOLDA模型(distribute online LDA,DOLDA)。建立分布式矩阵存储主题-词项,设计一种动态负载均衡策略来提升计算速度和线程调度的性能,根据Zipf定律结合主题的遗传度提出一种文档权值设置方法。在Spark分布式计算平台的实验结果表明,相比OLDA模型,DOLDA模型能够提高近16%的加速比,有效地在线分析主题的演化。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
相关期刊
期刊名称:计算机工程与设计
期刊级别:北大期刊
期刊人气:3696