基于Spark的并行KMeans聚类模型研究

作者:侯敬儒; 吴晟; 李英娜

摘要:文章基于Spark分布式计算框架设计并实现了并行KMeans聚类模型,并通过该模型在不同规模的MovieLens数据集上进行训练比对实验,结果表明,该并行KMeans聚类模型适合运行在分布式集群环境下,且并行化计算效率也有不俗的表现;其次通过repartition算子设计分片加载数据,优化并行方案,有效减少了模型的训练时间。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电子信息科学综合
收录:
  • 维普收录(中)
  • 知网收录(中)
  • 上海图书馆馆藏
  • 万方收录(中)
  • 国家图书馆馆藏
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • spark
  • kmeans
  • movielens
  • 并行聚类
  • repartition

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机与数字工程

期刊级别:统计源期刊

期刊人气:8598

杂志介绍:
主管单位:中国船舶重工集团公司
主办单位:中船重工集团公司七院第七0九研究所
出版地方:湖北
快捷分类:计算机
国际刊号:1672-9722
国内刊号:42-1372/TP
邮发代号:
创刊时间:1973
发行周期:月刊
期刊开本:A4
下单时间:1个月内
复合影响因子:0.35
综合影响因子:0.64