摘要:文章基于Spark分布式计算框架设计并实现了并行KMeans聚类模型,并通过该模型在不同规模的MovieLens数据集上进行训练比对实验,结果表明,该并行KMeans聚类模型适合运行在分布式集群环境下,且并行化计算效率也有不俗的表现;其次通过repartition算子设计分片加载数据,优化并行方案,有效减少了模型的训练时间。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
相关期刊
相关论文
期刊名称:计算机与数字工程
期刊级别:统计源期刊
期刊人气:8598