Spark框架下分布式K-means算法优化方法-学术点评

Spark框架下分布式K-means算法优化方法

作者：王法玉; 刘志强

摘要：针对传统K-means算法在处理海量数据时存在计算效率低和时间复杂度高的缺点,提出一种基于Spark计算框架的改进K-means算法。利用网格单元保存数据点的空间位置信息,通过与聚类中心的空间位置关系减少冗余计算,为提高算法处理海量数据的能力,采用Spark框架对算法进行并行化实现。在集群环境下进行测试,基于Spark框架的改进后算法能有效降低计算的时间复杂度,算法具有良好扩展性,计算效率有显著提高。

分类：

期刊
>
自然科学与工程技术
>
信息科技
>
电子信息科学综合

收录：

北大期刊(中国人文社会科学期刊)
统计源期刊(中国科技论文优秀期刊)
知网收录(中)
维普收录(中)
万方收录(中)
SA 科学文摘(英)
JST 日本科学技术振兴机构数据库(日)
Pж(AJ) 文摘杂志(俄)
哥白尼索引(波兰)
国家图书馆馆藏
上海图书馆馆藏

关键词：

spark计算框架
分布式
网格
空间位置

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询免费咨询杂志订阅

相关期刊

中国ESP研究 Chinese Physics C Applied Mathematics and Mechanics Chinese Journal of Chemical Physics Communications in Theoretical Physics

期刊名称：计算机工程与设计

期刊级别：北大期刊

期刊人气：3780

期刊推荐本期目录

杂志介绍：: 主管单位：中国航天科工集团; 主办单位：中国航天科工集团第二研究院706所; 出版地方：北京; 快捷分类：计算机; 国际刊号：1000-7024; 国内刊号：11-1775/TP; 邮发代号：82-425; 创刊时间：1980; 发行周期：月刊; 期刊开本：A4; 下单时间：1-3个月; 复合影响因子：0.62; 综合影响因子：1.32