Spark框架下分布式K-means算法优化方法

作者:王法玉; 刘志强

摘要:针对传统K-means算法在处理海量数据时存在计算效率低和时间复杂度高的缺点,提出一种基于Spark计算框架的改进K-means算法。利用网格单元保存数据点的空间位置信息,通过与聚类中心的空间位置关系减少冗余计算,为提高算法处理海量数据的能力,采用Spark框架对算法进行并行化实现。在集群环境下进行测试,基于Spark框架的改进后算法能有效降低计算的时间复杂度,算法具有良好扩展性,计算效率有显著提高。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电子信息科学综合
收录:
  • 北大期刊(中国人文社会科学期刊)
  • 统计源期刊(中国科技论文优秀期刊)
  • 知网收录(中)
  • 维普收录(中)
  • 万方收录(中)
  • SA 科学文摘(英)
  • JST 日本科学技术振兴机构数据库(日)
  • Pж(AJ) 文摘杂志(俄)
  • 哥白尼索引(波兰)
  • 国家图书馆馆藏
  • 上海图书馆馆藏
关键词:
  • spark计算框架
  • 分布式
  • 网格
  • 空间位置

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机工程与设计

期刊级别:北大期刊

期刊人气:3780

杂志介绍:
主管单位:中国航天科工集团
主办单位:中国航天科工集团第二研究院706所
出版地方:北京
快捷分类:计算机
国际刊号:1000-7024
国内刊号:11-1775/TP
邮发代号:82-425
创刊时间:1980
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:0.62
综合影响因子:1.32