摘要:目前数据呈爆炸式增长,海量存储状态,给聚类研究带来了诸如计算复杂性和计算能力不足都很多问题;而云计算平台通过负载均衡,动态配置大量的虚拟计算资源,有效地突破了耗时耗能的瓶颈,在海量数据挖掘中体现出了其独特的优势;文章深入研究了基于云计算平台Hadoop的并行K-means算法,并结合MapReduce分布式计算模型,给出了算法设计的方法和策略,包括MapReduce处理的map、shuffle和Reduce 3个过程,仿真结果表明K-means并行算法的效率较高。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社