虚拟环境下大数据智能并行聚类方法研究

作者:屈洁

摘要:为了减少虚拟环境下大数据运行时间,数据运行时能够反映出一定的规律性和特殊的分类性,需要对虚拟环境下大数据进行智能并行聚类;当前大数据聚类方法是根据K-均值聚类方法不断地进行大数据样本分类的调整,经过多次计算调整后达到数据并行聚类的效果,但每当有新的大数据流入时,都需要对当前全部数据进行K-均值聚类,计算过程复杂,聚类效率低;为此,提出了一种基于MapReduce的虚拟环境下大数据智能并行聚类方法;首先在虚拟环境下大数据中抽取小规模数据集并确定大数据簇的质心,采用Single法对所抽样的小规模数据进行聚类,获得虚拟环境下大数据属性的均值,利用最小距离分类规则将大数据属性的均值快速地向数据簇的真实中心移动,依据Davies-bouldin指标假设一个数据簇离散度参数,在此参数值中选出大数据智能并行聚类相似度最大值,最后利用聚类相似度最大值得到Davies-bouldin指数,以Davies-bouldin指数为基础将多个类别的质心间距以及聚类离散度指定阈值合并为一个类并进行迭代计算,得到数据最佳聚类中心位置,由此完成虚拟环境下大数据智能并行聚类;仿真实验结果证明,所提方法提高了大数据智能并行聚类的灵活性和普遍适用性,减少了聚类时间,并适合应用于教育技术领域,不仅可以使教育技术网络数据更加合理化,而且更加规范化。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 自动化技术
收录:
  • SA 科学文摘(英)
  • 剑桥科学文摘
  • 国家图书馆馆藏
  • 上海图书馆馆藏
  • 知网收录(中)
  • 维普收录(中)
  • 万方收录(中)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 虚拟环境
  • 大数据
  • 智能并行
  • 聚类方法

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机测量与控制

期刊级别:统计源期刊

期刊人气:10973

杂志介绍:
主管单位:中国航天科工集团公司
主办单位:中国计算机自动测量与控制技术协会
出版地方:北京
快捷分类:计算机
国际刊号:1671-4598
国内刊号:11-4762/TP
邮发代号:82-16
创刊时间:1993
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:0.55
综合影响因子:1