基于hadoop平台的分布式数据挖掘系统研究

作者:郭建伟 李瑛 杜丽萍 赵桂芬 蒋继娅

摘要:以Hadoop为代表的分布式系统,正在逐渐成为大数据挖掘系统必要组成部分。因此,就是在Hadoop分布式系统上完成数据挖掘任务的一次实践。主要任务是使用Hadoop搭建分布式集群环境,并在该环境上部署数据挖掘任务。研究Hadoop系统架构,对其分布式文件系统HDFS和MapReduce并行编程模型的原理和实现进行深入理解。系统掌握数据挖掘过程,将传统的数据挖掘算法使用MapReduce编程实现,并针对Hadoop平台的数据挖掘算法的执行情况进行研究,主要分析其执行效率和可扩展性。选择数据挖掘中的数据聚类任务作为代表,并选择K-means聚类算法做深入研究,掌握其原理并编写其MapReduce版本,在Hadoop平台上测试并验证其效果。通过不同集群规模和不同数据规模的对比试验得出,使用Hadoop分布式系统进行数据挖掘任务具有良好地加速比和效率,计算能力的扩展性能分析也显示了其具有较大的潜力。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 基础科学
  • >
  • 基础科学综合
收录:
  • 万方收录(中)
  • 上海图书馆馆藏
  • 国家图书馆馆藏
  • 知网收录(中)
  • 维普收录(中)
关键词:
  • 数据挖掘

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:中国科技信息

期刊级别:部级期刊

期刊人气:17606

杂志介绍:
主管单位:中国科学技术协会
主办单位:中国科技新闻学会
出版地方:北京
快捷分类:科技
国际刊号:1001-8972
国内刊号:11-2739/N
邮发代号:82-415
创刊时间:1989
发行周期:半月刊
期刊开本:A4
下单时间:1个月内
复合影响因子:0.32
综合影响因子:0.31