基于hadoop平台的分布式数据挖掘系统研究-学术点评

基于hadoop平台的分布式数据挖掘系统研究

作者：郭建伟李瑛杜丽萍赵桂芬蒋继娅

摘要：以Hadoop为代表的分布式系统,正在逐渐成为大数据挖掘系统必要组成部分。因此,就是在Hadoop分布式系统上完成数据挖掘任务的一次实践。主要任务是使用Hadoop搭建分布式集群环境,并在该环境上部署数据挖掘任务。研究Hadoop系统架构,对其分布式文件系统HDFS和MapReduce并行编程模型的原理和实现进行深入理解。系统掌握数据挖掘过程,将传统的数据挖掘算法使用MapReduce编程实现,并针对Hadoop平台的数据挖掘算法的执行情况进行研究,主要分析其执行效率和可扩展性。选择数据挖掘中的数据聚类任务作为代表,并选择K-means聚类算法做深入研究,掌握其原理并编写其MapReduce版本,在Hadoop平台上测试并验证其效果。通过不同集群规模和不同数据规模的对比试验得出,使用Hadoop分布式系统进行数据挖掘任务具有良好地加速比和效率,计算能力的扩展性能分析也显示了其具有较大的潜力。

分类：

期刊
>
自然科学与工程技术
>
基础科学
>
基础科学综合

收录：

万方收录(中)
上海图书馆馆藏
国家图书馆馆藏
知网收录(中)
维普收录(中)

关键词：

数据挖掘

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询免费咨询杂志订阅

相关论文

基于供应链的采购管理基于小学核心素养的数学教学

期刊名称：中国科技信息

期刊级别：部级期刊

期刊人气：17606

期刊推荐本期目录

杂志介绍：: 主管单位：中国科学技术协会; 主办单位：中国科技新闻学会; 出版地方：北京; 快捷分类：科技; 国际刊号：1001-8972; 国内刊号：11-2739/N; 邮发代号：82-415; 创刊时间：1989; 发行周期：半月刊; 期刊开本：A4; 下单时间：1个月内; 复合影响因子：0.32; 综合影响因子：0.31