大数据技术汇总十篇

时间:2023-03-23 15:05:43

大数据技术

大数据技术篇(1)

中图分类号:TP334 文献标识码:A 文章编号:1674-098X(2014)02(a)-0048-01

“大数据”是从英语“Big Data”一词翻译而来的,是当前IT界热议和追逐的对象,是继物联网、云计算技术后世界又一热议的信息技术,发展迅速。截至2011年年底,全球互联网总数据存储量已达100亿TB以上,并且以59%以上的年增长率递增。麦肯锡公司在2011年的报告(Bigdata:the Next FrontierforInnovation)中,对这种密集型数据爆炸的现象称为“大数据”时代的到来。大数据领域出现的许多新技术,是大数据采集、存储、处理和呈现的有力武器。

1 大数据概念

大数据概念的前身是海量数据,但两者有很大的区别。海量数据主要强调了数据量的规模,对其特性并没有特别关注。而大数据对传播速率、体积、特征等数据的各种特性进行了描述。目前对大数据最广泛的定义是:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。大数据的特点一般用“4V”概括,即:Volume:数据量大,目前大数据的最小单位一般被认为是10~20TB的量级;Variety:数据类型多,包括了结构化、非结构化和半结构化数据;value:数据的价值密度很低;velocity:数据产生和处理的速度非常快。

2 大数据相关技术

2.1 大数据处理通用技术架构

大数据的基本处理流程与传统数据处理流程的主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用并行处理。目前,MapReduce等分布式处理方式已经成为大数据处理各环节的通用处理方法。

MapReduce分布式方法最先由谷歌设计并实现,包括分布式文件系统GFS、MapReduce分布式编程环境以及分布式大规模数据库管理系统Bigrable。MapReduce是一套软件框架,包括Map和Reduce两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。MapReduce的工作原理是先分后合的数据处理方式。Map即“分解”,把海量数据分割成若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作,以得到最终结果。用户只需要提供自己的Map函数以及Reduce函数就可以在集群上进行大规模的分布式数据处理。MapReduce将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。

2.2 大数据采集

大数据的采集是指利用数据库等方式接收发自客户端(Web、App或者传感器形式等)的数据。大数据采集的主要特点是并发访问量大,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站的并发访问量在峰值时达到上百万,这时传统的数据采集工具很容易失效。大数据采集方法主要包括:系统日志采集、网络数据采集、数据库采集、其他数据采集等四种。

2.3 大数据分享

目前数据分享主要通过数据集市和开放数据平台等方法实现。开放数据平台可以提供涵盖本地服务、娱乐、教育和医疗等方方面面的数据集合,用户不但可以通过API访问,还可以很方便地通过SDK集成到移动应用当中。在线数据集市除了提供下载数据的功能外,还为用户提供上传和交流数据的场所。数据平台和数据集市不但吸引有数据需求用户,还能够吸引很多数据开发者在平台上进行开发。

2.4 大数据预处理

数据预处理就是对采集的数据进行清洗、填补、平滑、合并、规格化以及检查一致性等处理,并对数据的多种属性进行初步组织,从而为数据的存储、分析和挖掘做好准备。通常数据预处理包含三个部分:数据清理、数据集成和变换和数据规约。

2.5 大数据存储及管理

大数据需要行之有效的存储和管理,否则人们不能处理和利用数据,更不能从数据中得到有用的信息。目前,大数据的存储和管理技术主要分三类:分布式文件系统、数据仓库和非关系型数据库(NoSOL)。

2.6 大数据分析及挖掘

大数据的分析和挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、数据挖掘、统计学、数据库等技术,高度自动化地分析大数据,做出归纳性的推理,从中挖掘出潜在的模式,从而在大数据中提取有用信息。大数据的分析和挖掘与传统的数据挖掘比较有两个特点:一是通常采用并行处理的方式;二是大数据分析对实时处理的要求很高,流处理等实时处理技术受到人们欢迎。常用的方法有:机器学习、数据挖掘、模式识别、统计分析、并行处理。

2.7 大数据检索

①数据库实时检索:在数据仓库或者NoSOL等大数据存储平台上,或者多个不同结构的数据存储平台之间快速、实时地查询和检索不同结构的数据。②实时搜索引擎:对互联网上的大量数据和信息进行即时、快速搜索,实现即搜即得的效果。目前各大搜索引擎都在致力于实时搜索的实现。

2.8 大数据可视化

可以提供更为清晰直观的数据感官,将错综复杂的数据和数据之间的关系,通过图片、映射关系或表格,以简单、友好、易用的图形化、智能化的形式呈现给用户供其分析使用,可通过数据访问接口或商业智能门户实现,通过直观的方式表达出来。可视化与可视分析通过交互可视界面来进行分析、推理和决策;从海量、动态、不确定甚至相互冲突的数据中整合信息,获取对复杂情景的更深层的理解;可供人们检验已有预测,探索未知信息,同时提供快速、可检验、易理解.的评估和更有效的交流手段。可视化是人们理解复杂现象,诊释复杂数据的重要手段和途径。

2.9 大数据应用

①视频搜索;②内容分析;③理赔分析;④社交网络分析;⑤社会分析;⑥社交媒体监控。

大数据技术篇(2)

1引言

数据库技术主要是通过相关的技术措施对信息数据进行有效的存储管理、优化数据结构、设计数据管理模式等。另外,数据库技术还可以对库里的数据进行科学合理的整合分析,挖掘数据的真实性和实用性,找出不同数据之间的联系,这也是当前社会发展的实际需求,对于现代信息技术的发展起着十分重要的作用和意义。

2数据库技术简介

随着大数据技术的不断改革完善,作为近年来兴起的新型技术,它在一定程度上是随着云计算的出现而发展的。立足于云计算的相关技术,对人们生活和工作中产生的大量数据进行综合处理,结合计算机技术、网络通信技术、数据库技术等,有效推动社会经济的稳步发展。数据库技术在推广和普及过程中,主要是以计算机信息技术为载体,充分结合传统数据信息处理技术和互联网技术,对社会中的生产要素和业务要素进行及时有效的分析和更新,调整社会中现有的业务结构和发展模式,从而有效实现经济转型。

3大数据时代背景下数据库技术的应用现状

3.1构建与面向对象实际需求相结合的数据库

在进行数据库的开发和利用过程中,应当充分立足于用户的实际需求,有效结合面向对象方法,根据数据库的分析情况,充分了解用户的需求,为用户提供更为全面和细致的服务。从一定意义上来讲,不仅可以体现出个性化服务,还能保障数据传输过程中的安全性和实效性[1]。根据相关调查研究可以看出,当前我国数据库技术仍处于不断发展和创新时期,面向对象搭建出高效的数据库,并且根据用户需求不断进行调整优化。

3.2构建与多媒体技术相结合的数据库

一方面,对大多数群体来说,多媒体数据库中所存储的资料数据更多,界面的设置也更加多元化,能够在第一时间吸引人们的注意力,从而更好地满足人们的个性化需求,实现技术的多元化发展。另一方面,数据库的安全问题一直是人们最为关注的问题,安全隐患一直是制约数据库技术发展的重要因素,通过有效融合数据库技术与多媒体,可以在一定程度上提高数据库的安全性能和稳定性能。在实际工作过程中,为了充分推动数据库的发展和多媒体技术的有效融合,相关工作人员应当解决以下几个问题。第一,多媒体数据库在实际使用过程中必将涉及到用户的个性化需求,在进行设计时应当有针对性的融入相关数字数据,实现多媒体数据的有效管理和存储,已成为了技术节点搭建的重要模块。第二,数据库技术与多媒体技术要实现有效结合必将涉及到系统的兼容性,这不仅是数据之间的融合,还是数据交叉使用的重要内容,如何充分进行二者的融合和兼容,是全面深入实现多媒体数据库面临的主要问题[2]。

4大数据时代背景下的数据库技术特点

4.1统一性

受传统数据库系统搭建模式内容的影响,不同类型的数据库在使用中仍存在不兼容的情况。因此,无法充分利用数据库中的信息资源,造成了资源的闲置或浪费,无法充分满足用户的实际需求。大数据时代背景下的数据库技术可以有效解决这一问题,针对不同类型的数据库进行有效统一的数据库建设,不断完善数据信息资源的检索功能,从而提高用户的满意程度和工作效率,简化操作流程[3]。

4.2共享性

数据库技术的有效实现和价值体现,在一定程度上取决于数据信息资源的共享性。人们可以通过方便快捷的方式方法获取资源,不断提高信息的使用效率。在实践应用过程中,相关工作人员可以根据虚拟数据的实际情况对各个数据库中的子节点进行科学合理的搭建,逐渐实现功能的多元化发展和信息资源的共享。随着我国信息技术的不断发展,数据库技术的逐渐拓展和信息资源的共享,在一定程度上实现了信息资源的方便快捷,不断满足用户的多元化需求,从而充分体现出数据库的价值和作用。

5大数据时代背景下数据库技术的应用对策和手段

5.1数据标签

数据标签是大数据时代背景下使用数据库技术的基础,能够充分实现数据的查询和有效定位。在进行数据库的有效搭建和完善过程中,相关技术人员应当有针对性地凸显出数据库中相关资源的特殊性,充分立足于社会发展的实际需求,科学合理的设置相应字符长度,不断提高数据标签的科学性和合理性。

5.2节点建设

在使用数据库时,节点建设应当是建设的核心和关键,各个要素之间的有效搭建能够充分满足用户的实际需求,体现出个性化发展目标。根据实际情况可以看出,当前我国在节点建设中仍存在一定的问题,比如过于注重其标准性,采用固定的某种模式进行搭建,没有充分考虑到实际需求,使得节点建设脱离实际,无法充分发挥数据库技术的作用和功能。基于此,相关技术人员应当在原有数据库技术基础上进行优化完善,结合原有的地址内容和关键词检索信息,对整个数据信息资源进行重新整合,从而提高数据库的有效性。

5.3虚拟大数据系统

在数据库中灵活有效搭建出虚拟大数据技术可以更好地实现数据的海量管理,对数据库综合性能的提升和创新改革服务内容等都有着极其重要的作用和意义。虚拟大数据系统为数据群的前台,其功能的实现直接影响了数据库和节点信息资源的收集交汇,合理分配任务。虚拟大数据系统应当是整个虚拟数据中的关键所在,只有确保其正常高效运行,才能为用户提供更为更全面的服务[4]。

5.4信息获取

大数据技术篇(3)

[4]Big data[EB/OL]..

[18]丁智,林治.MapRdeuce编程模型、方法及应用综述[J].电脑知识与技术,2014,10(30):70607064.

[19]江舢,金晶,刘鹏展,等.分布式海量数据批处理技术综述[Z].中国科技论文在线,2012.

[20]吴哲夫,肖鹰,张彤.大数据和云计算技术探析[J].互联网天地,2015(4):611.

大数据技术篇(4)

中图分类号:TP311.1 文献标识码:A 文章编号:1007-9416(2016)11-0241-02

社会各行各业之所以可以不断的改革和创新,与信息技术所具备的强大推动力有着密不可分的联系,同时在其推动下人们也进入了一个全新的信息化时代,增加了人们在生活中所涉及到的方方面面的信息亮。人计算机数据库技术的诞生为人们及时有效的管理这些信息提供了重要的技术支持。目前,在社会的很多领域比如:国防、通讯等行业都在大力的推广数据库技术,而这些也给人们的生活带来了极大的便利。就目前这项技术发展的情况而言,这项技术不但可以完成对信息的及时有效处理,而且其也积极的推动了社会的发展和进步。

1 数据库技术特点

数据的统一处理可以通过数据库实现。在没有广泛的应用计算机数据库之前,传统的数据库技术在信息处理时存在过于分散而且相互之间联系不够紧密的缺点,从而使得数据的作用没有充分的发挥出来。而计算机数据库则可以有效的在各个数据之间建立联系,并利用相关的逻辑顺序实现了数据结构模型的建立。同时数据库中的各个数据又可以保持其独立性,在进行某一数据的更改时不会对数据库的整体结构造成影响。正是因为数据库本身具备了数据的共享性,所以相关文件系统也就不用用户自己建立,只需要其借助计算机进行所需数据的调取就可以了,这样也就避免了信息重复。而且由于数据库中相关的信息还具备了整体性、一致性以及独立性,所以也进一步提高了数据调取和使用效率的提高。

1.1 组织性

数据库内所有的信息都具有一定的顺序和结构。数据库中左右的文件和信息之间都存在着联系,而且其排列也是按照一定的顺序,从而组成了信息结构体系的整体性。而且存储在同一数据库中的信息都有相似的特点。

1.2 共享性

计算机数据库建立的主要目的就是实现数据库的共享。如果数据库无法实现数据信息的共享的话,那么这个数据库也就失去了建立的意义。具备良好共享性的数据库不但可以进行内部信息的共享。而且和可以在不同的数据库之间建立联系,从而实现不同部门、不同个体之间的数据共享,甚至在不同的国家和地区之间也可以建立数据库的共享。

1.3 独立性

逻辑独立性和物理独立性是数据库独立所体现的两个方面。可以随意的改变某一个数据库的逻辑结构就是我们所说的逻辑独立性。比如,可以修改数据库内部数据的性质,或者将新的数据添加到数据库中,而且还可以调整数据的类型。而在调整这些信息的时候都不需要对原有的程序进行更换。数据的存储结构发生根本性的变化就是我们所说的物理独立性,比如,数据库原有的逻辑结构不会因为存储设备的更滑、存储位置的更滑或者存取方式的改变等情况而受到影响,同时也不会将程序运行的方式有任何的改变。

1.4 冗余度的可控性

冗余指的就是数据库中重复的数据。在需要对数据库中的数据进行专用的情况下,用户经常会在接收信息的过程中重复接收相同的数据,而此时也就出现了数据的冗余。而通过计算机数据库技术的应用就实现了系统自动删除重复信息数据的功能。而且,具体的操作人员也可以根据实际的需要保留一定数量的冗余数据,这样不但可以提高数据查询的效率,而且也更加方便了用户的操作。

1.5 灵活性

数据库不但要进行数据的存储,同时好不想具备管理、编辑、输入以及输出等相关的功能,同时在实际的使用和操作时灵活性也相对较大。而用户在使用的过程中可以根据自身的实际需要建立相关的信息数据库,并可以随时的调用数据库中所存储的相关数据信息。

2 数据时代数据库技术的具体应用

目前使用的最为广泛的信息管理手段就是计算机数据库技术,这项技术最大的优势就是提高了信息管理的效率,而且其在很多行业中都得到了广泛的应用和推广。数据存储不仅可以通过计算机数据库的应用得到满足,同时其还提供了更加个性化的服务给用户。就目前而言,计算机数据库在应用的过程中主要有以下几方面的特点:首先,用于对敏感、机密数据资料的处理中。计算机数据库可以通过设置数据访问的密码、防火墙等方式确保信息的保密性,避免了机密的信息数据被恶意的窃取或篡改。同时其对于用户个人的隐私也具有极为重要的作用,所以,计算机数据库技术已经被越来越多的商业机构用来进行数据的存储。其次,建立有效的数据模型。信息的内容不同其所具有的性质和价值也就不同,因此必须根据信息的特性对其进行分类和整理,切记不可所有的信息都采用统一的模式进行处理,只有这样才能从根本上保证信息处理的质量,为后期的查询与使用做好铺垫。同时计算机数据库技术还可以根据不同信息数据的特点按照需要迅速的建立数据模型,为人们查找数据提供了极大的便利。最后,保障数据信息的安全有效。安全管理信息是数据库所具备的另一大特点,这一特点为数据的安全可靠性的提高奠定了基础。目前,所使用的数据库一般都具有信息自动备份和文件恢复的功能。即便系统因为意外而出现故障,也不会造成信息丢失。而如果系统受到外部入侵窃取者被恶意篡改时,通过对之前备份好的数据进行还原就可以得到原始的数据。而这些度不仅对数据库的安全性提供了最大限度的保障,而且降低了因为数据故障而使数据安全受到威胁。

3 数据时代数据库技术在应用趋势

3.1 计算机数据库技术在信息管理中的应用范围日益广泛

将计算机技术和数据库技术紧密的结合,使得这两种技术的潜能得到了充分的发挥,而且其应用的前景也极为的广泛。随着计算机数据库自身应用范围在商业、农业以及服务业等领域的不断扩大,也进一步促进了相关产业管理效率和质量的提高,从根本上保证了产品的信息质量,而且也促进了相关产业的深化发展。安全性和实用性是计算机数据库技术最大的特点,而且通过各个领域的推广已经取得了显著的效果,不仅获得了各个产业的青睐,而且为这一技术的深化发展奠定了良好的基础。

3.2 计算机数据库技术在信息管理中的应用呈现出强劲的发展势头

在实际的应用过程中计算机数据库技术的优势已经越来越显著,所以这项技术已经得到了越来越多的行业的应用和推广。同时计算机数据库技术在其实际的应用过程中也在不断的进行自身的完善和创新,而这也促进了信息管理效率的提高。到目前为止数据库技术已经经历了几十年的发展,可以将其发展阶段分为:网状数据库的使用阶段和层次数据库的发展和使用两个阶段,目前为止,人们对于对象数据库的应用已经极为的广泛。数据库技术在其不断的发展和演变的历程中技术日趋的成熟。而且经过不断的实践检验之后,其在信息管理方面的能力有了更进一步的提高。从而使得目前所使用的数据库具备了更加便捷、高效、安全、稳定、操作性强以及稳定性高等优点,而这些优点对于其在各个领域的推广和应用都具有极为重要的意义。伴随着对媒体技术的迅速发展,在不久的将来。数据库在数据的编辑、整理以及展示等方面的能力也会得到进一步的提升。同时将其与多媒体技术有效的结合之后,实现了对文字、声音、影像等素材的综合展现,而且还可以进行复杂信息的处理,而这些不但提升了这一技术在信息管理方面的应用力度,同时也扩大了这项技术的使用范围。总体而言,数据库技术与计算机技术不但会更加紧密的结合在一起,而且其应用范围也会越来越广阔。同时信息管理的前景和市场也会随着计算机数据库技术的应用而不断的扩大,这项技术的身影会出现在农业、工业以及商业等众多的领域,不仅从根本上提高了这些行业的信息化水平,而且也带动了相关领域生产力水平和生产效率的提高。

3.3 计算机数据库技术的系统安全性能不断增强

计算机数据库技术在信息管理中的功能,随着数据库安全性能的提升而得到了充分的发挥。利用计算机数据库技术进行保密性较高的信息的存储可以有效的避免安全风险的发生,使信息资源的价值得以充分的体现出来。而且计算机数据库技术也具有便于管理的最大特点。数据信息利用计算机系统的备份功能进行备份从而避免因为误删信息而造成不必要的损失,同时也有效的降低了信息复制的成本。同时随着计算时数据库自身安全性能的不断提高,也增强了其在数据保护时的效果,不仅过滤了非法的信息,而且对于危害数据库安全的操作和行为也进行了有效的阻止。而计算机数据库不较之传统的安全保护手段而言,其不仅新增加了用户账户、新型密码等手段,而且还设置了更多的抵抗风险的系统,从而全面的提升了计算机数据库的管理性能,为广泛的推广计算机数据库技术奠定了良好的基础。

4 结语

总体而言,由于我们处于信息化时代中,而且每天都会面对新的事物的信息,而这也就增加了人们每天生活中所面临的信息量和数据量。而要想对这些信息和数据进行有效的整理和筛选就必须有先进的信息处理技术。所以将计算机技术和数据库技术紧密的结合在一起,就可以将两者的技术优势充分的发挥出来,使其具备更加完善、高效、全面的数据信息处理功能,从而促进信息处理效率和质量的提高。

参考文献

[1]金澈清,钱卫宁,周敏奇,周傲英.数据管理系统评测基准:从传统数据库到新兴大数据[J].计算机学报,2015,01:18-34.

[2]刘海英.数据挖掘技术在警务数据分析系统的应用研究[D].吉林大学,2015.

大数据技术篇(5)

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)03-0019-02

1 概述

当前,互联网的发展已经进入到一个全新阶段,互联网的应用已经深入到人们的日常生活中,尤其是移动互联网技术的发展和运用已经日益成熟,传统企业都已经开始自觉地运用移动互联网技术和概念拓展新业务和方向[1]。在此背景下,大数据技术应运而生,针对大数据这一新兴概念,麦肯锡全球研究所曾给出这样的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

2 分布集群数据库

组成分布集群数据库系统的每台计算机可单独放在一个地方,其中每台计算机都可能保存一份数据库的完整拷贝副本,或者是部分副本,每台计算机单元具有自己局部的数据库,位于不同地点。这些计算机之间通过网络进行连接,共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。

在分布式集群系统中,数据库对用户来说是一个逻辑上的数据库整体,数据库的一致性、完整性及安全性都是对这一逻辑整体进行管理控制的。分布集群服务器对共享的数据进行统一的管理,但是非数据库的处理操作可以由客户机来完成。

在分布式集群系统中,通常采用外部链接技术进行数据库的远程控制。组成分布式集群的各计算机之间可以通过网络进行相互通讯,用户可以远程透明地单独访问远程各数据库单元的数据,也可以组合多个数据库的数据以满足多工作组、部门的复杂应用需求。远程数据库链接技术连接了各分散的数据库单元,逻辑的将他们组合为一个整体,从应用视图的角度来看,分布集中数据库系统就是一个整体的数据库服务系统。用户对此系统的单一逻辑的数据库访问请求都被自动分解、自动寻址、自动转换为网络请求,并在相应数据库结点上实现相应的操作请求。

分布集群数据库系统支持混合的网络拓扑结构,并采用混合的网络协议,自动地进行网络协议的转换。在分布集群数据库系统中,在保证海量数据存储的基础上,混合了高可用集群和高可靠集群,提高了数据库系统的可用性和可靠性,满足了现代互联网应用的需求。

物化视图是从一个或几个基表导出的表,同视图相比,它存储了导出表的真实数据。当基表中的数据发生变化时,物化视图所存储的数据将变得陈旧,用户可以通过手动刷新或自动刷新来对数据进行同步。物化视图包括了查询结果的数据对象,是远程数据的本地副本快照。物化视图允许你在本地维护远程数据的副本,但是只能读取这些副本[2]。

3 高可用集群

数据库高可用集群通过缓存交换技术实现,它基于同一份数据文件、但提供了多个数据库实例,即数据库服务进程。高可用性首要确保数据不丢失,数据不丢失是高可靠性的最基本的要求,是必须要保证的;其次是使数据库一直维持在正常的运行状态,确保不停机,以避免给客户造成损失。

在大数据应用环境下,数据库系统的停机分为两类,即计划性停机和非计划性停机。计划性停机一般在数据库管理软件升级、系统维护或者硬件维护的情况下进行,是有计划地安排节点或者系统的停机。非计划性停机是异常突然停机,具有不可预见性,这种情况一般是数据库管理系统缺陷或系统故障或硬件故障等[3]。

高可用集群数据库技术主要包含如下几点:

1)负载均衡技术:支持静态和动态负载均衡技术,实现系统范围内各节点负载均匀,避免出现单一节点或者部分节点负载过重而影响整体性能。

2)全局事务并发控制技术:通过高速缓存复制技术,各节点保持字典数据一致,同时能够看到全局锁和事务视图,使得能够正常实现事务的ACID特性。

3)多节点并发访问文件控制技术:由于多个节点共享同一份数据,控制好各节点对同一份数据的更新操作,避免出现错误的文件读写导致的数据不一致的问题。

4)动态增加和移除节点技术:在高可用集群环境中,能够在不中断服务的情况下,通过增加节点来提升系统性能,同时也能够在节点出现故障时,从集群中自动移除该节点,并且不影响整个集群系统对外提供服务。

4 高可靠集群

一般采用数据复制技术来保证数据库系统的高可靠性,数据复制同时也是一种分担系统访问压力、加快异地访问响应速的技术,数据复制具有物理和逻辑之分。通过将一个服务器实例上的数据变更复制到另外的服务器实例。可以用于解决大、中型应用中出现的因来自不同地域、不同部门、不同类型的数据访问、请求导致数据库服务器超负荷运行、网络阻塞、远程用户的数据响应迟缓的问题。

高可靠集群提供数据库的容灾、数据保护、故障恢复等,实现数据库快速切换与灾难性恢复。在生产数据库的保证"事务一致性"时,使用生产库的物理全备份创建备库,备库能够通过生产库传输过来的归档日志或重做条目自动维护备用数据库。

高可靠集群的数据同步技术有以下优势:

1)数据库自身内置的功能;

2)配置管理较简单,不需要熟悉其他第三方的软件产品。

3)物理Standby数据库支持任何类型的数据对象和数据类型;

4)逻辑Standby数据库处于打开状态,可以在保持数据同步的同时执行查询等操作。

5)在最大保护模式下,可确保数据的零丢失。

5 MPP技术的应用

MPP 架构采用统一的并行操作数据库引擎,将数据分散在不同的数据库节点上,在高速的内部网络环境下,对于海量数据的并发查询可极大地减少 I/O,提高查询效率。MPP 系统工作起来就像是一台单独的计算机,由于采用自动化的并行处理,在分析型数据仓库等 OLAP 应用中,查询性能比传统的单节点数据库大大提高。MPP 系统为新一代数据仓库所需的大规模数据和复杂查询提供了先进的软件级解决方案,具有业界先进的架构和高度的可靠性,能帮助企业管理好数据,使之更好地服务于企业,推动数据依赖型企业的发展。

6 大数据中的应用

基于数据库管理系统,搭建高可用、高可靠的分布集群数据库系统,结构如图 1所示。

在此环境中,高可用集群之间可搭建成主备关系,与任意高可靠集群或任意单机数据库服务器通过外部链接构成逻辑上统一的分布集群数据库系统。对于用户而言,仍然是单一的数据库服务。

单机数据库服务器、高可用集群、高可靠集群都可通过外部链接作为单独节点加入到分布集群数据库系统中,利用数据库系统的分布集群事务机制,既保留了局部数据库的自治特性,又可以作为全局分布集群系统中的一员参与到整个海量数据分析中。

解决了海量规模数据存储的问题后,针对快速的数据流转、多样的数据类型和价值密度低问题,数据库技术还实现了以下功能:

1)物化视图技术和高级复制技术解决分布集群系统中数据流转速度慢的问题。

2)支持面相对象、xml数据类型,满足数据类型多样化的需求。

3)数据挖掘技术,是决策分析技术的一个更高层次,数据挖掘技术采用人工智能的决策分析方法,按照用户既定的业务目标,对数据进行筛选,揭示其中的规律,并进一步将其模型化。

7 结束语

随着计算机技术的发展,数据库管理系统作为处理数据的核心之一,在大数据中的应用不应被忽视。因此,加强数据库新技术的研发,对于各个国家在大数据时代的信息战中都显得尤为重要。

参考文献:

大数据技术篇(6)

1.大数据技术现状

当前许多企业都已基本实现了信息化建设,企业积累了海量数据。同时企业间的竞争日益加剧,企业为了生存及发展需要保证自身能够更加准确、快速和个性化地为客户提品及服务。而大数据技术能够从海量的数据中获取传统数据分析手段无法获知的价值和模式,帮助企业更加迅速、科学、准确地进行决策和预测。

1.1大数据技术现状

广大企业的迫切需求反之也促进了大数据技术的飞速发展,涌现出了诸如Hadoop、Spark等实用的架构平台。其中,目前最主流的就是Hadoop。Hadoop的分布式处理架构支持大规模的集群,允许使用简单的编程模型进行跨计算机集群的分布式大数据处理。通过使用专门为分布式计算设计的文件系统HDFS,计算的时候只需要将计算代码推送到存储节点上,即可在存储节点上完成数据本地化计算。因此,Hadoop实现了高可靠性、高可拓展性、高容错性和高效性,可以轻松应对PB级别的数据处理。

1.2大数据技术对烟草数据中心建设的影响

当前,烟草企业基于多年的信息化建设已经积累了海量数据,同时每天还不断有新的各种数据产生。在高并发、大体量的情况下,需要在数据采集、存储和运算方面采用与以往完全不同的计算存储模式,这就不可避免地需要采用大数据技术。同时,除了购进单、卷烟交易数据、货源投放数据等结构化数据外,还产生越来越多的非结构化数据,利用大数据技术,对非结构化数据进行预处理,可为人工判断和机器学缩减范围。对海量数据以及非结构化的信息进行分析统计,仅仅依靠传统的技术手段很难实现,只有引入大数据技术才能充分的将所有的数据资源利用起来,成为企业决策的助力。

2.江苏烟草数据中心应用现状

2.1江苏烟草数据中心体系架构

目前江苏烟草数据中心以一体化数据中心、一体化数据管理和一体化数据分析三个部分为核心,构建了一套完整的数据中心架构。一体化数据中心是整个数据中心最核心的部分。通过数据仓库模型、数据存储、ETL工具等组成部分,构建了业务数据的收集、加工、存储、分发的总体架构。建立了按ODS(SODS、UODS)、DW、DM三层结构设计建设的数据仓库。一体化数据管理通过主数据管理、信息代码管理、ESB平台构建了企业主数据收集、标准化、同步分发过程。结合指标管理,全面管控企业的公用基础信息。通过数据质量管理,全面有效管控数据质量。通过数据服务管理,有效提升数据中心的对外服务能力与水平。通过元数据管理来管理数据中心元数据。一体化数据分析通过构建移动信息、业务分析、数据挖掘三大模块,针对性解决当前不同人员的决策、管理以及操作需求,发挥数据中心的数据、技术、平台优势。通过移动信息模块为各级领导提供决策支持;通过业务分析模块为业务人员的日常工作提供支撑;通过数据挖掘模块,发掘数据所蕴含的隐性价值。基于上述一整套架构的支撑,目前数据中心构建了全省范围的数据集成、交换体系,一方面提升了全省基础数据、业务数据的规范化程度和数据质量,另一方面为在建业务系统的实施、已有系统的改造提供了标准化的高质量数据保障。

2.2大数据技术的应用场景分析

随着江苏数据中心的不断运行,一些基于传统技术架构的功能逐渐暴露出种种问题。其中较为突出的问题有:一是使用者对于大数据量数据的查询需求。基于传统技术架构的查询功能响应较慢;二是分析支持灵活性的不足。传统统计分析应用的数据结构大多是预先定义好的,面对灵活的非传统的统计查询需求难以支撑,需要进行额外的加工处理。江苏烟草数据中心结合互联网大数据技术特性,引入Hadoop平台以及Impala等工具,搭建基于大数据的自定义数据查询平台,以补充基于传统技术架构的功能不足,并为未来进一步发展建设基于大数据技术和云环境的数据中心做好准备。

3.基于大数据的自定义数据查询平台实现

3.1设计思路及架构

基于大数据的自定义数据查询平台是在现有数据中心的建设成果之上,以数据中心的数据存储为基础,以Hadoop、Hive、Impala等大数据技术工具为手段,以简单灵活、快速高效的查询展现为目标,建立的数据查询分析支持平台。

3.2技术方案

自定义数据查询平台的建设主要涉及数据存储架构、后台数据加工准备、前端展现三块内容。自定义数据查询平台的数据存储分为两部分。一部分为KETTLE、Impala等工具以及自定义查询相关的元数据存储,另一部分则是查询所需的各种统计数据的存储。元数据的存储根据元数据库的不同主要分为两部分。第一部分为基于Mysql数据库的元数据存储。这部分元数据主要包括有ETL工具KETTLE的元数据,以及前端自定义查询需要定义的权限、数据源、表、列和表列关系等信息。第二部分为基于Hive的元数据存储。这部分存储的是前端查询需要使用的Impala工具的元数据。统计数据的存储则是使用Hadoop的HDFS实现的。根据Hadoop平台架构,自定义数据查询平台的HDFS建立在6台虚拟主机构建的集群上的。其中:2台虚拟主机作为NameNode,一台为主节点,另一台为备份节点;其余4台虚拟主机都作为DataNode用于存储数据。所有数据将会统一分块自动分配存储到4个DataNode上。自定义数据查询平台的数据加工,是通过开源ETL工具KETTLE实现的。通过KETTLE从数据中心现有数据仓库及数据集市中读取需要的数据,根据自定义数据查询平台的数据模型定义对数据进行处理,最终加载到Hadoop的HDFS文件系统中。自定义数据查询平台的前端展现功能,主要是基于JSP技术实现页面开发,通过JDBC或者ODBC对后台Mysql数据库进行访问。使用者在查询页面中组织定义查询的内容,查询服务自动根据获取的元数据信息将定义的查询内容拼接转换成为查询SQL,之后通过Impala执行查询SQL对HDFS文件系统中的统计数据进行查询。

3.3系统实现效果

利用大数据技术,自定义数据查询平台较好地解决了目前数据中心所面对的问题,满足了使用人员对于大数据量以及分析灵活性的需求。面对使用人员层出不穷的查询需求,自定义数据查询平台通过预先梳理、分类定义各种维度以及统计指标。使用者可以自由的根据实际需求选择分析所需的维度及统计指标,同时还可以基于这些基础的内容更进一步自定义过滤条件以及计算公式,并指定其展现形式。在大数据量查询效率方面,自定义查询平台相比传统架构的查询功能有了较大提升。

4.结束语

大数据技术的发展方兴未艾,应用前景无比广阔,对各行各业的巨大作用正在逐步展现。江苏烟草数据中心的建设既要看到大数据技术未来的前景,更需要明确地认识到大数据平台的建设并非一朝一夕,需要有明确而长远的规划,不断完善数据环境建设、云计算环境的构建以及数据服务的扩展。

参考文献

[1]陈鹏.大数据时代下的信息安全问题研究[J].电子制,2015,18:48

大数据技术篇(7)

中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2013)11-0000-00

近两年来,大数据(big data)概念越来越引人瞩目,它被用来描述和定义在当前信息爆炸时代所产生的海量数据和与其相关的技术发展与创新。大数据时代对人类对海量数据的驾驭能力提出前所未有的挑战。如何管理这些迅速膨胀的海量数据,也成为每个数据库厂商必须面对的问题。本文介绍的是ORACLE的表/表空间压缩技术,这是ORACLE数据库在大数据环境下极为实用的一个属性。随着企业数据的爆炸性增长,很多决策支持系统和数据仓库对磁盘空间的需求也在急剧增长。目前很多大中型企业里,TB级甚至PB级的数据仓库已经越来越普遍。Oracle从9iR2 开始,提供一种表/表空间压缩技术,用以减少磁盘开销,节约存储空间,并在某些情况下获得查询性能的提高。

1 Oracle的压缩技术

Oracle的压缩技术实际上从8i就出现了,提供简单的索引压缩;到9ir2时,可以进行表级别的压缩,但只能对批量装载操作(比如直接路径装载,CTAS等)涉及的数据进行压缩,普通的DML操作的数据则无法压缩。Oracle 10g增加了对LOB的压缩,但并未解决压缩的写操作问题;从Oracle 11g开始,使用了"基于数据块的批次压缩技术",也就是说数据的压缩并不在执行DML语句时即时发生,当一个数据块开始写入数据时,插入的数据并不被立即压缩,这个时候对性能是没有影响的,对数据块的压缩动作发生在数据块即将被写满时,这样可以保证大部分DML语句的效率,从而真正支持了各种DML语句也能够用于OLTP环境(insert,update等)。

2 常用的压缩命令

下面列举一些常用的压缩命令。

2.1 表级别的使用

可以在建表时指定压缩属性,也可修改已有表的压缩属性。

create table tab1 compress as select * from user_tables;

create table tab2(cust_idnumber,cust_name varchar2(200))compress;

alter table tab3 move compress;-- 修改现有表为压缩表

alter table tab3 move nocompress;-- 解压已经压缩的表

如果要对分区表的不同分区设置压缩属性,我们可以在创建分区表时设置,也可等到需要对某个分区进行压缩时再设置。

Create table test(cust_id number,cust_name varchar2(200)) partition by range(cust_id)

partition P1 values less than (10000) compress,

partition P2 values less than (20000) compress,

partition PMAX values less than (maxvalue) );--

该命令表示P1和P2为压缩属性,PMAX则没有设置压缩属性。

Alter table test modify partition PMAX compress;--

该命令表示将PMAX分区设置为压缩属性。

2.2 表空间级别的使用

可以在建表空间时指定压缩属性,也可将现有表空间转换为压缩表空间。和其他存储参数一样,COMPRESS属性也具备一些继承特性。当在一个COMPRESS属性的表空间中创建一个新表时,这个新表从该表空间继承COMPRESS属性。需要注意的是,该属性只针对在该表空间建立的表,通过"alter table tab1 move tablespace test"方式移到该表空间的普通表和在该表空间用默认方式建立的索引,都不具备压缩属性。

create tablespace ETL datafile '/oracle/data03/oradata/stkhxf/test01.dbf' SIZE 500M default compress;--创建表压缩空间

alter tablespace ETL default compress;-- 将非压缩表空间转换为压缩表空间

alter tablespace ETL default nocompress;--取消表空间的压缩

2.3 索引的使用

除了表可以压缩之外,索引也同样可以压缩,当索引键值的重复率很高时,可以考虑压缩索引。注意,如果是主键索引或惟一约束索引,则无需压缩。

我们可以在建索引时进行指定:create index IDX_1 on tset(cust_id)compress.

也可以将现有索引转换为压缩属性:alter index IDX_2 rebuild compress.

2.4 通过数据字典查看对象是否被压缩

select owner,table_name,compression from dba_tables ;--查看表

select table_owner,table_name,partition_name,compression from dba_tab_partitions; --查看分区表

select owner,tablespace_name,def_tab_compression from dba_tablespaces;--查看表空间

select owner,index_name,compression from dba_indexes; --查看索引

大部分情况下,使用压缩技术对数据库性能提升是有利的。Orecle采用智能算法的压缩技术尽量降低写操作的负载,被压缩的数据可以存贮在更少的数据块中,这样就降低了磁盘空间使用。对一个压缩属性的表或索引的全表扫描和索引区间扫描所需要读取的数据块更少,减少了磁盘IO,查询可以更快完成。其次,由于需要处理的数据块减少,CPU搜索和处理数据块的时间会降低,同时需要读入内存的数据块也减少了,内存的资源消耗也随之降低。再次,由于数据压缩和解压是Oracle内部的行为,外部网络可以仅传输被压缩的数据块,这样也有效降低了网络负载。

3 结束语

大数据技术篇(8)

与电子消费产品受到了普通消费者越来越广泛的关注相比,关注数据中心的人要少得多,但这并不意味着数据中心的技术创新脚步就比电子消费品的慢。事实上,从事数据中心相关研究的科学家们同样在加紧研发各种先进的产品和技术,这些新产品和技术或者要解决数据中心面临的实际问题,或者致力于让系统工作得更加稳定。以下是近期最值得关注的6种创新性技术。

光纤技术

HDMI电缆在消费电子领域的成功经验已经证明。让一种电缆同时支持蓝光播放机、高清电视机和任意机顶盒,将会给消费者带来很多方便。英特尔基于同样的思路开发出了Light Peak技术,这种光纤将首先用于笔记本电脑和台式电脑,以提高传输速度,同时消除使用连接线时的麻烦。当然,这种光纤也可以用在数据中心,用于连接服务器和交换机。

这种光纤只有3.2毫米,粗细与USB电缆相仿,最长可以达到100英尺。英特尔已经设计了可安装在计算机中的控制器,光缆现在也进入生产环节。英特尔称,包括惠普、戴尔在内的多家公司将在2011年开始生产采用光纤连接的计算机,这些光纤将应用Light Peak技术。

Light Peak引发了人们将光纤技术应用于数据中心的兴趣。实际上,数据中心对光纤并不陌生。自20世纪90年代初,IBM推出了ESCON(企业系统连接)生产线,光纤就已经应用在数据中心,在大型机中它的数据传输速度可以达到200Mb/s。而Light Peak技术的不同之处在于,它的数据传输速度能达到10Gb/s。另外,英特尔还表示,采用该技术的光纤产品将更便宜,比现有的光纤产品更轻。

美国马萨诸塞州康科德Pund-IT公司的分析师Charles King说:“英特尔表示,由于去除了不必要的端口,Light Peak技术降低了复杂程度,也易于管理,能满足为高性能的e-SATA和DisplayPort系统提供较高吞吐量的需求。如果英特尔公司所说的这些优点真能实现,那么Light Peak将可以大大简化这些数据中心管理人员的工作。这些人一直被安装、管理和维修那些不太可靠的光缆所困扰。”

King认为,这项技术的成功与否将取决于开发商和供应商是否愿意接受Light Peak,并生产其周边产品。

全浸式液冷和水平机架

数据中心用液体冷却不是一个新概念,但下面介绍的这一冷却技术却为此带来了一个新的转折。这是由Green Revolution Cooling(以下称GR Cooling)带来的全浸式液冷和水平机架技术。

首先,它们的机架一侧是打开的,这有助于电缆管理,也让管理员能够更容易操作设备。同时,水平放置的机架完全浸入到液体中。GR Cooling的发言人表示,这种名叫GreenDEF的新冷却液是由矿物油提炼而来,无毒也不导电,更重要的是成本低。

美国德州高级计算中心(德州大学的一个下属单位)计算机系统主管Tommy Minyard说,“液体在底部和线路板之间循环流通,几乎流过了计算机的所有节点。”他解释说。这意味着更有效的冷却。Minyard正在他自己的数据中心安装GR的冷却系统,预计会比传统的空气制冷系统节省30%~40%的开支。

尽管和空气制冷相比,采用GR Cooling技术的前期投入成本要高,但是这些投入是值得的。因为这种制冷技术支持更高的功率密度,支持能耗更大的系统,比如采用了刀片服务器和英特尔最新处理器的计算机系统。超级计算机Ranger每个机架功耗就达到30千瓦。

Minyard介绍说,Cray很早以前就提出全浸入式液体冷却技术,后来一直没有真正普及,而最近这种液体冷却技术卷土重来,人们重新对它提起了兴趣。甚至IBM公司现在也重新研究计算机节点的液体冷却技术。

Pund-IT的King说,现在的主要问题是,企业对用液体冷却数据中心的回报有担心,因为这项技术的实施需要很高的投入,毕竟它还是一个未经广泛使用的技术。

GR Cooling创始人之一的Mark Tlapak说:“通常,液体冷却系统的前期安装成本比空气制冷系统要高,但是,采用我们的技术总体成本会比风冷更低。”

他解释了成本更低的原因,一个是他们所使用的液体成本比较低,另一原因采用他们的技术之后,数据中心的可扩展性更好。

“数据中心的成本与该数据中心的用电量很有关系,如果耗电量下降,那么很多方面的成本也会降下来,包括发电机、UPS、冷却塔等。”Tlapak说。

多条宽带线路合并为一

企业可以部署光纤线路,或者租用多个T1连接,但这些连接投资都不少。目前,有一种新兴技术可以提供一个低成本的解决办法。

Mushroom Networks的Truffle BBNA(BroadbandBonding Network Appliance,宽带联合网络设备)通过一种名为绑定的技术同时整合了多达6条独立的宽带连接,来提供一条高速连接。该公司说,Truffle技术能将所有可用的宽带线路组合成一条传输速度高达50Mb/s的宽带连接,这些宽带连接可以是DSL调制解调器、电缆调制解调器、T1线路或其他任何宽带连接。

这一技术既有助于提高访问互联网时的整体吞吐量。客观上也是一种备份。如果一条线路损坏,Truffle连接也能依靠其他可用的线路正常运行。

肯尼亚的一个电视制片人Steve Finn在其名为《挑战非洲》(这个节目在8个非洲国家播出)的电视节目中使用了Mushroom Networks公司的设备。他说,这个电视节日内容制作需要宽带,最多曾每月为宽带费花去4000美元。而该设备能提供4倍以上的连接速度(四个单独的线路速度叠加),而花费大约是同等高速线路的一半。

Omni Consulting Group的分析师Frank J・Bernhard说,Mushroom Networks满足了那些不想支付多个Tl或T3连接的高昂费用,却仍然需要可靠和快速的互联网接入的公司的需求。尽管其他公司(包 括恩科公司)也提供了同样的联合技术,但是要比Muahroom Networks的成本更高,安装更复杂。由此说明,该项技术还并没有广泛被应用。

让多数据中心的连接更容易

在一个大型企业中,保持多个数据中心的连接是一个很令人头疼的问题。这其中有安全问题、以太网传输的问题、操作问题(如保证各分支机构的交换机之间连接速度最快),以及由于IT业务在多个地点运行必须考虑的容灾问题等。

思科新研发了一种名为OTV(Overlay Transport Virtualization)的技术,用这种技术连接多个数据中心比用传统方法要容易得多。它基本上是2层的网络传输技术,由软件来更新网络交换机(包括思科的Nexus 7000)连接位于不同地区的数据中心。

该OSV软件每个许可证约为25000美元,它能充分利用数据中心之间建立的连接的最大带宽。思科技术发言人表示,现在市场也有一些连接多个数据中心的技术,如多协议标签交换(MPLS),更早的则有帧中继和异步传输模式协议等。该发言人解释说,与这些方法不同的是。思科OTV技术不需要重新设计网络,也不需要在内核中安装如标签交换这样的特殊服务。OTV只是简单地覆盖现有的网络,它在继承所有精心设计的IP网络优势的同时,保持了在第2层进行互联的数据中心的独立性。

总部设在迈阿密的云服务供应商Terremark使用思科的OTV来连接它在美国、欧洲和拉丁美洲的13个数据中心。该公司说,与“自己动手”进行连接的方法相比,OTV节省了很多开支。由于减少了复杂性,同时OTV还有自动错误恢复功能,这就使得在发生灾难时,多个数据中心的恢复就像一个那样简单。

Terremark的高级副总裁Norm Laudermileh说:“传统上,想要达到负载均衡或在紧急情况时实现各数据中心的自动恢复功能,需要专门的网络和复杂的软件。而采用思科的OTV,从一个地方发出的以太网信息被封装起来传送到另一个地方,这样就建立起了一个逻辑的数据中心。一旦发生故障,就可以采用像VMware的VMotion这样的技术把一个位置的虚拟机自动地迁移到其他物理位置。”

基于优先级的电子邮件存储

通信是现代企业经营的前提和基础,但我们常常见到,电子邮件在数据中心中仅仅是被当做需要归档的一个数据集来看待,没有加以细分。而Messagemind可以自动确定哪些电子邮件可以安全保存到成本更低的存储系统中、哪些邮件需要保存到性能更好的存储系统中。该工具能分析公司所有通信资料,跟踪最终用户对每一个邮件的阅读、删除或保存操作,然后按优先级分组。

数据中心管理员可以利用这些信息按照优先级存储电子邮件,这可以节省成本。例如,不用把所有电子邮件都存储在一个高成本的存储系统。那些标记为低优先级(根据最终用户的点击行为来确定)的邮件可以存储在更便宜一些的存储系统中,只有高优先级的电子邮件才存储在更高的性能、更高成本的介质中。

这个分析功能也可以用在数据中心之外的场合,比如。用到商务智能系统的仪表盘中,管理人员和最终用户在仪表盘上就可以看出某个项目谁帮助了他,企业还可以查看电子邮件的联络图,看出谁在工作项目上的沟通是高效的、谁是落后的、谁又是很少做出贡献的。

Pund-IT的King说,Messagemind有很有趣的应用前景,因为电子邮件系统现在似乎垃圾遍地,充斥着支离破碎的对话和不连贯的项目讨论。而对于常遭受诉讼困扰的公司来说,管理电子邮件非常痛苦,因为电子邮件已经成为法律证据的一部分。

“即使是最好的电子邮件解决方案,也要求员工来管理他们的信息,”King说,“如果真如广告所言,它会在企业中得到广泛应用。通过有效自动地管理电子邮件,Messagemind可以大大减轻数据中心管理员肩上的负担,让他们不用在不断增加的存储压力下苦苦挣扎。”

用户配置虚拟化

大数据技术篇(9)

中图分类号:F49 文献标识码:A 文章编号:1007-9416(2015)030-0209-01

近几年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。2012 年3 月,奥巴马公布了美国《大数据研究和发展计划》,标志着大数据已经成为国家战略,上升为国家意志。从硅谷到北京,大数据的话题传播迅速。

1 大数据时代

随着计算机技术全面融入社会生活,经过半个多世纪的发展,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据”这个概念。

1.1 大数据时代产生的背景

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”大规模生产、分享和应用海量数据的时代之所以能够开启,源于信息科技的进步、互联网与云计算技术和物联网的发展。

(1)信息科技的进步。信息处理、信息存储和信息传递是信息科技的三个主要支撑,存储设备性价比不断提升、网络带宽的持续增加,为大数据的存储和传播提供了物质基础。

(2)互联网与云计算技术。互联网时代,电子商务、社交网络和移动通信产生了大量结构化和非结构化的数据,以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、多变化的终端数据存储下来,并随时进行分析与计算。互联网领域的公司最早重视数据资产的价值,他们从大数据中淘金,并且引领着大数据的发展趋势。

(3)物联网的发展。众所周知,物联网时代所创造的数据不是互联网时代所能比拟的,而且物联网的数据是异构的、多样性的、非结构和有噪声的,最显著的特点是是它的高增长率。大数据是物联网中的关键技术,物联网对大数据技术的要求更高,它的发展离不开大数据。

1.2 大数据与数据挖掘

Google、Amazon、Facebook、Twitter,这些称霸全球互联网的企业,它们的成功都具备一个共同的因素,就是收集分析海量的各种类型的数据,并能够快速获取影响未来的信息的能力。“购买了此商品的顾客还购买了这些商品”,这恐怕是世界上最广为人知的一种商品推荐系统了,而创造出这个系统的正是Amazon。Amazon 通过分析商品的购买记录、浏览历史记录等庞大的用户行为历史数据,并与行为模式相似的其他用户的历史数据进行对照,提供出最适合的商品推荐信息。Facebook 可以为用户提供类似“也许你还认识这些人”的提示,这种提示可以准确到令人恐怖的程度,而这正是对庞大的数据进行分析而得到的结果。这种以数据分析为核心的技术就是数据挖掘(data mining)。

从技术角度看,数据挖掘是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。从商业角度来说,数据挖掘是从庞大的数据库中抽取、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识。大数据概念的提出,将为数据挖掘技术的发展和应用带来一个很大的机遇。

2 数据挖掘

数据挖掘旨在从大数据中提取隐藏的预测性信息,用便于理解和观察的方式反映给用户,作为决策的依据。

2.1 数据挖掘原理

数据挖掘又称为数据库中的知识发现(Knowledge Diseoveryin Databases,KDD),是一个从数据库或数据仓库中发现并抽取隐含的、明显未知的、具有潜在用处的信息的过程。数据挖掘一般流程主要包括三个阶段:数据准备、数据挖掘、结果解释和评价。在数据挖掘的处理过程中,数据挖掘分析方法是最为关键的。

(1)数据准备。数据准备是从海量数据源得到数据挖掘所用的数据,将数据集成到一起的过程。由于数据收集阶段得到的数据可能有一定的污染,即数据可能存在不一致,或有缺失数据、脏数据的存在,因此需通过数据整理,对数据进行清洗及预处理。

(2)数据挖掘。是数据挖掘中最关键的一步,使用智能的方法提取数据模式,例如决策树、分类和聚类、关联规则和神经网络等。首先决定要提取什么样的模型,然后选取相应的算法参数,分析数据从而得到可能形成知识的模式模型。

(3)结果解释和评价。数据挖掘后的结果需要转换成用户能够理解的规则或模式,并根据其是否对决策问题具有实际意义进行评价。

2.2 数据挖掘技术在营销中的应用

无差别的大众媒体营销已经无法满足零和的市场环境下的竞争要求。精准营销是企业现在及未来的发展方向,在精准营销领域,最常用的数据挖掘分析方法包括分类、聚类和关联三类。

(1)关联规则。挖掘关联规则就是发现存在于大量数据集中的关联性或相关性,例如空间关联挖掘出啤酒与尿布效应;时间关联挖掘出孕婴用品与家居装修关系;时间关联挖掘出调味品、纸巾与化妆品的消费等。

此外,关联规则发现也可用于序列模式发现。序列模式发现的侧重点在于分析数据项集在时间上或序列上的前后(因果)规律,可以看作是一种特定的关联规则。例如顾客在购买了打印机后在一段时间内是否会购买墨盒。

(2)分类分析。分类是假定数据库中的每个对象属于一个预先给定的类,从而将数据库中的数据分配到给定的类中。它属于预测性模型,例如在银行业,事先定义用户的信用状况分为两类:信用好和信用坏,对于一个信用状态未知的用户,如果需要确定其信用度,可以采用“决策树”法构建一个分类模型,决策树方法着眼于从一组无次序、无规则的客户数据库中推理出决策树表现形式的分类规则。决策树的非叶子节点均是客户的一些基本特征,叶子节点是客户分类标识,由根节点至上而下,到每个叶子节点,就生成了一条规则,由该决策树可以得到很多规则,构成了一个规则集合,从而进行数据分析。

(3)聚类分析。聚类是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程,其目的就是通过相似的方法来收集数据分类。为品牌找客户,回答品牌“谁来卖”是精准营销首先要解决的问题,科学细分客户是解决这一问题的有效手段。聚类可以将目标客户分成多个类,同一个类中的客户有很大的相似性,表现在购买行为的高度一致,不同类间的客户有很大的相异性,表现在购买行为的截然不同。

3 结语

大数据时代背景下“数据成为资产”,数据挖掘技术作为支撑精准营销的重要手段,将它应用于营销行业的决策中,不仅拓展了数据挖掘技术的应用范围,而且大数据时代的数据挖掘技术可以帮助企业获得突破性回报。

参考文献

[1]维克托・迈尔―舍恩伯格;肯尼思・库克耶.大数据时代:生活、工作与思维的大变革[M].周涛译.杭州:浙江人民出版社,2013.

[2]王伟玲.大数据产业的战略价值研究与思考.技术经济与管理研究[J],2015(1).

大数据技术篇(10)

【关键词】大数据 数据挖掘 分类 聚类

大数据(Big Data),也称为海量数据,是随着计算机技术及互联网技术的高速发展而产生的独特数据现象。现代社会正以不可想象的速度产生大量数据,如网络访问,微博微信,视频图片,手机通信,网上购物……等等都在不断产生大量的数据。如何更好的利用和分析产生的数据,从而为人类使用,这是非常重要的科学研究。在大数据时代,更好的利用云计算以及数据挖掘,显得尤为重要。

1 大数据的概念

大数据,是指无法在一定时间内用常规机器和软硬件对其进行感知、获取、管理、处理和服务的数据集合。IBM将大数据的特点总结为三个V,即大量化(Volume)、多样化(Variety)和快速化(Velocity)。

即产生的数据容量大。数据主要来源如:E-mail、搜索引擎的搜索、图片、音频、视频、社交网站、微博微信、各种应用软件和app、电子商务以及电子通信等等。在实际生活中,电子商务的购物平台数量和种类越来越多,社交网站的典型facebook的数据量大的惊人,以PB计量都不够。数据存储的单位不仅仅是MB、GB等,而是使用了表示更大容量的TB、PB、EB、ZB和YB等,每个单位的关系为后者是前者的1024倍,如1PB=1024TB。同时大数据的增长速度是越来越快,如手机相机的像素数随着新款手机的出现而成倍的增长。

1.2 多样化

从数据组织形式的角度将数据分为结构化数据和非结构化数据。结构化数据,具有一定的规律,可以使用二维表结构来表示,并存储在数据库中,如高校的教务管理系统的数据、银行交易产生的数据。而非结构化数据是无法通过预先定义的数据模型表达并存储在数据库中的数据,如声音、视频和图片等等。当前非结构化数据的增长速度远远超过结构化数据。

1.3 快速化

在当前商业竞争激烈的时代,对实时的数据进行分析和处理,挖掘有用的数据信息,并用于商业运作,对于企业和组织来说非常重要。如现在网络购物会依据多数人的购物组合,分析出大部分人在购买一件物品的同时会同时购买其他的物品,从而在购物选择时给予方便,提高网购的效率,提高效益。

随着互联网技术和计算机技术的快速发展,在产生大数据的同时,人们要能够对这些数据加以利用,得到有用的信息,才是最重要的。为了让海量规模的数据能够真正发挥巨大的作用,需要将这些数据转换为有用的信息和知识,即从传统的数据统计向数据挖掘和分析进行转换。比如沃尔玛超市能够从男人购物时买啤酒的同时会购买小孩的纸尿裤这种关联,并在实际物品摆放时将这两种物品放置在一起,方便用户购物。

2 数据挖掘

随着信息技术应用的广泛,大量的数据产生并存储各个领域的信息系统中,数据呈现了爆炸式的增长。数据挖掘在这种“数据爆炸,知识匮乏”的情况下出现的。数据挖掘(Data mining)是一个多学科交叉的研究领域,它融合了数据库技术、机器学习、人工智能、知识工程和统计学等学科领域。数据挖掘在很多领域尤其是电信、银行、交通、保险和零售等商业领域得到广泛的应用。

数据挖掘也称为从数据中发现知识,具体来讲就是从大规模海量数据中抽取人们所感兴趣的非平凡的、隐含的、事先未知的和具有潜在用途的模式或者知识。

3 数据挖掘的主要研究内容

数据挖掘的任务是发现隐藏在数据中的模式,其模式分为两大类:描述型模式和预测型模式。描述型模式是对当前数据中存在的事实做规范描述,刻画当前数据的一般特性。预测型模式则是以时间为主要关键参数,对于时间序列型数据,根据其历史和当前的值去预测其未来的值。常使用的算法有:

3.1 聚类分析

聚类是将数据划分成群组的过程,根据数量本身的自然分布性质,数据变量之间存在的程度不同的相似性(亲疏关系),按照一定的准则将最相似的数据聚集成簇。主要包括划分聚类算法,层次聚类算法和密度聚类算法等。经典算法有K-Means、K-Medoids。

3.2 特性选择

特性选择是指为特定的应用在不失去数据原有价值的基础上选择最小的属性子集,去除不相关和冗余的属性。特性选择用于在建立分类模型前,或者预测模型之前,对原始数据库进行预处理。常用的算法有最小描述长度法。

3.3 特征抽取

特征抽取式数据挖掘技术的常用方法,是一个属性降维的过程,实际为变换属性,经变换了的属性或者特性,是原来属性集的线性合并,出现更小更精的一组属性。常用算法如主成分分析法、因子分析法和非负矩阵因子法等。

3.4 关联规则

关联规则挖掘是数据挖掘领域中研究最为广泛和和活跃的方法之一。最初的研究动机是针对购物篮分析问题提出的,目的是为了解决发现交易数据库中不同商品之间的联系规则。关联规则是指大量数据中项集之间的有趣关联或相关关系。常用的算法有Apriori算法。

3.5 分类和预测

分类是应用已知的一些属性数据去推测一个未知的离散型的属性数据,而这个被推测的属性数据的可取值是预先定义的。要很好的实现推测,需要事先定义一个分类模型。可用于分类的算法有决策树、朴素贝叶斯分类、神经网络、logistic回归和支持向量机等。

4 结论

随着时代的进步,数据也发生变化,具有各种各样的复杂形式。很多研究机构和个人在对结构化数据进行数据挖掘的同时,也展开了对空间数据、多媒体数据、时序数据和序列数据、文本和Web等数据进行数据挖掘和分析。同时大数据的发展促进了云计算的产生,基于云计算的数据挖掘也在迅速崛起。

参考文献

[1]刘军.大数据处理[M].北京:人民邮电出版社,2013(09).

[2]王元卓等.网络大数据:现状与展望[J].计算机学报,2013(06).

[3]申彦.大规模数据集高效数据挖掘算法研究[D].江苏大学,2013(06).

[4](加)洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014.

[5]贺瑶等.基于云计算的海量数据挖掘研究[J].计算机技术与发展,2013(02).

作者简介

许凡(1996-),男,江苏省南京市人。现就读三江学院计算机科学与工程学院计算机软件工程专业本科。

上一篇: 民航法律论文 下一篇: 国际贸易专科论文
相关精选
相关期刊