数据分析分析技术汇总十篇

时间：2024-02-06 10:07:38

数据分析分析技术

数据分析分析技术篇（1）

随着信息技术迅速发展，数据库的规模不断扩大，产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息，而传统的查询、报表工具无法满足挖掘这些信息的需求。因此，需要一种新的数据分析技术处理大量数据，并从中抽取有价值的潜在知识，数据挖掘（DataMining）技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程，这些信息的表现形式为：规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据，并从中发现隐藏的关系和模式，进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法，常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具，处理数据挖掘中的分类问题，回归分析用来找到一个输入变量和输出变量关系的最佳模型，在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归，还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响，是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单，实用的分析规则，它描述了一个事物中某些属性同时出现的规律和模式，是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系，原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系，但是，并不是所有通过关联得到的属性之间的关系都有实际应用价值，要对这些规则要进行有效的评价，筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组，同组内的样本具有较高的相似度，不同组的则相异，常用的技术有分裂算法，凝聚算法，划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系，从而对样本结构做出合理的评价，此外，聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效，在运用某一个算法之前，一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法，通过把实例从根结点排列到某个叶子结点来分类实例，叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试，该结点的每一个后继分支对应于该属性的一个可能值，分类实例的方法是从这棵树的根结点开始，测试这个结点指定的属性，然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上，能够对大量复杂的数据进行分析，并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析，神经网络既可以表现为有指导的学习也可以是无指导聚类，无论哪种，输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构，建立三大类多种神经元网络，具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法，通过变异和重组当前己知的最好假设来生成后续的假设。每一步，通过使用目前适应性最高的假设的后代替代群体的某个部分，来更新当前群体的一组假设，来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体，产生新种群(后代)的过程；交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换，形成新个体的过程；变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中，可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下，只以考察数据的分类能力为基础，解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性，对数据库中的元组根据各个属性不同的属性值分成相应的子集，然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合，形成知识的基本成分。任何初等集合的并集称为精确集，否则，一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素，也就是那些既不能确定为集合元素，也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的，尽量提高学习机的泛化能力，具有良好的推广性能和较好的分类精确性，能有效的解决过学习问题，现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外，支持向量机算法是一个凸优化问题，局部最优解一定是全局最优解，这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上，任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法，很难说哪种方法好，那种方法劣，而是视具体问题而定。

三、结束语

数据分析分析技术篇（2）

引言

随着科技的日益进步，计算机的相关技术被引用到各个领域。智能灌溉系统是融合传感器技术、自动控制技术、计算机技术、无线通信技术与移动终端控制等多种高新技术，自动采集光照、温度、土壤水分、空气湿度等信息，通过无线通信技术传输给信息管理系统，自动控制喷水灌溉、通风除湿等设备，从而调节环境参数。智能灌溉系统应用大数据策略，在云服务平台进行数据分析处理，以关联图表显示历史记录，为农业专家提供决策支持，同时获取国家气象局天气预报信息，根据天气状况和作物需要智能调节喷水灌溉策略，调整用水量，实施精准灌溉，提高水资源利用率。智能灌溉系统支持多种应用场景如智能花园、温室大棚、高尔夫球场等，提供Web版、桌面版、移动终端3种管理系统供用户使用，使其随时随地操作管理。智能灌溉系统采用WiFi技术实现远程无线通信，采用Zigbee技术构建底层无线传感网，节能低耗，能够根据应用场景规模灵活增加无线节点模块，不会因为监测点过多而使布线复杂，降低系统维护运营成本。

1职能灌溉系统总体结构

系统总体结构如图1所示。系统实验室模型及部分实物操作界面如图2所示。

2智能灌溉系统功能模块简介

本系统根据物联网三层体系结构设计，功能模块划分及其主要设计内容如下表1所示。

3智能灌溉系统简易操作说明

下面主要说明桌面版管理系统、Web版管理系统、移动终端版管理系统的操作使用方法。3.1桌面版管理系统桌面版管理系统主要功能模块有：操作控制模块、数据与命令查看模块。其中，操作控制模块的功能如下：这部分提供了实时场景的选择，区域实时数据的显示，区域手动操作和自动控制的设置。可以通过输入服务器地址，进行场景的选择，然后对该场景下的区域进行手动控制，实时控制底层终端控制设备，也可以开启自动控制，输入要自动控制的参数范围，系统会根据输入的控制参数，进行自动控制。3.2Web版管理系统3.2.1登录界面系统的开始页面，界面简洁友好。只有获取权限才能进入控制系统。3.2.2首页这部分主要是显示项目的一些图片，页面下方是项目的介绍。3.2.3监控中心这是本程序的核心部分，在这个页面中，能够通过仪器表查看到当前的数据，并提供了天气预报，能够根据需要设置自动控制的外界条件，或是进行人工的操作处理。上述界面中，上面部分是最近一次采集到的数据，以仪器表的形式生动地展示出来，左下角是自动控制时的温湿度，光照强度的控制范围，在这里输入要控制的范围后，系统会根据用户输入的范围自动调控。右下角是系统的自动控制区域，在这里用户可以进行手动控制。3.2.4数据分析查看将历史记录以关联图表的形式展示出来，一目了然，为农业专家进行数据分析提供决策支持，最终确定适于作物生长的控制策略。3.2.5操作记录将用户的操作即自动操作记录下来，便于查看。3.2.6退出程序退出后，系统的工作模式不变，保持原状。点击退出后，登录状态被重置，并跳转到登录页面。3.3移动终端管理软件3.3.1登录部分这个是手机端的登录界面，简洁明了，选择联网模式，输入账号密码以及当前的服务器地址即可登录，可以选择保存密码，方便下次登录。3.3.2数据查看中心选择当前环境模式和区域，即可查看当前的实时数据。3.3.3控制中心选择当前的场景模式和区域，就可以对该区域进行控制，可以根据需要输入环境参数，设置自动控制的范围，也可直接进行手动控制。

数据分析分析技术篇（3）

云计算技术可以给提供计算机数据传递与共享的条件，融合软硬件数据保存，促进计算机处理工作更好的开展。云计算技术可以给用户提供良好的网络环境与保存空间，处理数据传递环节的各项问题。与传统大数据分析技术相比，云计算计算可以提高大数据分析质量。人们借助云计算技术获得云终端的数据，切实满足人们对于数据的需求。现阶段计算机市场形成完善的结构体系，围绕云计算技术推动计算机大数据分析工作的开展，奠定后期云计算技术发展的基础。目前，人们生活中全面运用云计算技术，基于云计算技术研发的服务器及操作系统方便人们处理各类信息技术。同时，云计算技术数据保存有着较强的安全性，极小可能出现数据丢失情况，满足人们的实际需求，直接体现出云计算技术的优势。优化云计算环境下计算机的数据处理中心，就可以不断提升计算机的云计算能力，让云计算不仅为网络信息所用，还在计算机网络安全中发挥极为重要的作用。目前，计算机的使用人群更为注重的是在高速发达的信息社会，自己的信息，也就是使用计算机网络的安全性能是否能得到保障，这时候考验的就是云计系统的完善性。目前存在的最主要计算机安全问题就是黑客问题和系统漏洞问题。系统漏洞这一人为因素可以通过不断检索进行漏洞的发现和修补，面对黑客的攻击，能够做的就是防患于未然，不断地升级和优化系统，最终达到完善的数据处理效果。

2云计算技术下计算机大数据分析面临的问题

2.1网络技术安全

由于相关技术的不断发展，云计算环境下的网络安全技术正在朝着稳定和成熟的方向发展，但在具体的应用过程中依然表现出一定的网络安全问题，因此用户在使用过程中应该做好相关的应对工作。网络安全问题具体表现在用户在使用信息传输的过程中，一旦出现服务性中断问题，难以保证数据的安全性，启动被动保护模式的情况使信息的安全性更加难以保障，这也成为云计算模式下的网络技术安全中的重点问题，一旦得不到及时有效的解决，用户在使用过程中就会受到不同程度的威胁。

2.2网络环境安全

网络环境安全是保证网络正常使用，信息传输质量有保证的重要前提，一旦网络环境存在不安全因素，将会引发病毒的入侵和黑客的攻击。因此网络环境安全也是云计算技术价值得以发挥的重要前提。计算机在使用过程中如果长期受到病毒的困扰和黑客的威胁，将会降低人们对计算机的信赖性，甚至在工作和生活中将会在网络环境安全方面投入更多的成本。

3计算机大数据分析中云计算技术的具体应用

3.1数据传输安全分析

在云计算的作用下，云安全含义逐渐形成，具体来说，云安全主要指在用户借助云计算技术来实现计算机大数据分析时，让数据安全性得到了保证。用户端数据和数据安全往往呈现出正比关系，随着应用群体数量的增多，涉及的计算机数据范畴将不断扩充，假设计算机遭受病毒的攻击，可以在云计算技术的作用下实现病毒的拦截，以此让计算机数据安全性得到保证。从云计算技术自身角度来说，其提供的各个服务均是由IaaS基础设施级服务以及PaaS平台级服务两项内容构建而成。首先，IaaS基础设施级服务其作用在于，可以给用户提供对应的服务，也就是对各个计算机基础设备进行操作和应用，其中包含了CPU处理、数据保存、数据传递等。其次，PaaS平台级服务则是指，把云计算中各个服务器及开发环境当作服务，通过PaaS平台用户能够结合自身需求实现对应操作流程的部署和应用。

3.2监督数据资源共享

网络资源在传输过程中遭遇到的安全威胁是用户时时刻刻关注的问题，因此在具体的工作和管理中，需要提高云计算网络安全技术的应用程度，通过不断创新安全模式，完善相应的防护体系，从而有效消除安全性问题，提升数据传输的安全性和稳定性。具体在应用过程中，可以借助云计算技术的优势，对数据传输的整个路径进行监控，保证传输通道环境的安全性，一旦出现问题及时进行预警，有效预防黑客的攻击，降低网络安全事故发生的概率。对此，有关部门应该提高重视程度，同时完善相应的监督管理制度，采用科学的管理方式，实现预期的监测目标。

3.3提高数据使用安全

计算机用户本身的安全意识也是当前需要关注的重要方面，为了进一步提升用户数据信息和计算机系统的安全系数，需要重视身份认证工作的提升，具体可以使用实名制的方式进行认证处理，从而不断提升整个网络结构的安全性。对于网络应用过程中涉及到的安全问题，可以通过实名追踪的方式进行可疑目标锁定，从而有效控制恶意攻击情况的发生。但在应用过程中也需要重视假人名情况的出现，提高网络数据信息窃取的预防水平。计算机网络环境算是一种相对开放的环境，在使用过程中会面向大量的用户，通过重视用户的身份认证，可以有效避免用户对数据的非法访问。同时在使用者进行计算机登录和使用的时候，需要对用户名和密码进行核实。按照权限的不同，确保数据库信息的安全有效性。通过对数据库信息加密处理，可以确保数据库信息的安全性。这种加密处理可以在原有数据信息的基础上进行算法的处理改进，使用者可以通过自身的权限获取想要了解的信息，如果没有解密方式，不法分子将会难以获取数据的原始信息。

3.4网络安全等级防护

在云计算环境下的安全管理中心具备系统管理、安全管理和安全审计等功能，能够满足不同云计算环境下不同安全等级的保护要求，并且通过服务层的安全保护框架，实现对不同等级云服务客户端的安全保护，为使用者提供安全可靠的资源访问服务。在访问云服务商时，用户可通过通信网络、API接口和Web服务方式访问云服务器，但是用户终端系统的安全防护不在网络安全等级保护框架体系内。在保护框架体系内，资源层和服务层安全是云计算环境安全保护的重点，资源层包括物理资源安全和虚拟资源安全，应按照安全设计要求构建资源层安全保护框架。云计算环境下的网络安全等级保护要针对不同等级云计算平台确定不同的安全目标，一般情况下安全保护等级最低为二级，并根据安全目标和等级要求实施安全设计步骤，具体包括：第一步，根据云平台的租户数量和业务系统情况确定云计算安全保护标准，制定云计算平台的安全保护策略，以避免在云计算平台上发生安全事件；第二步，细化安全技术要求，针对安全计算环境、安全区域边界、安全通信网络以及安全管理中心制定出相应的安全保护策略；第三步，根据云计算功能框架中的各层功能和保护要求，制定安全技术机制，使其满足云计算功能框架的安全保护要求。在完成云计算环境下的网络安全等级保护设计之后，还应增加虚拟化安全、镜像安全、接口安全等安全控制点，并采用访问控制技术、身份识别技术等安全防护技术，实现与云计算平台上各功能层次的对接，提出各层的安全保护措施。

3.5重视相应程序开发

数据分析分析技术篇（4）

中图分类号：X734.2 文献标识码：A 文章编号：1009-914X（2016）10-0206-01

1 引言

随着互联网技术的不断发展，物联网技术、移动互联技术、社交媒体等技术及其应用在是越来越多，全球的数据急剧膨胀，人类已经步入了大数据的时代。大数据中包含着大量的隐含信息，需要从这些隐含的信息中提取有价值的大知识，这些大的知识将在更高的层面上、更广阔的视角、更大范围内对用户提供洞察力、决策力，为人类以及社会创造更大的利益以及价值。目前主流的大数据库计算模式分为两种，分别为批量式计算和流式计算两种模式。

在批量计算模式中，首先是需要对海量数据进行存储，然后对这些存储的静态数据进行集中起来进行计算，目前的Hadoop就是一种非常典型的批量计算架构；在流式计算模式中，无法确定数据的到来时刻以及数据的次序，也不用将数据全部进行存储起来进行计算。而是当这些流动的数据到来之后直接在内存中进行实时性的处理，典型的Twitter、Storm、Yahoo的S4就是这种流式的数据计算模式。

2 应用场景及数据特征

2.1 批量处理系统

对于批量处理系统来说，这类系统比较适合对于静态数据进行数据挖掘，从海量信息中获取具体的含义，得到很明智的决策，最终为领导提供辅助决策制定相应的应对措施来实现业务目标。大数据中的批量处理系统适合先进行存储然后进行计算，对于数据处理的实时性要求不是很高，但是对于数据的准确性和全面性要求更高。

2.1.1 数据特征

对于批量数据来说，通常具备三个典型的特征，（1）数据量比较大，数据量从TB级别到PB级别，数据主要是以静态的形式存储在磁盘上，存储的时间比较大，一般不进行数据的更新数据，海量数据可以重复进行使用，这种数据不容易移动以及备份处理；（2）数据的精度比较高，存储的这些数据一般是属于企业中的一部分，是长时间积累下来的；（3）数据价值密度相对来说比较低。往往有价值的信息比较少，因此需要采用合理的分析算法对这些批量数据进行信息抽取，同时处理批量数据比较耗时，一般不提供交互功能，当提取结果与预期差别很大时，会浪费很多时间。因此，批量处理系统比较适合相对比较成熟的作业。

2.1.2 代表性处理系统

对于批处理系统来说，比较典型的代表是由Google公司开发的文件系统GFS（google File System）和研发的MapReduce编程模型。虽然Google公司没有对这两项技术进行源码的公开，但是基于发表的两篇文章，Nutch子项目中的Hadoop实现了开源的两个产品：HDFS和MapReduce。Hadoop成为批量处理架构中非常典型的一种架构模式，HDFS负责对静态的数据进行存储，通过MapReduce对这些静态数据进行计算逻辑的分配。Hadoop成为很多IT公司的大数据主流架构，基于HDFS和MapReduce建立了很多项目。

MapReduce编程模型收到很多主流IT的欢迎，主要有几个方面的原因：（1）MapReduce是一种没有共享的大规模集群系统，这种集群系统具有很好的性价比和伸缩性；（2）MapReduce模型比较简单，容易理解，便于使用。能够不仅仅处理大规模的数据，而且能够对很多细节进行隐藏（包括自动并行化、负载均衡、灾备管理等），能够很大程度上降低程序员的工作量。

2.2 流式处理系统

2.2.1 数据特征

一般情况下，对于流式数据来说，是一个无穷的数据序列信息，对于流式数据中的每个序列来说数据的来源是不同的，数据可能是结构化或非结构化，这些序列往往包含时间特征，或者有其他能够表示有序的标签信息。从数据库的角度来说，流式数据中的每个元素都可以看成是一个元祖。流式数据在不同的场景中能够表现出不同的特征信息，比如表现流速的大小、元素特征的数量、数据格式不同等。

2.2.2 代表性处理系统

流式计算处理系统目前得到广泛的应用，包括Twitter的Storm，Facebook的Scribe，Linkedin的Samza等。本节主要是对Twitter的Storm进行详细的介绍。

Storm的主要特点是一种基于分布式的、可靠、容错性好的流式处理系统，被分配的流式处理作业能够分发到不同的组件上，被分配的每个组件负责一项单一的、特定的处理任务。Storm集群中输入流由Spout来进行负责，Storm将流式数据分发给Blot的组件，Blot组件对其进行处理。Storm可以进行实时的数据处理以及对数据库进行更新，能够被用于进行持续的计算，对连续的数据流进行查询处理，在计算的过程中结果是以流的形式输出给用户。还可以用于进行分布式的处理RPC。

3 大数据关键技术

3.1 大数据批量计算关键技术

在大数据批量计算中，系统架构、分布式文件系统、分布式数据处理系统等关键技术成为制约其发展的关键技术。

（1）系统架构

在进行大数据处理的过程中，需要的关键技术主要是针对海量的数据进行存储以及分析计算，因此选择合理的架构对其进行批量处理是其中的重点。

（2）分布式文件系统

在大数据应用中，文件系统是其中非常重要的一个部分。对于海量的数据需要采取分布式存储的方式存储到磁盘上，方便后期的计算。

（3）分布式数据处理系统

对于分布到磁盘上的海量信息，如何选取合理的数据处理系统对其进行处理分析是其中的一个非常重要的关键点。

3.2 大数据流式计算关键技术

对于流式计算中，理想中的大数据流式计算应该具有比较低的延迟、高的吞吐量、保持持续运行、可以伸缩等特征，这些离不开系统的架构、海量数据的传输、编程的接口、高新技术等关键技术的合理设计与规划。

（1）系统架构设计

流式计算中的架构指不同的各个子系统之间的一种重新组合的方式，对于流式处理计算中需要选择特定的框架进行流式计算。目前主流的流式计算系统中采用的架构分为无中心节点的对称系统架构以及具备中心节点的主从式结构。

（2）数据传输

数据传输主要是完成从有向任务图到物理计算节点之间的部署，部署各个节点之间的数据传输方式。在流式计算系统中，为了能够具备高的吞吐量、比较低的延迟，需要不断的优化从有向任务图到物理计算节点之间的部署及其映射方式。目前主流的数据传输方式分为主动推送方式和被动拉取的方式。

（3）编程接口

在流式计算中，为了方便从有向任务图到物理计算节点之间的部署，需要进行编程实现任务图中各个节点的相应处理功能。需要编制大量的流式数据计算系来提供应用编程的接口，方便的接口能够方便用户实现内部的业务逻辑及处理，减少用户的编程的工作量。

4 总结与展望

互联网技术、云计算等高新技术的快速发展，多样化的应用不断的增加，数据在各行各业中都成为非常重要的一个组成部分，如何在海量的信息中获取有价值的信息是大数据需要完成的工作。本文根据大数据对数据处理的形式不同，介绍了批量处理系统和流式处理系统，并对大数据中的关键技术进行了介绍。

参考文献

数据分析分析技术篇（5）

在生物信息学的成果的理论基础之上，通过统计的方法查找未知的生物化学功能的疾病基因的位置。这个方法预先通过患病家族连锁分析，再推断包含这些基因的染色体区域片段，然后检查该区域来寻找基因［1］。

数据挖掘在DNA数据分析的发展状况

现今所采用的是分子生物学与微电子技术相结合的核酸分析检测技术［2］。DNA芯片技术的基本原理是将cDNA或寡核昔酸探针以105～106位点/cm2>/sup>的密度结合在固相支持物（即芯片）上，每个位点上的cDNA或寡核昔酸探针的顺序是已知的，将该探针与荧光标记的待测样品DNA，RNA或cDNA在芯片上进行杂交，然后用激光共聚焦显微镜对芯片进行扫描，并配合计算机系统对杂交信号做出比较和检测，从而迅速得出所需的信息。

基因数据挖掘常用的方法：①核酸与蛋白质比较的预测分析：蛋白质序列之间或核酸序列之间的两两比对，通过比较两个序列之间的相似区域和保守性位点，寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较，寻找这些有进化关系的序列之间共同的保守区域、位点和profile，从而探索导致它们产生共同功能的序列模式。此外，还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架；把蛋白质序列与具有三维结构信息的蛋白质相比，从而获得蛋白质折叠类型的信息。②针对核酸序列的预测方法：针对核酸序列的预测就是在核酸序列中寻找基因，找出基因的位置和功能位点的位置，以及标记已知的序列模式等过程。在此过程中，确认一段DNA序列是一个基因需要有多个证据的支持。一般而言，在重复片段频繁出现的区域里，基因编码区和调控区不太可能出现；如果某段DN段的假想产物与某个已知的蛋白质或其他基因的产物具有较高序列相似性的话，那么这个DN段就非常可能属于外显子片段；在一段DNA序列上出现统计上的规律性，即所谓的“密码子偏好性”，也是说明这段DNA是蛋白质编码区的有力证据；其他的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。

案例分析

疾病是由于基因的片段内的某个位置存在或发生改变而引起的，也就是发生突变。能否找出其中不同的地方，进而对其不同之处加以改变，使之成为正常基因？这都需要数据挖掘技术的支持。对基因的数据挖掘，就是对这些突变位置的寻找，并且找出该位置与所有者身患的疾病之间的关系。

方法的选择：笔者在设计中选用单纯的DNA序列进行比较，基因在计算机的表示和存储时，可以使用一条很长的字符串来表示基因的某一条序列，使用文件的形式进行对基因工作者的提取成果创建一级数据库，使用文件修整的方法进行数据的清洗，以满足数据在二级数据库中的一致性。同时在文件比较过程中，生成某两个数据文件的差异状况，保存在二级数据库库中，进一步的操作是对差异的位置的某个类型所占的比例。最后通过事先的对患者患病信息的统计得到的某种疾病在群中所占的比例，与其相比较，如果这两个比例相等，则可以认为这个位置的某个类型引起疾病的发生。从医学院得到一些基因片段文件信息和患者（所有者）患病情况。

系统的实现：基因片段在计算机中以文件形式存储，用文件名标识其所有者（源体）。片段起始地址和长度信息和所有患者患病情况保存在本机数据库中。在程序测试过程中，将片段复制成40份，对其中部分文件的序列进行稍作修改，对所有患者的患病状况进行稍作修改，以创造测试环境。显示在与基因数据挖掘软件同在一根目录下的序列文件的集合。

其中一个文件所存储的基因信息，见图1。

启动统计程序界面，单击清空数据库中的临时用表数据，将数据库中有可能的杂音信息去掉。并对其中的所有文件进行统计前片段剪切，使所有片段的起始地址和长度都相同，避免发生序列移位。

没有进行片段剪切之前，浏览文件所存的片段信息，片段剪切完成之后，设置进行比较操作的甲、乙组的文件添加，因为本次测试只检验片段中的一块区域（文件中片段的所有信息），所以在起始序号那里添加为0，终止序号那里添加为175。这样则可以保证统计文件的所有信息都被统计。

单击结果显示按钮，可以见到程序以表格和条形图标方式。可以看到1、3、5、12、14、16、18、13、31、34、87、94、139、166位置的条形段较高。说明在这些接受统计的片段中，在上面提到的位置处存在的差异较大，与某遗传疾病的关联的可能性就越大。

如果用户想要在初步统计结果的基础上，按照数据库中所有者的疾病状况进行详细统计的话，单击菜单栏的详细统计按钮，选择按疾病详细统计，则将弹出窗口。

选择弱视，输入，则在文本框中显示与其关联的位置为1、3、5、12、14、16、18、13、31、34、87、94、139、166。

由此，用户可以根据本系统所给出的预测对弱视遗传疾病与序列中的特定位置，选择适当算法进行进一步的计算及检验，证明预测结果是否符合关联理论。数据挖掘方法体系中的智能聚类的相关技术则可较好的解决类别数判定、结果验证等问题。

结论

对于生物信息或基因的数据挖掘和通常的数据挖掘相比，无论在数据的复杂程度、数据量还有分析和建立模型的算法而言，都要复杂得多。从分析算法上讲，需要一些新的和好的算法；但技术和软件还远没有达到成熟的地步，因此需要不断探索及研究。

参考文献

数据分析分析技术篇（6）

1大数据技术应用于网络安全分析中的重要性

大数据技术具有有数据量大、种类繁多、速度快、价值密度低等特点，在网络安全分析中有着较高的应用价值，其重要性具体体现在以下几方面。第一，大数据技术可以拓宽数据存储容量，满足海量数据安全分析需求，并且在对多源数据和多阶段组合进行分析时，在保证运算效率的同时，还能确保数据的完整性。第二，大数据技术能够对网络数据进行多层级、多精度分析，理清数据间的复杂关系，找出其中潜在的安全隐患和风险，网络安全分析精度大幅提升。第三，利用大数据分析技术，可以对异构数据进行存储和分析，显著提高了网络安全分析速率，能够在更短时间内发现并解决网络安全问题[1]。第四，传统网络安全平台为结构化数据库，而基于大数据技术的网络安全平台为分布式数据库，具有良好的经济效益，设备成本较低且性能良好，减少了系统维修费用，降低了网络安全平台构建成本。

2网络安全分析的大数据技术实践

将大数据技术应用于网络安全分析方面，可以实现对日志和流量的集中化存储与分析，深层挖掘数据之间的关系，增强了网络安全检测及防防护能力。

2.1数据采集

网络安全分析需要依托全面、完整的信息数据，在应用大数据技术时，应先完成数据采集。对于每秒数百兆的日志信息来讲，可以利用Chukwa等工具对其进行采集；对于全数量数据来讲，可以使用传统数镜向方式对其进行采集[2]。

2.2数据存储

完成数据采集后，需依托数据库对其进行集中存储，在大数据技术的帮助下，数据类型存在差异时，可以采用与其相匹配的方式完成存储，不仅能够保证数据之间的明确分类，又可以方便数据查询。数据类型为即时数据时，可采用列式存储方法，先运用流式计算方式进行分析，然后存储所得结果。数据类型为日志时，为提高数据查询效率，可选用列式存储方法完成存储。另外，当数据经过标准化处理后，需要先对其进行处理，所用方法为分布式计算方法，然后再采用列式存储方法进行存储。

2.3数据查询

将大数据技术应用于网络安全分析中去，就数据查询来讲，可依托MapReduce完成[3]。系统发出查询指令后，在对应的节点位置完成处理，并将多种结果加以整合，然后可以通过检索得到自己所需数据信息。相较于传统网络安全分析平台，这种数据查询方式的指令反应及处理更为迅速，大大提高了查询效率。

2.4数据分析

基于大数据技术的网络安全分析平台，当数据类型不同时，所用分析处理方法也是不一样的。首先，如果数据类型为实时数据时，在对其进行分析和处理时，主要用到了流式计算方式、CEP技术、关联分析算法等，可以及时发现潜在的安全隐患及威胁。其次，如果数据类型为历史数据、统计结果时，在实效性方面要求并不严格，可对其进行离线处理，完成更为深入、全面的分析，所用方法主要为分布式存储与计算，既能够发现其中的风险隐患，又可以找出攻击来源。

2.5复杂数据处理

面对越来越复杂以及关联性越来越强的数据，以大数据技术为依托的网络安全分析平台，也可以更加迅速、精准地对其进行处理，包括多源异构数据、系统安全隐患以及关联性攻击行为等。以网络安全问题中常见的僵尸网络为例，借助大数据技术，不但能够从流量和DNS访问特性出发，而且能进行发散性关联分析，同时结合多方面的数据信息，可对数据进行多维度、深层次、全方位分析，确保了数据处理的有效性。

3大数据技术背景下网络安全平台建设

基于大数据技术所体现出的多方面优势，已经在网络安全分析方面得到了越来越广泛的应用，在构建网络安全平台时，需要科学设计其基础构架，并严格把控关键技术环节，充分发挥其应用价值。

3.1平台构架

以大数据技术为依托，所搭建的网络安全平台分为四个层级，包括数据采集层、数据存储层、数据挖掘分析层、数据呈现层，四个层级功能各不相同，需要分别对其进行分析。首先，数据采集层主要负责采集各种类型数据，包括即时数据、用户身份信息、日志等，实现方式为分布式采集。其次，数据存储层的能够实现海量信息的长期保存，并采用结构化、半结构化、非结构化方式对其进行统一存储，使用均衡算法将现实数据均匀分布在分布式文件系统上[4]。另外，网络安全异常的发现及溯源，则是在数据挖掘分析层完成，具体方法包括特征提取、情境分析、关联分析等，可通过检索查询对异常网络行为进行准确定位。最后，数据呈现层则可以通过可视化形式将大数据分析结果呈现出来，通过多种维度展现网络安全状态。

3.2关键技术

构建网络安全平台时，所用到的关键技术主要有数据采集技术、数据存储技术、数据分析技术等。此次研究所用数据采集技术包括Flume、Kafka、Storm等，Flume能够采用分布式方式，对来源不同的数据进行收集和整理，经过处理后将其传输至定制方。Kafka中应用了Zookeeper平台，可实现数据的集群配置管理，能够作为一个高吞吐量的分布式订阅系统应用，平衡数据处理环节的系统负荷。完成数据采集后，采用HDFS分布式文件系统对其进行存储，其容错性和吞吐量都比较高，使用元数据管理节点文件系统对空间命名，数据文件保存至数据节点，基本存储单位为64兆字节的数据块。数据文件会随着元数据节点的增多而减少，两者之间呈反比关系，多个文件同时被访问时，会对系统性能造成影响，而HDFS分布式文件系统的应用可有效避免这种问题。在数据分析环节，该平台所用技术为Hivc，对于非结构化数据的检索，所用语言为HiveQL，与HDFS和HBase匹配性良好。API的封装则是采用Hive完成，使用定制的插件开发和实现各种数据的处理、分析与统计。

4结束语

将大数据技术应用于网络安全分析领域，不仅能够提高分析速率、分析精准度，而且还可以降低技术成本，有着多方面显著优势，是未来网络安全防护的必然发展方向。在实际应用时，应采用层级结构构建网络安全平台，就数据采集、数据存储、数据分析等关键技术环节进行重点把控，以此来改善当前网络安全分析中的缺陷与不足，提高网络安全等级。

参考文献：

[1]孙玉.浅谈网络安全分析中的大数据技术应用[J].网络安全技术与应用，2017.

数据分析分析技术篇（7）

一、数据挖掘

数据挖掘是从数据当中发现趋势和模式的过程，它融合了现代统计学、知识信息系统、机器学习、决策理论和数据库管理等多学科的知识。它能有效地从大量的、不完全的、模糊的实际应用数据中，提取隐含在其中的潜在有用的信息和知识，揭示出大量数据中复杂的和隐藏的关系，为决策提供有用的参考。数据挖掘是从数据当中发现趋势和模式的过程，它融合了现代统计学、知识信息系统、机器学习、决策理论和数据库管理等多学科的知识。它能有效地从大量的、不完全的、模糊的实际应用数据中，提取隐含在其中的潜存有用的信息和知识，揭示出大量数据中复杂的和隐藏的关系，为决策提供有用的参考。

二、数据挖掘的现代最新方法介绍

常用的数据挖掘方法主要有决策树(Decision Tree)、遗传算法(Genetic Algorithms)、关联分析(Association Analysis).聚类分析(C~smr Analysis)、序列模式分析(Sequential Pattern)以及神经网络(Neural Networks)等。

三、数据挖掘的实际应用

由于数据挖掘市场还处于起步的阶段，但是发展很快。在国外有一些著名的大公司对数据挖掘系统进行了开发。

1.Intelligent Miner这是IBM公司的数据挖掘产品，它提供了很多数据挖掘算法，包括关联、分类、回归、预测模型、偏离检测、序列模式分析和聚类。有2个特点：一是它的数据挖掘算法的可伸缩性；二是它与IBM/DB/2关系数据库系统紧密地结合在一起。

2.EineSet是由SGI公司开发的，它也提供了多种数据挖掘方法，包括关联分析和分类以及高级统计和可视化工具。特色是它具有的强大的图形工具，包括规则可视化工具、树可视化工具、地图可视化工具和多维数据分散可视化工具，它们用于实现数据和数据挖掘结果的可视化。

3.Clementine是由ISL公司开发的，它为终端用户和开发者提供提供了一个集成的数据挖掘开发环境。

4.DBMiner是由DBMiner Technology公司开发的，它提供多种数据挖掘算法，包括发现驱动的OLAP分析、关联、分类和聚类。特色是它的基于数据立方体的联机分析挖掘，它包含多种有效的频繁模式挖掘功能和集成的可视化分类方法。

四、数据挖掘与管理会计

1.提供有力的决策支持

面对日益激烈的竞争环境，企业管理者对决策信息的需求也越来越高。管理会计作为企业决策支持系统的重要组成部分，提供更多、更有效的有用信息责无旁贷。因此，从海量数据中挖掘和寻求知识和信息，为决策提供有力支持成为管理会计师使用数据挖掘的强大动力。例如，数据挖掘可以帮助企业加强成本管理，改进产品和服务质量，提高货品销量比率，设计更好的货品运输与分销策略，减少商业成本。

2.赢得战略竞争优势的有力武器

实践证明数据挖掘不仅能明显改善企业内部流程，而且能够从战略的高度对企业的竞争环境、市场、顾客和供应商进行分析，以获得有价值的商业情报，保持和提高企业持续竞争优势。如，对顾客价值分析能够将为企业创造80%价值的20%的顾客区分出来，对其提供更优质的服务，以保持这部分顾客。

3.预防和控制财务风险

利用数据挖掘技术可以建立企业财务风险预警模型。企业财务风险的发生并非一蹴而就，而是一个积累的、渐进的过程，通过建立财务风险预警模型，可以随时监控企业财务状况，防范财务危机的发生。另外，也可以利用数据挖掘技术，对企业筹资和投资过程中的行为进行监控，防止恶意的商业欺诈行为，维护企业利益。尤其是在金融企业，通过数据挖掘，可以解决银行业面临的如信用卡的恶意透支及可疑的信用卡交易等欺诈行为。根据SEC的报告，美国银行、美国第一银行、联邦住房贷款抵押公司等数家银行已采用了数据挖掘技术。转贴于

五、数据挖掘在管理会计中的应用

1.作业成本和价值链分析

作业成本法以其对成本的精确计算和对资源的充分利用引起了人们的极大兴趣，但其复杂的操作使得很多管理者望而却步。利用数据挖掘中的回归分析、分类分析等方法能帮助管理会计师确定成本动因，更加准确计算成本。同时，也可以通过分析作业与价值之间的关系，确定增值作业和非增值作业，持续改进和优化企业价值链。在Thomas G，John J和Il-woon Kim的调查中，数据挖掘被用在作业成本管理中仅占3%。

2.预测分析

管理会计师在很多情况下需要对未来进行预测，而预测是建立在大量的历史数据和适当的模型基础上的。数据挖掘自动在大型数据库中寻找预测性信息，利用趋势分析、时间序列分析等方法，建立对如销售、成本、资金等的预测模型，科学准确的预测企业各项指标，作为决策的依据。例如对市场调查数据的分析可以帮助预测销售；根据历史资料建立销售预测模型等。

3.投资决策分析

投资决策分析本身就是一个非常复杂的过程，往往要借助一些工具和模型。数据挖掘技术提供了有效的工具。从公司的财务报告、宏观的经济环境以及行业基本状况等大量的数据资料中挖掘出与决策相关的实质性的信息，保证投资决策的正确性和有效性。如利用时间序列分析模型预测股票价格进行投资；用联机分析处理技术分析公司的信用等级，以预防投资风险等。

4.产品和市场预测与分析

品种优化是选择适当的产品组合以实现最大的利益的过程，这些利益可以是短期利润，也可以是长期市场占有率，还可以是构建长期客户群及其综合体。为了达到这些目标，管理会计师不仅仅需要价格和成本数据有时还需要知道替代品的情况，以及在某一市场段位上它们与原产品竞争的状况。另外企业也需要了解一个产品是如何刺激另一些产品的销量的等等。例如，非盈利性产品本身是没有利润可言的，但是，如果它带来了可观的客户流量，并刺激了高利润产品的销售，那么，这种产品就非常有利可图，就应该包括在产品清单中。这些信息可根据实际数据，通过关联分析等技术来得到。

5.财务风险预测与评估

数据分析分析技术篇（8）

当前计算机技术已经渗透到生产生活中的方方面面，并且随着计算机技术的发展和成熟，出现了越来越多的新型计算机技术，推动社会进入了大数据时代。大数据时代的到来，对商业银行来说是把双刃剑，在带来发展机遇的同时，使得商业银行面临着更大的挑战。多种网络平台的出现，极大地丰富了商业银行的在线支付方式，催生了虚拟交易体系，在这个过程中所产生的金融数据量是非常庞大的。为了更好地迎接发展机遇和挑战，就需要充分发挥数据分析技术优势，快速、准确完整海量金融数据的分析。

一、大数据环境下商业银行所面临的发展压力

（一）金融数据量持续增多

在信息网络时代背景下，人们的消费观念已经由现实消费逐渐转向网络消费。网络用户的增多，使得电子数据呈现出爆炸式增长趋势。在这种发展背景下，商业银行所需要存储、分析的金融数据也在持续增多，如何保证数据信息的完整性，从海量数据中筛选出有价值的信息，为客户提供高水平、高质量的服务，是当前商业银行发展过程中必须考虑并解决的问题，对提高自身竞争力具有重要作用。

（二）银行服务价值的转变

商业银行传统服务方式以柜面服务为主，常见的业务类型包括存取款业务、贷款业务等，在办理业务时客户一般都是直接到银行柜台。但是，在计算机迅速发展的背景下，柜台服务模式已经无法满足客户的实际业务需求，越来越多的人开始选择网络交易。为了满足用户的实际需求，商业银行就需要转变服务价值，在原有服务模式的基础上，构建虚拟服务体系，为用户提供多元化服务方式，适应当前金融行业的发展形势。[1]

（三）金融数据的安全保障

金融数据都是真实可用的，涉及客户的个人隐私，具有较高的私密性，但是因为金融数据的应用价值较高，很容易成为黑客窃取的对象，金融数据面临着较大的安全威胁。在大数据背景下，商业银行在对海量数据进行分析、处理时变得更加困难，再加上网络环境复杂程度的增加，金融数据更容易受到恶意攻击。为了避免客户信息泄露，商业银行就需要做好金融数据的安全保障工作，确保客户数据的安全性。

二、数据分析技术在商业银行海量金融数据处理中的应用优势

电商、银行以及物流是互联网时代的重要组成部分，这三大类企业在网络交易过程中分别扮演着不同角色，在应用数据分析技术时都有着自身优势，在商业银行海量金融数据处理中的具体应用优势，主要体现在信息、人才、资金、制度等几个方面。

（一）信息与人才优势

商业银行在经营过程中，所产生的金融数据都是非常重要的，所以商业银行的信息化建设尤为重要。各大商业银行相继建立了数据中心和备份中心，以此来实现数据的存储与分析，保证数据的完整性、准确性及安全性。再加上广泛的信息获取渠道，商业银行所形成的数据库结构是较为庞大和完善的。同时，我国的大型商业银行都设有自己的科研中心，以便不断对数据信息系统进行优化和改进，充分发挥出金融数据价值，提高其利用效率。在这个过程中会涉及软件开发、数据仓储等具体实践项目，这就培养了大批专业技术人才，为促进商业银行的发展提供了人才保障，同时也为数据分析技术的良好应用创造了有利条件。

（二）资金与制度优势

从近几年我国商业银行的发展情况来看，商业银行的获利空间是比较可观的，经济收益有明显提高趋势，这就为数据分析技术的充分应用提供了资金保障。商业银行可以借助盈利资金，加大信息化建设投资力度，建立先进的数据操作系统、存储系统、计算系统等数据化系统，以便更好地将数据分析技术应用于海量金融数据的分析中。同时，集团化经营已经成为我国商业银行的主要经营模式，经营管理理念是比较先进、成熟的，能够实现跨地区经营，构建覆盖面积较广的经营网络，数据共享比较方便，在应用数据分析技术的时候更加容易，可以有效提高海量金融数据的分析、处理效率。[2]

三、商业银行海量数据分析中数据分析技术的实践应用

（一）构建客户信息数据系统

在应用数据分析技术的时候，商业银行首先要构建客户信息数据系统，对客户进行全面了解。传统的商业银行客户信息系统主要是以记录客户的各项基本信息以及交易信息为主，包括客户姓名、性别、身份证号、资产配置等，很难对客户进行科学分类，在对客户特征和需求进行分析时容易出现扭曲，影响服务质量。为了避免这种现象，就需要应用数据分析平台，构建全景动态客户视图，根据客户的实际情况及时进行数据更新，对客户进行更加准确的定位，满足客户的实际需求，提高银行服务质量和服务水平。

（二）提供针对性的服务模式

传统的商业银行产品和服务，主要根据商业银行系统内部的数据进行处理或者根据客户基本的需求而制定，无法为用户提供针对。通过应用数据分析技术，能够获取客户的反馈信息，及时了解客户实际需求，进行深入分析，对银行产品和服务进行合理设置，并且不需要精确地把控个体作出选择的初衷，只需要汇总最终的行为结果。借助大数据平台的数据分析技术，通过客户行为数据与商业银行系统内数据信息的契合，可以制定出更加符合客户需求的产品和服务，为客户提供针对性的服务。[3]

（三）实时营销和个性化推荐

商业银行传统服务模式以柜台服务为主，受时间和空间的限制，业务办理效率较低，很难进行更好的个性化推荐。通过应用数据分析技术，能够对不同类型的客户信息进行分析，对数据进行深层次挖掘，为用户提供网络服务模式，既丰富了银行服务模式，提高了业务办理效率，又打破了时间和空间的限制，保证了营销的精准性和时效性，能够进行实时营销，同时还对用户进行精准定位，根据客户的喜好进行产品或服务的个性化推荐，实现针对性营销推广。

（四）优化商业银行运营模式

商业银行应用数据分析技术，能够及时了解市场动态以及营销反馈情况，根据不同营销渠道的推广效果，对营销渠道进行整合和优化，以便更好地完成金融数据的采集、整理及存储。同时，还能对ATM设备的投放效益进行分析，根据ATM设备的日常使用情况，对设备的放置方案以及存放额度进行调整，提高银行管理水平、加强资产控制力度。并且，还能及时了解银行的产品及服务反馈消息，以此作为依据对自身业务进行优化。

四、结语

面对越来越复杂的网络环境，以及日益增多的信息数据，运用数据分析技术对海量金融数据进行分析，已经成为商业银行的必然发展趋势，商业银行只有转变传统经营管理模式，加大信息化建设力度，科学运用数据分析技术，才能实现对数据有价值信息的深层挖掘，提高业务水平和服务质量，为实现银行的良好发展提供有力保障。

（作者单位为宁波银行北京分行金融市场部）

[作者简介：王曦苑（1991―），女，内蒙古赤峰人，硕士，国际会计与金融专业，研究方向：资本结构与公司绩效的关系分析。]

数据分析分析技术篇（9）

中图分类号：TP311 文献标识码：A 文章编号：1007-9416（2017）03-0104-02

1 综述

1.1 简介

在数字化时代，需要新一代系统架构提升业务创新能力。在新一代系统架构中，大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据，就成为业务创新成败的关键。这就要在搭建大数据平台时，就着手大数据治理相关建设。

1.2 需求和意义

从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全，提升大数据平台服务能力，让大数据平台变得易使用、易获得、高质量。

但是，目前很多技术解决方案存在诸多安全和效率隐患：业务系统多，监管力度大；数据量庞大且呈碎片化分布，急需提升大数据质量；数据格式不规范、难以在短时间内找到所需数据；数据在各阶段的应用角度不同，需要降低系统间的集成复杂度。

2 功能设计

2.1 总体架构

本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上，以实现用户集成处理、、清理、分析的一个统一的数据处理平台；按数据类别分为线数据、归档数据；按数据格式分为非结构化数据、结构化数据；按数据模型分类为范式化模型数据、维度模型数据；按数据采集频度分为非实时数据、准实时数据处理架构；并提供数据中心平台与安全管理方案，为企业级用户建立一个通用数据处理和分析中心。如图1所示。

2.2 在线数据

在线数据在线通过接口去获得的数据，一般要求为秒级或速度更快。首先应当将数据进行区分：在线数据、或归档数据。本平台中采用：Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段，变成小批量时间间隔处理，Spark抽象一个持续的数据流称为DStream（离散流），一个DStream是RDD弹性分布式数据集的micro-batch微批次，RDD是分布式集合能够并行地被任何函数操作，也可以通过一个滑动窗口的数据进行变换。

2.3 归档数据

归档数据是在线存储周期超过数据生命周期规划的数据，处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用：Hadoop、Spark技术生态体系内的框架进行计算，这里不详细阐述。

2.4 非结构化数据

通常非结构化的数据不一定具备字段，即使具备字段其长度也不固定，并且字段的又可是由可不可重复和重复的子字段组成，不仅可以包含结构化数据，更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。

针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取，这项工作目前仍依赖技术员进行操作，由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中，需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务，以便后续更佳深度利用数据。

2.5 结构化数据

结构化数据具备特定的数据结构，通常可以转换后最终用二维的结构的数据，并且其字段的含义明确，是挖掘数据价值的主要对象。

本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现，而非Hadoop的基于Java的Map-Reduce机制，将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作，为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。

结构化数据根据采集频度可以继续分类为：非实时数据、准实时数据。

2.6 准实时数据

通常准实时数据是指数据存储在平台本身，但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询，但数据的再处理度不高，具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架，Redis作为高速缓存去缓存数据热区，减小高并发下的系统负载。

2.7 非实时数据

非实时数据主要应用于支持分析型应用，时效性较低。通常用于数据的深度利用和挖掘，例如：因素分析、信息分类、语义网络、图计算、数值拟合等。

非实时数据根据数据模型可继续分类为：范式化模型数据、维度模型数据。

2.8 范式化模型

范式化模型主要是针对关系型数据库设计范式，通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区，建议使用并行MPP数据库集群，既具备关系型数据库的优点，又兼顾了大数据下的处理。

2.9 基于维度模型

维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术，而在大数据和开源框架的时代下，本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式，而是参考了MPP并行数据库的思想另起炉灶，省掉不必要的shuffle、sort等开销，使运算得到优化。

3 应用效果

本系统在不同的业务领域上都可以应用，以2016年在某银行的应用案例为例：该银行已完成数据仓库建设，但众多数据质量问题严重影响了数据应用的效果，以不同的数据存储方式，以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施，以元数据、数据标准、数据质量平台为支撑，实现了数据管控在50多个分支，60个局，1000余处的全面推广，实现了全行的覆盖；管理了120个系统和数据仓库，显著提升了新系统的快速接入能力；通过14个数据规范和流程明确了数据管控的分工；数据考核机制的实施，使其在数据质量评比中名列前茅。

4 结语

本文介绍了大数据下数据分析方法及实现技术的大体设计和思路，从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。

数据分析分析技术篇（10）

一、大数据技术的含义

大数据源于信息化的不断发展，随着互联网技术的发展而不断的兴盛，大数据也被称作巨量资料，他是一种需要新的处理模式才能够让企业拥有更加强大的决策能力和洞察能力的信息资产。大数据技术就是一种能够很好的处理这些庞大数据信息的技术，它并不是采用随机分析法这一捷径，而是把所有的数据信息都进行分析从而得出最真实的分析结果。大数据技术特别适用于大型公司与互联网公司，因为这样的企业他们的数据量非常的庞大，利用人工进行数据分析不能很好的保证其数据分析结果的准确性，同时还特别浪费人工费用。

二、施工企业运用大数据技术进行财务分析的原因

（一）大数据技术能够提高施工企业财务分析的工作效率

作为施工企业的财务部门，在进行财务分析的过程中，我们既要对每一项管理费用进行仔细的分析判断，同时还要把这些数据与前期的数据进行对比，从而发现其费用的发展变化情况。大家都知道，施工企业其现场情况非常复杂，各种支出项目也非常的多，不同情况下管理费用的差距非常的大，财务部门想要对这些数据进行精准的分析，就需要花费大量的人力、物力，施工企业想要单纯的依靠财务人员来完成这项工作，其付出的劳务成本很可能超过其正确的财务决策给企业带来的利润，同时采用人工进行财务分析的结果其质量也很难把握。如果施工企业能够采用大数据技术，那么企业将省去大量分析数据的时间成本，而且数据分析的结果具有非常强的可靠性，既省人力也省时间，同时提高了企业财务分析的工作效率。

（二）有利于提高施工企业财务分析的水平

大家都知道，财务数据是施工企业最重要的数据之一，它的积累量非常的大，财务分析的结果直接影响了企业财务管理的质量。因此，施工企业在进行财务决策分析的时候，必须要做到客观、公正。运用大数据技术，施工企业在进行财务分析的过程中能够避免人为分析中由于个人问题发生的一些对财务数据不客观、公正的问题的出现，保证财务分析的质量，提高施工企业财务分析的水平。比如施工企业在进行融资的过程中，大数据技术能够通过对以前企业的融资情况进行准确的数据分析，财务工作人员根据分析结果，选择最有利于施工企业发展的融资方案，从而节约企业融资成本，增加企业的经营效益。

（三）有利于建筑物的各种数据信息与决策的及时互动

作为施工企业，其现场的情况非常的复杂，而且施工状况多变，管理者的决策都是从以前的数据的分析结果中得出来的，这种决策对于企业而言可能现在是非常合理的，但是随着施工进度的进一步变化，这种施工方案可能就不再适用于施工企业了。利用大数据技术，企业财务人员能够随时根据现场情况，调整企业数据情况，让企业管理者根据实际情况不断的调整经营决策方案。对于施工企业的融资方案而言，大数据技术能够根据市场变化以及企业需求的改变，选择最适用企业的融资方案，从而保障施工企业的正常运转及项目的顺利推进。

三、如何让施工企业更好的运用大数据技术提高企业的财务分析能力

（一）树立正确的财务分析理念

施工企业是我国的传统行业，想要大数据技术能够在施工企业中得到广泛的认可和运用，就必须从转变施工企业的财务分析理念入手。首先，要确定正确的财务分析理念，积极的宣传大数据技术在财务分析工作中的重要地位，让每个员工都能知道它的重要性，但是，我们也不能盲目的使用大数据技术，我们要清楚的知道这项技术也是有它自身的缺陷的，我们必须要从企业实际情况出发，制定出最适合企业的财务分析战略。其次，施工企业要把大数据的理念和企业的文化有效的融合在一起，让大数据理念能够深入人心，深入到每一个员工的行为当中去。

（二）建立标准的财务分析体系

大数据技术只是一项先进的数据分析技术，想要让这项技术发挥其最大的作用，施工企业需要建立标准的财务分析系统。首先，这一系统必须要与施工企业的核算系统形成很好的连接，让企业中的各种数据能够通过核算系统进行财务分析系统。其次，财务分析系统必须能够模拟经营企业的日常活动，预测财务决策可能产生的后果。再次，施工企业必须保证收集到的数据信息足够的广泛、全面，大数据技术只是对数据进行分析，如果数据本身就不准确或者数据范围狭窄，那么分析出来的数据信息质量也就无法得到保障。最后，施工企业的财务分析体系必须是从企业自身的实际情况出发，符合企业的自身需要，只有这样，通过财务分析体系进行的大数据技术分析的结果才更适合企业发展的需要。

（三）培养高素质的专业人才

施工企业想要真正的运用好大数据技术，从根本上提高企业的财务分析水平，就必须要培养一支专业的财务人员队伍，他们必须拥有较高的专业素质，能够熟练的运用大数据技术，对于网络信息技术也要有一定的了解，只有正确的运用了大数据技术才能让这项技术更好的为施工企业的财务分析服务，为企业进行正确的财务决策作出自己的一份贡献。此外，施工企业要重视对员工的培训，社会是不断发展的，技术也在不断的更新，企业工作人员的技术水平必须要能够紧跟时展的脚步，财务人员必须不断的提高自己的专业水平，永远走在时代的前沿，只有这样才能为企业发展更好的服务。

四、结束语

随着我国市场经济的不断发展，大数据技术在施工企业财务分析上的运用将会越来越广泛，因此，作为国内大型的施工企业，我们必须要抓准时机，顺应时代的发展潮流，正确的运用大数据技术，更好的为企业的财务分析做出贡献，同时也有利于施工企业进一步的发展壮大。

作者:段焰单位:重庆渝发建设有限公司

参考文献:

上一篇: 电子科学技术基础下一篇: 公共管理综合知识