数据分析的方法汇总十篇

时间:2023-07-04 16:29:01

数据分析的方法

数据分析的方法篇(1)

一、前言

数据挖掘技术是人们长期对数据库技术进行研究和开发的成果。数据挖掘(DM,DataMining)的概念产生于20世纪80年代末,在90年代获得了长足的发展。目前,数据挖掘技术已经应用到市场分析、政府管理、医疗卫生、科学探索、金融、财经领域中并取得了一定的实效。

财务数据挖掘是一种新的财务信息处理技术,其主要特点是能对会计数据库及其它业务数据库中的大量数据进行抽取、转换、分析及其他模型化处理,从中提取辅助决策的关键性数据。在企业的财务状况分析中应用数据挖掘技术,报表使用者可以节省大量的时间和精力去关注更有用的信息,帮助报表使用者找出隐藏的、未知的、但对了解企业经营状况十分有用的信息。

二、应用于财务分析的数据挖掘方法

现有研究中,应用于财务分析的数据挖掘方法主要有以下几种:

(一)神经网络

神经网络主要应用于财务危机预测和财务状况评价两方面。

1.财务危机预测

目前神经网络在财务危机预测的应用中主要集中在模型的建立和优化上。在模型建立方面,通过选取一定的样本包括ST公司和非ST公司,选取其中一部分作为训练集,其余的作为测试集。先对训练集进行归一化处理,再运用神经网络算法建立模型,为了验证模型的预测准确率,用测试集检验模型的预测结果。

在模型优化方面,一方面不断改进指标的选取,通过一定的统计方法客观选取指标,降低主观性,提高模型的预测准确性;另一方面不断改进神经网络算法,把不同的技术引用到模型中从而不断优化模型。

2.财务状况评价

神经网络运用到企业财务状况评价时,首先都是建立系统的评价指标体系,然后在神经网络结构和算法研究的基础上,通过样本对网络进行训练,最后得到稳定的结构和权值,从而建立模型。

(二)模糊集理论

目前有关模糊集理论在财务分析的应用主要集中在模糊综合评价法在企业财务状况评价的应用。在运用模糊综合评价法建立评价模型时,首先要确定因素集,因素集为各种指标体系的集合;其次要确定权重集,权重的确定主要有市场调查法和德尔菲法;再次要建立等级评价标准,评价等级集是评价者对评价对象可能做出的各种评价结果所组成的集合;最后建立模糊评价矩阵,经过运算得到评价结果。

在运用模糊集理论建立评价模型时,一方面需要根据企业的具体情况建立因素集和权重系数矩阵,具有一定的客观性;另一方面评价集以隶属度的方式表示,使其评价结果留有余地。

(三)决策树

决策树在财务方面主要应用于财务预警方面。利用决策树进行数据挖掘建模,首先需要进行变量的指定,一般把上市公司是否“特别处理”为目标变量,已选定的财务指标为输入变量;然后运用软件建立模型;最后要根据检验样本进行检验。

决策树作为一种数据挖掘技术运用到财务预警中具有较好的预测效果。目前,利用决策树进行财务预警处于起步阶段,如何更好的应用决策树有很大的研究空间。但是决策树的输出变量只能有两个,只能简单的预测评价企业财务状况好或者不好。

(四)遗传算法

现有的研究一般把遗传算法和神经网络结合在一起,通过遗传算法的全局寻优能力,建立财务困境预测的遗传神经网络模型,该模型利用遗传算法对输入变量进行了优化,比单纯的神经网络模型具有更好的预测能力。

遗传算法主要适用于数值优化问题,在财务分析中主要运用于具体的问题中,例如内涵报酬率的分析和证券组合选择分析,它作为一种解决数值优化问题的算法,在数值优化问题中有广阔的应用前景。

(五)粗糙集

粗糙集理论目前主要运用在财务危机预测中。首先是财务指标的筛选过程,通过计算条件属性和决策属性的依赖度,进而确定各条件属性相对于决策属性的重要程度,并根据重要程度对其进行条件属性约简;之后,确定筛选后进入预测模型的财务指标的权重,对财务指标重要程度做归一化处理后得到权重;最后,得到基于粗糙集理论的综合预测模型,应用预测模型计算对象的综合预测值。通过实证分析可以看出与传统判别模型进行比较,基于粗糙集理论的模型预测效果更好。

(六)聚类分析

聚类分析主要是对事先不知道类别的数据进行分类,目前对于聚类分析的研究集中到模糊聚类分析。

在对企业财务状况进行评价时,大多是运用模糊聚类分析方法,选取一定的财务状况评价指标,建立模糊聚类分析模型,进行实证分析,形成模糊聚类图,再将具有财务状况相似性的行业进行归类。

三、数据挖掘方法评析

从现有基于数据挖掘的财务分析方法可以看出,它们都是以财务报表为基础,因而存在以下问题:

(一)数据采集欠缺真实和滞后

企业为标榜业绩,常常粉饰财务报告、虚增利润,使财务报告中的数据丧失了真实性,在此基础上进行的财务分析是不可靠的。此外,财务报告一般是半年报和年报,半年报在半年度结束之后两个月内报出,年报在年度结束后四个月内报出,缺乏及时的信息跟踪和反馈控制,存在明显的滞后性,在这个基础上进行财务状况分析具有一定的局限性,从而影响分析的结果。

(二)数据挖掘范围广泛性不足且分析方法片面

现有的财务状况分析在根据财务信息对企业财务状况进行定量的分析预测时缺乏非财务信息的辅助分析,使信息涵盖范围不够广泛。而且,现有的财务状况分析方法都不能很好的把定性分析与定量分析相结合。

四、数据挖掘在财务分析应用的改进

(一)在数据采集方面

不再是以财务报表的资料为数据源,而是从企业中采集原始数据,提高数据的可信度。当然,会计信息数据也可以有多种表现形式,可以是传统的关系数据库、文本形式的数据,也可以是面向对象的数据库以及Web数据库等。另外,利用XBRL和WEB挖掘等技术加入了非财务信息和外部信息。这样,财务分析所需要的财务信息、非财务信息和外部信息可以分别从会计信息系统、管理信息系统和Internet采集。

实时数据库的建立使实时数据挖掘成为可能,为企业财务状况分析的准确性提供了技术支持。实时数据库是数据库系统发展的一个分支,它适用于处理不断更新的快速变化的数据及具有时间限制的事务。XBRL开始广泛的应用,将会促进实时数据采集问题的实现。

(二)在数据挖掘过程中

应综合运用数据挖掘的各种技术,对净化和转换过后的数据集进行挖掘。将非财务信息纳入考察范围,以扩充信息的涵盖范围。

实际运用中,定性分析和定量分析方法并不能截然分开。量的差异在一定程度上反映了质的不同,由于量的分析结果比较简洁、抽象,通常还要借助于定性的描述,说明其具体的含义;定性分析又是定量分析的基础,定量分析的量必须是同质的。在需要时,有些定性信息也要进行二次量化,作为定量信息来处理,以提高其精确性。

【参考文献】

[1] 康晓东.基于数据仓库的数据挖掘技术[M].北京:机械工业出版社,2004:131-148.

[2] 李建锋.数据挖掘在公司财务分析中的应用[J].计算机工程与应用,2005(2).

[3] 姚靠华,蒋艳辉.基于决策树的财务预警[J].系统工程,2005(10):102-106.

数据分析的方法篇(2)

中图分类号:P208 文献标识码:A 文章编号:1672-3791(2016)02(a)-0003-04

Abstract:In view of the problems of the social survey data processing and analysis, this paper establishes the mathematical model of three dimensional matrix which is based on the three dimensional matrix.On the basis of the established three dimensional matrix model,we can use the properties of three dimensional matrix to deal it with a variety of mathematical methods, and use the hypergraph theory for further analysis. This enriches the method of the survey data processing greatly.

Key Words:Social survey data;Three-dimension matrix;Hypergraph

社会调查是了解各方面信息的重要途径之一,社会调查数据主要是通过调查问卷的方法得到的。由于社会调查数据的维数较高,加上人为主观因素,数据类型主要为二元变量、离散变量、序数变量等为主,所以对于社会调查数据的分析和处理大都基于统计学,只对单一题目进行统计学分析,其分析方法主要是基于题型进行处理的,对于题目和题目之间的关系很少关心[1]。许多数据挖掘算法因为种种限制无法在社会调查的数据分析中得到应用。因为方法的限制,所以现在很多社会调查只能验证事先想好的内容和假设,很少可以对高维数据进行相对复杂的回归分析处理。

根据以上存在的问题,该文建立了基于三维矩阵的数学模型,将单选题、多选题和排序题用向量形式进行表示,每一题定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份问卷的信息用一个M×N矩阵表示。这样表示可以将所有问卷内容当作一个整体,作为后续算法的基础。

1 社会调查数据的特点

通常情况下,社会调查数据特点如下。

(1)相关性。对于一个样本个体而言,它具有本身的多个特征,这些特征之间就具有一定的相关性。对于多个样本而言,个体与个体的特征之间具有相关性。如果样本随时间而变化,那么该样本在不同时刻的特征之间又具有相关性。因此,由于上述多个原因使得社会调查数据具有了复杂的相关性,传统的统计学调查难以解决这样的问题。

(2)离散性。因为社会调查数据是通过自填式问卷、网络调查数据库等方法得到,所以社会调查数据一般以离散变量为主,且这些数据之间只有标示作用,并没有严格的逻辑关系。

(3)模糊性。社会调查数据当中不可避免的会接触到各种表达方式和概念,因此,它具有模糊性。

因为由自填式问卷或结构式访问的方法得到的社会调查数据具有以上特点,所以在实际应用中基于统计学的处理方法只能笼统的显示数据的部分特性,如频数、离散程度等[2]。对于数据之间的关系只能分析出维数极少的大致的关系。

而且利用软件进行数据挖掘时,因为现有的软件中的数据挖掘算法对于数据类型和格式要求较高,所以能应用到的数据挖掘算法很少。就算是数据要求较低的关联分析,其结果也存在大量的冗余。因此,我们需要建立一个合适的社会调查数据的数学模型来完善原先的方法并使跟多的数据挖掘方法可以运用到其中,使得结果更准确。

2 社会调查数据的建模

研究中我们发现,三维矩阵可适用于社会调查数据的建模。

2.1 三维矩阵的定义

三维矩阵的定义:由n个p×q阶的矩阵组成的n×p×q阶的矩阵A称为三维矩阵,又称立体阵。Ak,i,j表示三维矩阵A的第k层,第i行,第j列上的元素。其中n,p,q分别表示三维矩阵的高度,厚度和宽度。

2.2 三维矩阵模型的建立

调查问卷的题目一般有三种类型:单选题、多选题和排序题。这三类题目都可以表示成向量的形式,其中每一道单选题、多选题可以表示成一个向量,排序题可以表示成多个向量组成的矩阵。对于单选题和多选题,可以按选项的顺序可以表示成一个向量,其中选中的项用“1”表示,未选中的项用“0”表示。对于排序题,可以表示成一个n×n的方阵,其中n表示该排序题的选项个数,。这样,每一题就可以定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份调查问卷的信息用一个M×N矩阵表示(M为题目的最大选项数),其在每一维上的选择称之为一个元素,这样每份问卷的信息就包括了N个元素。以第1,2,3题数据为例,其中第1题为单选题选择“B”,用向量表示为一个元素,第2题为多选题选择“ACE”,用向量表示为一个元素,第3题为排序题顺序为CBADEFIHG,用矩阵表示,每一个列向量是一个元素,如图1所示。

那么,假设有一问卷信息用一个大小为M×N的矩阵表示。K份的问卷信息就可以用K个大小为M×N的矩阵表示。将这K个矩阵叠加,形成一个三维矩阵。这个三维矩阵就是我们建立的三维矩阵数学模型,如图2所示。

在图2中我们看到,该三维矩阵数学模型有三个坐标轴,它们分别是题目,人数,选项。题目轴以每一道题为一个单位;人数轴以每一份问卷为一个单位;选项轴的刻度为A,B,C,D,E,F等题目选项,其个数为该调查问卷中选项最多的题目的选项个数。

在此基础之上,这样的三维矩阵具有以下性质。

(1)在题目轴中选取对应的题目,将三维矩阵面向竖切得到截面1(如图2中01所示),截面2表示每一道题所有人选择的信息。

(2)在人数轴中选取对应的人,将三维矩阵横切得到横截面1(如图2中02所示),横截面1表示对应的人选择所有题目的信息。

在得到三维矩阵后,可对它进行像素化处理,置1的元素用黑点代替,置0元素的则空白,在得到像素化三维矩阵后我们可以将三维矩阵沿着人数维度上向下投影,这样就可以得到一个具有浓黑不一的点的平面。通过这些点的浓度,可以知道每一选项选择的人数。接下来我们可用灰度级表示点的浓度,筛选出浓度大于一定程度的点,在此基础上进行后续算法处理。

上述三维矩阵数学模型具有数学三维矩阵的所有性质,可依据调查问卷的需求进行转置,加权、相乘、筛选等数学处理,另外在数学处理的基础上,采用超图理论可以大大丰富了调查问卷的处理方法。

3 基于超图算法的调查问卷分析技术

超图是离散数学中重要的内容,是对图论的推广[3]。超图是有限集合的子系统,它是一个由顶点的集合V和超边集合E组成的二元对,超图的一条边可以有多个顶点的特性,这与一般的图有很大不同。超图分为有向超图与无向超图两类,在无向超图的每条超边上添加方向后得到的有向二元对就是有向超图。超图在许多领域有广泛的应用。

大家可以利用无向超图表示每一道题的选择情况,先将这每一题的每一个选项设成一个节点,然后将三维矩阵从上向下投影,如果某一题的若干个选项同时被一个人选择,就用一条超边包围这些节点,那么选这些选项的人越多,投影得到的超边就越浓。这样就用超图表示了问卷中每道题的信息,可以进行聚类处理。

利用有向超图,可以将关联规则表示成有向超图的形式,在得到了关联规则后,设实际中得到的关联规则的形式为:,前项和后项都是由多个项组成的集合。该文定义一条关联规则由一条有向超边表示,有向超边的头节点表示关联规则的前项,有向超边的尾节点表示关联规则的后项。每条有向超边的头节点和尾节点均可以为多个,如此便成功表示了复合规则,从而可以使用相关算法进行冗余规则检测。

通过基于有向超图的冗余规则检测就可以将关联规则之间存在着的大量冗余检测出,减少挖掘资源的浪费,从而增加了挖掘结果的有效性。

传统的聚类方法都对原始数据计算它们之间的距离来得到相似度,然后通过相似度进行聚类,这样的方法对于低维数据有良好的效果,但是对于高维数据却不能产生很好的聚类效果,因为高维数据的分布有其特殊性。通过超图模型的分割实现对高维数据的聚类却能产生较好的效果。它先将原始数据之间关系转化成超图,数据点表示成超图的节点,数据点间的关系用超边的权重来表示。然后对超图进行分割,除去相应的超边使得权重大的超边中的点聚于一个类中,同时使被除去的超边权重之和最小。这样就通过对超图的分割实现了对数据的聚类。具体的算法流程如下。

首先,将数据点之间的关系转化为超图,数据点表示为超图节点。如果某几个数据点的支持度大于一定阈值,则它们能构成一个频繁集,就将它们用一条超边连接,超边的权重就是这一频繁集的置信度,重复同样的方法就可以得超边和权重。

然后,在基础此上,通过超图分割实现数据的聚类。若设将数据分成k类,则就是对超图的k类分割,不断除去相应的超边,直到将数据分为k类,且每个分割中数据都密切相关为止,同时保持每次被除去的超边权重和最小,最终得到的分割就是聚类的结果。

如图3所示是基于超图算法的选题型调查问卷的分析技术的流程图,主要包括4个主要部分,一是用向量表示调查问卷结果,二是将向量表示的调查问卷转化为三维矩阵数学模型表示调查问卷结果,三是使用超图算法进行优化,四是根据要求显示调查问卷结果。

4 结语

该文针对社会调查数据处理与分析中存在的问题,建立了基于三维矩阵的数学模型,将单选题和多选题表示成向量,将排序题表示成多个列向量,从而每一题可以表示成空间的一个维度,每一个向量就是一个元素,这样每一张问卷就可以表示成一个矩阵,通过将多个矩阵叠加就可以得到三维矩阵。该数学模型可以利用三维矩阵的性质对其进行多种数学处理,如竖切、横切、像素化后投影等。在数学处理的基础上,该文又提出超图理论对数据进行聚类和检测冗余规则的分析。

参考文献

[1] 陈慧萍,王煜,王建东.高维数据挖掘算法的研究与进展[J].计算机工程与应用,2006(24):170-173.

[2] 张东.基于VFP的调查问卷通用统计汇总生成系统的设计与实现[J].科技资讯,2006(10):183.

[3] 奚维吉.用户满意度调查的数据处理[J].科技资讯,2007(8):253-254.

[4] 崔阳,杨炳儒.超图在数据挖掘领域中的几个应用[J].计算机科学,2010,37(6):220-222.

[5] 朱玉全,杨鹤标,孙蕾.数据挖掘技术[M].南京:东南大学出版社,2006.

[6] 王志平,王众托.超网络理论及其应用[M].北京:科学出版社,2008.

[7] Jong Soo Park,Ming-Syan Chen,Philip S.Yu.Using a hash-based method with transaction trimming for mining associationrules [J].IEEE Transactions on knowledge and engineering,1997,9(5):813-825.

[8] 王海英,黄强,李传涛,等.图论算法及其 MATLAB实现[M].北京航空航天大学出版社,2010.

[9] H.Toivonen. Sampling large databases for association rules [C]// Proc. 1996 Int. Conf. Very Large Data Bases (VLDB'96).1996.

[10] Marco Dorigo, Vittorio Maniezzo, Alberto Colorni. The ant system: optimization by a colony of cooperative agents [J].Physical Review Letters,1995,75(14):2686-2689.

数据分析的方法篇(3)

Key Words:Social survey data;Three-dimension matrix;Hypergraph

社会调查是了解各方面信息的重要途径之一,社会调查数据主要是通过调查问卷的方法得到的。由于社会调查数据的维数较高,加上人为主观因素,数据类型主要为二元变量、离散变量、序数变量等为主,所以对于社会调查数据的分析和处理大都基于统计学,只对单一题目进行统计学分析,其分析方法主要是基于题型进行处理的,对于题目和题目之间的关系很少关心[1]。许多数据挖掘算法因为种种限制无法在社会调查的数据分析中得到应用。因为方法的限制,所以现在很多社会调查只能验证事先想好的内容和假设,很少可以对高维数据进行相对复杂的回归分析处理。

根据以上存在的问题,该文建立了基于三维矩阵的数学模型,将单选题、多选题和排序题用向量形式进行表示,每一题定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份问卷的信息用一个M×N矩阵表示。这样表示可以将所有问卷内容当作一个整体,作为后续算法的基础。

1 社会调查数据的特点

通常情况下,社会调查数据特点如下。

(1)相关性。对于一个样本个体而言,它具有本身的多个特征,这些特征之间就具有一定的相关性。对于多个样本而言,个体与个体的特征之间具有相关性。如果样本随时间而变化,那么该样本在不同时刻的特征之间又具有相关性。因此,由于上述多个原因使得社会调查数据具有了复杂的相关性,传统的统计学调查难以解决这样的问题。

(2)离散性。因为社会调查数据是通过自填式问卷、网络调查数据库等方法得到,所以社会调查数据一般以离散变量为主,且这些数据之间只有标示作用,并没有严格的逻辑关系。

(3)模糊性。社会调查数据当中不可避免的会接触到各种表达方式和概念,因此,它具有模糊性。

因为由自填式问卷或结构式访问的方法得到的社会调查数据具有以上特点,所以在实际应用中基于统计学的处理方法只能笼统的显示数据的部分特性,如频数、离散程度等[2]。对于数据之间的关系只能分析出维数极少的大致的关系。

而且利用软件进行数据挖掘时,因为现有的软件中的数据挖掘算法对于数据类型和格式要求较高,所以能应用到的数据挖掘算法很少。就算是数据要求较低的关联分析,其结果也存在大量的冗余。因此,我们需要建立一个合适的社会调查数据的数学模型来完善原先的方法并使跟多的数据挖掘方法可以运用到其中,使得结果更准确。

2 社会调查数据的建模

研究中我们发现,三维矩阵可适用于社会调查数据的建模。

2.1 三维矩阵的定义

三维矩阵的定义:由n个p×q阶的矩阵组成的n×p×q阶的矩阵A称为三维矩阵,又称立体阵。Ak,i,j表示三维矩阵A的第k层,第i行,第j列上的元素。其中n,p,q分别表示三维矩阵的高度,厚度和宽度。

2.2 三维矩阵模型的建立

调查问卷的题目一般有三种类型:单选题、多选题和排序题。这三类题目都可以表示成向量的形式,其中每一道单选题、多选题可以表示成一个向量,排序题可以表示成多个向量组成的矩阵。对于单选题和多选题,可以按选项的顺序可以表示成一个向量,其中选中的项用“1”表示,未选中的项用“0”表示。对于排序题,可以表示成一个n×n的方阵,其中n表示该排序题的选项个数,。这样,每一题就可以定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份调查问卷的信息用一个M×N矩阵表示(M为题目的最大选项数),其在每一维上的选择称之为一个元素,这样每份问卷的信息就包括了N个元素。以第1,2,3题数据为例,其中第1题为单选题选择“B”,用向量表示为一个元素,第2题为多选题选择“ACE”,用向量表示为一个元素,第3题为排序题顺序为CBADEFIHG,用矩阵表示,每一个列向量是一个元素,如图1所示。

那么,假设有一问卷信息用一个大小为M×N的矩阵表示。K份的问卷信息就可以用K个大小为M×N的矩阵表示。将这K个矩阵叠加,形成一个三维矩阵。这个三维矩阵就是我们建立的三维矩阵数学模型,如图2所示。

在图2中我们看到,该三维矩阵数学模型有三个坐标轴,它们分别是题目,人数,选项。题目轴以每一道题为一个单位;人数轴以每一份问卷为一个单位;选项轴的刻度为A,B,C,D,E,F等题目选项,其个数为该调查问卷中选项最多的题目的选项个数。

在此基础之上,这样的三维矩阵具有以下性质。

(1)在题目轴中选取对应的题目,将三维矩阵面向竖切得到截面1(如图2中01所示),截面2表示每一道题所有人选择的信息。

(2)在人数轴中选取对应的人,将三维矩阵横切得到横截面1(如图2中02所示),横截面1表示对应的人选择所有题目的信息。

在得到三维矩阵后,可对它进行像素化处理,置1的元素用黑点代替,置0元素的则空白,在得到像素化三维矩阵后我们可以将三维矩阵沿着人数维度上向下投影,这样就可以得到一个具有浓黑不一的点的平面。通过这些点的浓度,可以知道每一选项选择的人数。接下来我们可用灰度级表示点的浓度,筛选出浓度大于一定程度的点,在此基础上进行后续算法处理。

上述三维矩阵数学模型具有数学三维矩阵的所有性质,可依据调查问卷的需求进行转置,加权、相乘、筛选等数学处理,另外在数学处理的基础上,采用超图理论可以大大丰富了调查问卷的处理方法。

3 基于超图算法的调查问卷分析技术

超图是离散数学中重要的内容,是对图论的推广[3]。超图是有限集合的子系统,它是一个由顶点的集合V和超边集合E组成的二元对,超图的一条边可以有多个顶点的特性,这与一般的图有很大不同。超图分为有向超图与无向超图两类,在无向超图的每条超边上添加方向后得到的有向二元对就是有向超图。超图在许多领域有广泛的应用。

大家可以利用无向超图表示每一道题的选择情况,先将这每一题的每一个选项设成一个节点,然后将三维矩阵从上向下投影,如果某一题的若干个选项同时被一个人选择,就用一条超边包围这些节点,那么选这些选项的人越多,投影得到的超边就越浓。这样就用超图表示了问卷中每道题的信息,可以进行聚类处理。

利用有向超图,可以将关联规则表示成有向超图的形式,在得到了关联规则后,设实际中得到的关联规则的形式为:,前项和后项都是由多个项组成的集合。该文定义一条关联规则由一条有向超边表示,有向超边的头节点表示关联规则的前项,有向超边的尾节点表示关联规则的后项。每条有向超边的头节点和尾节点均可以为多个,如此便成功表示了复合规则,从而可以使用相关算法进行冗余规则检测。

通过基于有向超图的冗余规则检测就可以将关联规则之间存在着的大量冗余检测出,减少挖掘资源的浪费,从而增加了挖掘结果的有效性。

传统的聚类方法都对原始数据计算它们之间的距离来得到相似度,然后通过相似度进行聚类,这样的方法对于低维数据有良好的效果,但是对于高维数据却不能产生很好的聚类效果,因为高维数据的分布有其特殊性。通过超图模型的分割实现对高维数据的聚类却能产生较好的效果。它先将原始数据之间关系转化成超图,数据点表示成超图的节点,数据点间的关系用超边的权重来表示。然后对超图进行分割,除去相应的超边使得权重大的超边中的点聚于一个类中,同时使被除去的超边权重之和最小。这样就通过对超图的分割实现了对数据的聚类。具体的算法流程如下。

首先,将数据点之间的关系转化为超图,数据点表示为超图节点。如果某几个数据点的支持度大于一定阈值,则它们能构成一个频繁集,就将它们用一条超边连接,超边的权重就是这一频繁集的置信度,重复同样的方法就可以得超边和权重。

然后,在基础此上,通过超图分割实现数据的聚类。若设将数据分成k类,则就是对超图的k类分割,不断除去相应的超边,直到将数据分为k类,且每个分割中数据都密切相关为止,同时保持每次被除去的超边权重和最小,最终得到的分割就是聚类的结果。

数据分析的方法篇(4)

doi:10.3969/j.issn.1673 - 0194.2017.02.056

[中图分类号]F270 [文献标识码]A [文章编号]1673-0194(2017)02-00-01

0 引 言

随着移动互联网技术的发展,人们越来越习惯于网络购物。在网上购物或刷微博时,常常会看到“猜你喜欢”“可能感兴趣的商品”等广告栏目。而这些内容都是大数据产业的成果,是面向大数据视野得到市场分析的结果。掌握这种市场分析方法,能帮助企业更好地了解消费者的需求,进而更好地开展营销活动。

1 大数据视野下市场分析的问题

在互联网得到普及应用的情况下,大数据时代已经正式到来。目前,互联网上的数据每年都会增长50%。而随着运动、湿度和温度等各类传感器的出现,企业接触到的数据信息也越来越多,而这些数据在给企业带来挑战的同时,也为企业提供了新的市场增长空间。加强数据挖掘和分析,能帮助企业精准地找到用户,从而通过降低营销成本、提高销售率实现利益最大化。因此,企业应面向大数据进行市场分析研究,以便通过统计和分析超大量的样本数据,获得更接近市场真实状态的市场研究成果。

2 大数据视野下的市场分析方法

2.1 基于大数据的市场调研方法

在过去较长的时间里,市场分析是以实地调查为前提,或是通过问卷调查和提供抽样技术,其目的均是为了获得消费者的答案。进入大数据时代后,企业开始通过网络调研进行市场调查。这种方法,能够方便、快捷且经济地完成市场调查。具体来讲,就是企业通过门户网站完成市场调研模块的建立,然后将新产品邮寄给消费者,并要求消费者在试用后进行网上调查问卷的填写,这样就能够投入较少的人力和物力来完成市场调研。由于这种市场分析方法具有一定的互动性,能够在概念阶段利用虚拟仿真技术完成产品测试,从而使消费者参与到产品的开发,进而使市场需求得到更好的满足。

2.2 基于大数据的市场信息挖掘

面向大数据视野研究市场分析的问题,企业可以发现有效的市场分析需要大量的数据信息提供支撑。所以,企业还要使用基于大数据的市场信息挖掘技术,以便对市场需求进行更好的分析。首先,在智能手机逐步得到普及应用的情况下,企业还应在移动终端开展市场研究,借助移动APP完成消费信息的采集。企业对这些数据进行深入分析,能够完成产品回购率、产品促销奖励评估和购买时点等内容的分析。其次,在零售终端,POS机得到较好的建设和应用下,企业可以通过扫描商品条形码完成购买地点、名称和零售价等信息的采集,进而使其更好地掌握商业渠道的动态信息。此外,消费者往往具有从众性,企业加强对社交平台的信息挖掘能更好的掌握消费潮流。比如,利用微博评论可以完成消费者对某种产品偏好的了解,从而完成消费者真实消费心理及态度的分析,进而更好地掌握市场信息。

2.3 多学科分析方法的引入

以往的市场分析通常需要采取社会学调查方法完成资料搜集,再利用数据分析软件完成数据分析,并获得描述性或预测性的分析报告。在大数据时代,由于要完成海量数据的分析,因此,可以引入相对论、整体论和跨文化比较研究等多个学科的分析方法,以满足大数据时代数据分析的需要。就目前来看,大数据来自各种移动终端和网络,其是能反映消费者行动过程和轨迹的数据记录,采用传统的市场分析方法难以对这种过程性数据进行分析,而引入以分析过程见长的人类学的分析方法,则能对市场消费者的行动过程进行描述,从而使消费者的行动趋向得到揭示。

2.4 定量与定性分析方法的结合

采取定性或定量这两种分析方法中的一种,可以完成片段式或截面式数据内容的分析。但在大数据时代,数据变得更加复杂,因此可以使用定量和定性相结合的分析方法进行市场分析。一方面,企业通过网络调研完成大量数据信息的搜集,从而采取定量分析法进行市场分析研究。这种方法,能够使市场研究人员成为“隐形人”,从而更加客观地观察消费者,并通过对超大样本量进行统计分析,完成市场状态的分析。另一方面,针对文本、视频和图形等非量化数据,可以通过智能化检索和分析来完成定性分析,以便在保护消费者隐私的基础上,更好地分析市场需求。

2.5 数据复杂属性的还原

在传统的市场分析工作中,可以将数据看成是一些片段而进行分析。而这样的分析,实际上是脱离具体情境和社会关系的分析过程,虽然可以根据自身经验和想象来进行情境原,但得到的研究结果却不够客观和科学。在大数据背景下,企业可以使用能够还原数据复杂属性的市场分析方法,以便更好地完成、嵌入某些社会关系的消费者的购买行动和轨迹的分析,进而获得更加有效及真实的分析结果。因此,使用的市场分析方法应更关注数据的社会背景,从而更好地完成大数据的整合与分析。

3 结 语

在大数据时代,企业要选择适当的市场分析方法,以便使自身的数据处理能力得到提高,从而通过获取的高质量的数据信息来提高自身竞争力,进而更好地适应社会发展的要求。因此,希望本文对大数据视野下的市场分析方法展开的研究,可以为相关工作的开展带来启示。

主要参考文献

数据分析的方法篇(5)

· 数据分析的目的是什么?

· 数据分析的一般过程是怎样的?

· 有哪些数据分析方法?

· 在服务性行业里,数据分析方法有哪些需要特别注意的地方?

· 在国内最容易犯哪些数据分析的错误?

因笔者能力和精力有限,文章中存在错误或没有详尽之处,还望各位读者见谅并恳请及时指正,大家相互学习。

(一)数据分析的核心作用

根据国际标准的定义,“数据分析是有组织、有目的地收集并分析数据,通过将数据信息化、可视化,使之成为信息的过程,其目的在于把隐藏在看似杂乱无章的数据背后的信息集中和提炼出来,从而总结研究对象的内在规律。”在实际工作中,数据分析能够帮助管理者进行判断和决策,以便采取适当策略与行动。

这里需引起关注的是任何没有目的或结果的分析报告都是“忽悠”,都仅仅是没有灵魂的躯壳!我们经常看到国内的同事们忙于各种所谓的“数据分析报告”,堆砌了大量的图表和文字,显得“专业”、“美观”,但认真研读后却发现缺乏最关键的“分析”过程,更别说什么分析结果了。显然大家只是把对事实的原始描述当成了数据分析,而实际上描述原始事实只是数据分析过程的一项内容而非全部。数据分析不能仅有报表没有分析,因为“有报表不等于有分析,有分析不代表有效执行”,报表只是数据的展现形式;数据分析也不能仅有分析没有结论,没有结论的分析无疑“差了一口气”,对实际业务工作无法产生价值,唯有通过分析得出结论并提出解决方案才能体现数据分析协助管理者辅助决策的核心作用。因此数据分析来源于业务,也必须反馈到业务中去,没有前者就不存在数据分析的基础,没有后者也就没有数据分析的价值了。

(二)数据分析的分类

最常见也是最标准的数据分析可分为三大类:描述性数据分析、探索性数据分析以及验证性数据分析。

所谓描述性分析是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体特征。这种分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形,比如上个月的平均通话时长是多少,员工离职率是多少等等。

探索性数据分析是指对已有数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,侧重于在数据之中发现新的特征,比如呼叫中心的一次解决率和哪些因素相关?他们背后的驱动因素又有哪些?哪些因素是“因”、哪些又是“果”等等。

而验证性分析是依据一定的理论对潜在变量与观察变量间关系做出合理的假设,并对这种假设进行统计检验的现代统计方法,侧重于验证已有假设的真伪性。验证性分析是在对研究问题有所了解的基础上进行的,这种了解可建立在理论研究、实验研究或两者结合的基础上,比如从调研的结果来看本月的客户满意度比上个月高出2%,是否真是如此;男性客户的满意度是否高于女性客户等等。

(三)数据分析的一般过程

通常来讲完整的数据分析过程可分为以下几步:明确数据分析的目的、采集并处理数据、分析及展现数据、撰写分析报告。

现实情况中人们往往在做数据分析时陷入一大堆杂乱无章的数据中而忘记了分析数据的目的,数据分析第一步就是要明确数据分析的目的,然后根据目的选择需要分析的数据,明确数据分析的产出物,做到有的放矢、一击即中!

其次,在做数据分析时要根据特定需求采集数据,有目的地采集数据是确保数据分析过程有效的基础,采集后的数据(包括数值的和非数值的)要对其进行整理、分析、计算、编辑等一系列的加工和处理,即数据处理,数据处理的目的是从大量的、可能是难以理解的数据中抽取并推导出对于某些特定人群来说是有价值、有意义的数据。

接着是对处理完毕的数据进行分析和展现,分析数据是将收集的数据通过加工、整理和分析、使其转化为信息,数据展现的方式有两类:列表方式、图形方式。

最后,整个数据分析过程要以“分析报告”的形式呈现出来,分析报告应充分展现数据分析的起因、过程、结果及相关建议,需要有分析框架、明确的结论以及解决方案。数据分析报告一定要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为整个数据分析过程就是为寻找或者求证一个结论才进行的。最后,分析报告要有建议或解决方案,以供管理者在决策时作参考。

(四)客户中心常用的数据分析工具及简介1 Excel

Excel是微软办公套装软件的一个重要组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。Excel提供了强大的数据分析处理功能,利用它们可以实现对数据的排序、分类汇总、筛选及数据透视等操作。

2 SPC

SPC(Statistical Process Control)即统计过程控制,是一种借助数理统计方法的过程控制工具。实施SPC的过程一般分为两大步骤:首先用SPC工具对过程进行分析,如绘制分析用控制图等;根据分析结果采取必要措施:可能需要消除过程中的系统性因素,也可能需要管理层的介入来减小过程的随机波动以满足过程能力的需求。第二步则是用控制图对过程进行监控。

3 SAS

SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,时至今日,统计分析功能仍是它的重要组成部分和核心功能。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,SAS提供多个统计过程,用户可以通过对数据集的一连串加工实现更为复杂的统计分析,此外 SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。

4 JMP

JMP是SAS(全球最大的统计学软件公司)推出的一种交互式可视化统计发现软件系列,包括JMP,JMP Pro,JMP Clinical,JMP Genomics,SAS Simulation Studio for JMP等强大的产品线,主要用于实现统计分析。其算法源于SAS,特别强调以统计方法的实际应用为导向,交互性、可视化能力强,使用方便。JMP的应用非常广泛,业务领域包括探索性数据分析、六西格玛及持续改善(可视化六西格玛、质量管理、流程优化)、试验设计、统计分析与建模、交互式数据挖掘、分析程序开发等。 SPSS(Statistical Product and Service Solutions)“统计产品与服务解决方案”软件,是世界上最早的统计分析软件,基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数,SPSS也有专门的绘图系统,可以根据数据绘制各种图形。

6 Minitab

数据分析的方法篇(6)

关键词:环境监测;质量浓度;数据;分析;方法

Key words: environmental monitoring; mass concentration; data analysis; method;

中图分类号:X83文献标识码:A 文章编号:2095-2104(2012)

一、监测数据综合分析的目的和作用

环境监测是科学性很强的工作,它的直接产品就是监测数据。监测质量好坏集中反映在数据上,准确、可靠、可比的环境监测数据是环境科学研究工作的基础,是环境管理的依据。一个环境监测站每年可提供成千上万的监测数据,但这些数据本身是孤立的、离散的,必须从不同的目的和作用出发,把环境监测所获得的资料、数据,通过不同的途径和方法分类、统计、转化、汇总,找出其本质的东西,获取环境管理所要求的各种综合数据。环境监测数据综合分析的目的是完成监测数据、信息资料向环境质量定性和定量结论的转变,通过监测数据、信息资料的深加工与自然环境、社会经济发展等诸因素的综合分析,实现为污染防治决策和环境建设决策的转变。环境监测数据综合分析是环境监测过程中环节的重要环节,也是最终环节。一般来说,环境监测综合分析技术的水平高低,代表着监测站技术水平的高低,也决定着监测站在环境管理中的地位和作用。

二、监测数据综合分析的方法

在对环境质量进行综合评价或对区域环境污染状况进行评价时,都是以一定数量的监测数据和资料为依据的。这些数据和资料包括环境要素的监测数据、环境条件数据、污染源调查监测数据、现场调查数据和实测数据等等。环境监测综合分析采用的方法很多,并在不断完善和发展,通常采用的分析方法有统计规律分析、合理性分析、效益分析等。

2.1 统计规律分析

统计规律分析中包括了对环境要素进行质量评价的各种数学模式评价方法,也就是应用数理统计方法,模糊数学方法和适用于不同环境要素的数学、物理方程等方法,对监测数据资料进行剖析,解释,做出规律性的分析和评价。该分析方法主要应用于环境调查、环境规划或课题、环评等比较大的工作中。

2.2 合理性分析

由于影响环境要素变化的因素十分复杂,而用于综合分析的监测数据资料有限,所以需要结合环境要素的各项条件和污染源参数,理论结合实际分析其合理性。应考虑到环境要素之间的相互影响,监测项目之间的相关和对比关系,全面分析其合理性,这样才能提供准确、可靠、合理的监测数据。如何合理的分析数据,可以从以下几个方面判断:

2.2.1 通过项目之间的相关性来分析

监测项目多种多样,有机的、无机的都有,但是物质本身具有相互关系,两个或两个以上的项目监测数据往往存在一种固定关系,这就为我们分析单个已实行质量控制措施的监测数据正确与否提供了依据,对一些例行监测数据,可做出直观的判定。例如,氟含量与硬度之间的关系。F与Ca、Mg形成沉淀物容积度较小,因此,在中性、弱碱性水溶液中,如氟含量在(mg/L)级,则其氟含量与Ca、Mg含量呈明显负相关,即与硬度值呈负相关,所以高氟区内的水质监测结果中硬度监测值一般较低。如果氟含量较高,同样硬度监测值也很高,数据就要重新分析。再如CO、BOD5和高锰酸盐指数之间的关系。根据COD、BOD5和高锰酸盐指数的概念,COD是指用强氧化剂,在酸性条件下,将有机物氧化成CO2 与H2O所消耗的氧量平;BOD5是指在水温为20℃的条件下,微生物氧化有机物所消耗的氧量;高锰酸盐指数是在一定条件下,用高锰酸钾氧化水样中的某些有机物及无机物还原性物质,由消耗的高锰酸钾量计算相当的氧量;结合其实际的测定过程,对于同一份水样三者的监测结果,应存在以下规律:COD>BOD5,COD>CODMn。三氮与溶解氧也存在一定的关系。环境中氮的存在形式根据环境条件的变化而发生变化,尤其受水体中溶解氧的质量浓度影响,一般溶解氧高的水体硝酸盐氮的质量浓度高于氨氮质量浓度,反之氨氮质量浓度高于硝酸盐氮质量浓度,亚硝酸盐氮质量浓度与之无明显关系。二氧化硫与氮氧化物之间的关系:对于以煤为主要燃料的煤烟型污染区域,其大气环境中二氧化硫体积质量大于氮氧化物,一般为氮氧化物的2~6倍。在以汽油、柴油为燃料的区域内,如马路边,交通繁忙而居民少的区域,氮氧化物体积质量则大于二氧化硫。综上所述,物质之间存在的相互关联性对综合分析监测数据的合理性起着至关重要的作用,它直观的体现出数据在分析过程是否存在分析误差,可以在第一时间分析出数据是否合理,为进一步综合分析数据提供了准确依据。

2.2.2 通过掌握的资料对监测值进行判定

对现有的数据进行综合分析,首先要了解采样地点的本底值范围,特别是例行监测或者是年度监测计划。这种工作一般情况下都是连续性的,一年或是几年,数据可比性比较好,对同一点位的数据,如个别项目变化较大,可以先将该值列为可疑数值,然后进行合理性分析。进行合理性分析,首先要了解是否有新的污染源介入,其次是采样全过程有无异常,包括水质的颜色,气味、流量的大小等。与以往数据进行比对,采样是否规范,采样的容器是否达到可用标准等。再次是实验室分析,如查找显示剂保存时间是否过期,标准曲线是否及时绘制,分光光度计是否调零等等。对于气体来说,还要考虑采样时的风向,采样仪器是否校准等。对于可疑值,在分析过程中已经知道数据是可疑的应将可疑值舍去;对复查结果时已经找出出现可疑值原因的,也应将可疑值舍去;对找不出可疑值出现原因的,不应随意舍去或保留,要对留样重新进行实验室分析或根据数理统计原则来处理。

2.2.3 通过监测项目的性质对监测值判定

在同一水样中有许多项目根据其性质可以判定相关的监测值是否正确。如总氮,是指可溶性及悬浮颗粒中的含氮量,如果同一水样监测结果出现总氮与氨氮、亚硝酸盐氮、硝酸盐氮数据倒挂,就表明监测结果是不正确的,需要重新分析找出原因;同样,还有总磷与可溶性磷以及无机磷之间数据的倒挂;大气中,氮氧化物与一氧化氮、二氧化氮,总悬浮颗粒物与可吸入颗粒物之间数据的倒挂等,都是不合理现象。同样,在噪声监测中,理论上监测数据L10 一定大于L50、L90、Leq,在实际监测中如果出现Leq 大于L10,如果不是监测数据或仪器出现问题,就是由于瞬时之间噪音值的突然增大,应当修正数据使用。以上只是列出部分项目之间的关系,还有许多项目关系需要我们在日常生活中不断总结和发现,运用到日常的环境监测综合分析中,更好地服务于环境管理。

2.2.4 通过了解污染源对监测值进行判定

监测数据是多种多样的,不仅仅包括环境空气、地表水、地下水等等,也包括点源,如我们常说的工业污染源。工业污染源多种多样,不同的行业有不同的污染物产生,多数行业都有自己的特殊污染物产生,化学需氧量和氨氮只是多数工业污染源的共性污染物。因此,要在日常工作中对辖区内的污染源或者是重点污染源有所了解,根据行业的不同,选择有针对性的监测项目来监督污染企业。如国家最新颁布执行的制药行业六项标准,就是根据制药行业不同工业生产工艺和污染治理技术的特点,分别制定了《发酵类制药工业水污染物排放标准》、《提取类制药工业水污染物排放标准》、《化学合成类制药工业水污染物排放标准》、《中药类制药工业水污染物排放标准》、《生物工程类制药工业水污染物排放标准》、《混装制剂类制药工业水污染物排放标准》。国家对这些行业制定了最多25项污染物监测分析排放标准,最少11项污染物监测分析排放标准,其中有共性的污染物,也有特殊的污染物,根据特殊的污染物是否存在,就可以判定是哪类制药行业。又如对化工行业来说,有机物含量种类较多,重金属比较少;对于重金属行业来说,有机物含量较少;造纸行业主要是有机污染等。如果在一个生产有机化工的企业,废水监测出高质量浓度的重金属,则监测数据应重新考虑,需按照综合分析方法分析其原因。

2.3 效益分析

数据分析的方法篇(7)

分类号B841.2

DOI:10.16842/ki.issn2095-5588.2016.08.0021引言

“社会网络分析” (Social Network Analysis, SNA)是在人类学、社会学、心理学等众多领域中发展起来的研究个体之间关系结构的分析方法,是对社会关系进行量化分析的一门艺术和技术。SNA主要用于描述和测量个体之间的关系以及这些关系中所包含的资源、信息等,并根据这些关系建立模型,进而研究关系与行为之间的相互影响(刘军, 2004)。SNA从“关系”角度来揭示社会情境与嵌套于其中的个体的心理和行为的互动影响,即个体可以能动地构造他们的关系网络(选择效应,selection effect),同时这些关系又反过来影响个体的心理与行为(影响效应,influence effect)。因此,个体既形塑社会网络,也被社会网络形塑(刘军, 2006; 马绍奇, 2012; 马绍奇, 焦璨, 张敏强, 2011 )。在SNA中,反映个体之间关系的数据称为关系数据(relational data),通常的数据类型是0、1二分变量数据,即1表示两个行动者之间存在关系,0表示不存在关系(马绍奇, 2012)。

SNA从嵌入社会情境的个体之间的关系出发,分析群体结构及其与心理行为的相互作用,更能反映人际交往的社会性特点。如,运用SNA方法系统研究中学生班级的学习关系、友谊关系、咨询关系、信息交流关系等,运用SNA方法研究中学生的支持网络对中学生学业和心理健康等方面的影响。这不仅有利于从社会关系的视角理解学生人际关系的形成、特征和影响因素,还能及时掌握学生的心理动态,维护学生的心理健康(唐文清等, 2014)。但是,由于SNA的应用涉及到更多的人事物,数据的缺失是必然现象。研究者在SNA中常常会遇到数据应答率在65%至90%的情况(Albrecht, 1984; Dean & Brass, 1985; Moch, 1980; Monge, Edwards, & Kirste, 1983; Roberts & O′Reilly, 1978, 1979)。此外,由于数据结构的依赖性,如果网络中的行动者或者关系存在缺失,就难以全面地描述缺失行动者及其邻近行动者的网络环境(Robins, Pattison, & Woolcock, 2004)。已有研究发现,缺失数据不仅对网络结构描述产生消极影响,还会低估关系强弱和聚类系数,并使得中心性和度数的测量出现不稳定的情况(Burt, 1987; Borgatti & Molina, 2003; Costenbader & Valente, 2003; Kossinet, 2006; Huisman, 2009)。这说明,网络结构描述和网络数据分析的结果会因为缺失数据而产生偏差。

心理技术与应用4卷

8期黄菲菲张敏强: 社会网络分析中缺失数据的处理方法

要使SNA方法得到更好的应用及认可,既要介绍理论及应用方法,同时还要解决方法使用中可能出现的各种问题。例如,在数据收集和研究结论的推广方面,如何在实际的应用分析中,完善相关的统计模型和参数估计方法的发展,如何提高数据收集的信效度,如何处理缺失值等问题(马绍奇, 焦璨, 张敏强, 2011; 焦璨, 吴换杰, 黄h娜, 黄菲菲, 张敏强, 2014)。由于社会网络数据的相互依赖性,对缺失数据的处理不能采用常规的缺失处理方法。本文就SNA中缺失数据的原因及缺失机制,比较分析了常用的四种缺失数据处理方法在实际应用中的优缺点,并就SNA中如何处理缺失数据提出建议。

2缺失数据的原因

21边界规范问题

边界规范问题指的是在网络研究中指定行动者或者关系之间包含的规则(Laumann, Marsden, & Prensky, 1983)。例如,学者在研究青少年的冒险行为过程中,想了解他们在学校里的人际关系情况。图1中的A、B、C、D是四位青少年在学校里的人际关系网络,E、F、G三位青少年虽然和A、B、C、D四位青少年的交往密切,但是学校外的人际关系与研究目的无关,因此,E、F、G三者和研究中的青少年的人际关系就容易被忽视(Valente, Fujimoto, Unger, Soto, & Meeker, 2013)。总体而言,边界规范是由研究者自行决定的。在实际包含网络的例子中,组织成员或者由位置界定的正式定义大部分取决于一个正式组织团队中成员占据的排列位置,例如一个学校最受欢迎的前10名老师或者一个班级成绩最好的前五名同学(Kossinets, 2006)。

社会网络是由行动者及行动者之间的关系组成的,因此研究者在规范网络边界时,除了需要考虑通过一组行动者来界定网络边界外,还要决定哪些关系应该纳入研究范围里。对于如何有效地规范网络边界,学者们提出了一个准则,即根据可测量行动者的交互作用确定。因此,研究中的网络边界被定义为该边界记录了在特定情境中行动者间的交互作用(Laumann, Marsden, & Prensky, 1983)。但是,无论是情景还是交互作用的设置,研究者首先需要根据研究目的给出操作性定义,然后再确定在这个情境中包含哪些存在交互作用的行动者。随着电子科技时代的发展与进步,这个准则不再仅限于小网络,因为大规模的社会网络交互作用数据可以通过邮件传递或者虚拟社区的记录得到(Newman, 2002; Ebel, Mielsch, & Bornholdt, 2002; Guimera, Danon, DiazGuilera, Giralt, & Arenas, 2003; Holme, Edling, & Lijeros, 2004)。

22固定选择的研究设计

固定选择的研究设计指的是网络中行动者和关系的缺失依赖于研究设计中提名选择的限定(Holland & Leinhard, 1973),即网络数据的偏差是由于研究设计造成的。假设图2中的行动者A属于Z团体,在这个团体中,他和其他5个行动者有关系,现研究者要求行动者A提名y个和他关系最好的行动者。如果y≤5,则行动者A和其他5个行动者之间的所有关系都包含在数据集中;如果y>5,则行动者会失去5-y个关系。例如,学者想研究班级的学业咨询网络对学生学业拖延的影响,要求学生提名2个在学习上遇到困难或疑问时会请教的同学。如果学生平时向同学请教问题的人数普遍都是3个,那么学者得到的学业咨询网络数据是有偏差的。因为在该网络中,大部分行动者(学生)都失去了1个关系。

在固定选择的研究设计中,会出现互惠提名(有关系的双方相互提名),非互惠提名(有关系的双方只有一方提名)和无提名(有关系的双方均不提名)三种情况。从本质上而言,非互惠提名和其他两种提名的情况不一样(例如:好朋友和普通朋友的区别),因此,研究者需要考虑是否将其纳入到研究范围内。固定选择的研究设计还容易使数据呈现非随机缺失的模式,如受欢迎的个体更有可能被其他行动者提名(Feld, 1991)。但是,在不同结构的网络中,这种影响会不一致(Newman, 2002; Vázquez & Moreno, 2003)。例如,在非相称混合性(即受欢迎的行动者倾向于和不受欢迎的行动者相联系)的网络中,互惠提名将会导致更多关系缺失的情况出现。

23网络调查中的无应答

网络调查中的无应答包括应答者完全缺失和特定项目的数据缺失(Stork & Richands, 1992; Rumsey, 1993)。应答者完全缺失指的是行动者没有参与到调查研究中,因此行动者的发出关系对于分析而言是无效的(如图3所示,N表示缺失数据)。特殊项目的数据缺失指的是行动者参与了调查研究,但是在特定项目上的数据缺失,因此只有行动者的部分关系对于分析而言是无效的(如图4所示,N表示缺失数据)。例如,在一个关于学生情感咨询网络对学业成绩影响的调查中,要求学生提名3个班上的好朋友。图3中的A和D两位学生因事由请假没有参与此次研究,但图3应答者完全缺失是其余的学生在提名中提及到了A和D,所以A和D的无应答属于应答者完全缺失。如果A和D参与了调查研究(如图4),但是在提名中他们忽略了被提及的学生,即B提名了A,A没有提名B,则A和D的无应答属于特殊项目的数据缺失。对于1-模网络而言,即由一个行动者集合内部各个行动者之间的关系构成的网络(刘军, 2009),无应答对网络结构及统计指标的影响不大,但是对于存在多元交互作用情景的网络(例如,二元网络)而言,无应答可能会造成特定的影响(Robins, Pattison, & Woolcock, 2004)。例如,在一个隶属网络的调查研究中,假设研究者没有其他途径可以了解团队的任何信息,只能要求行动者报告他们隶属于哪个团队。如果任何一个行动者出现无应答的情况,那么可能会出现这个无应答行动者所隶属的团队缺失的情况。Huisman(2009)通过模拟研究发现,忽视网络调查中的无应答数据对社会网络的描述分析会造成消极的影响。进一步比较分析行动者无应答和特殊项目无应答的结果发现,特殊项目的无应答可能会造成更大的统计偏差。

网络调查中的无应答易导致行动者或者关系的缺失,但是网络环境中除无应答行动者以外的不完整观察行动者的部分信息仍然是有用的,如可利用这个信息来估计缺失状态的效果和分析不完整网络(Costenbader & Valente, 2003; Robins, Pattison, & Woolcock, 2004; Gile & Handcock, 2006; Handcock & Gile, 2007)。此外,不完整观察行动者的部分信息还可用来估计行动者和网络的结构性能,并能给缺失数据机制提供参考。

和前两种缺失数据原因相比,无应答是社会网络调查中最经常出现的缺失情况。因此,有不少学者开始关注社会网络调查中无应答的缺失问题(Daniel, 1975; Stork & Richards, 1992; Butts, 2003; Kossinets, 2006; Huisman & Steglich, 2008; nidaricˇ, Ferligoj, & Doreian, 2012)。

3缺失机制

不同的缺失数据来源,还涉及一个重要的问题,数据是否系统缺失。如果数据是系统缺失,那么缺失概率是否和观察变量(性质或属性)有关。已有研究表明,在社会网络中处理不同来源的缺失数据时,应考虑缺失机制以提高处理方法的有效性(Huisman, 2009; nidaricˇ, Ferligoj, & Doreian, 2012)。

缺失机制指的是数据的缺失概率和研究变量之间的关系(Schafer & Graham, 2002)。Rubin在1976年根据缺失引起的偏差程度定义了三种类型的缺失数据:完全随机缺失(Missing Complete At Random, MCAR),随机缺失(Missing At Random, MAR)和非随机缺失(Missing Not At Random, MNAR)。假设所有变量观测值Y中,完整的变量记为Yobs,缺失的变量记为Ymis。如果缺失概率和Yobs及Ymis相互独立无关,此类缺失称为MCAR。如果缺失概率和Yobs相关,和Ymis独立无关,则为MAR。MNAR是指缺失概率依赖于Yobs和Ymis。因为Ymis的未知性,研究者常常难以判断缺失数据属于哪种类型的缺失机制。叶素静,唐文清,张敏强和曹魏聪(2014)在对追踪研究中缺失数据处理方法及应用现状的分析中综述了三种类型缺失机制的粗略判断方法。

对于社会网络数据而言,完全随机缺失是指缺失概率和缺失关系的数值及观察数据(例如,行动者的属性)无关。在这种情况下,观察数据是原始观察值的一个随机样本,因此不存在系统偏差。随机缺失是指缺失概率和观察数据有关,但是和缺失关系的数值无关。尽管在这种情况下缺失数据会呈现出系统模式,但是这些模式是可控的,因为它们和样本中的观察数据有关。非随机缺失是指缺失概率不仅和观察数据有关,还和缺失关系的数值有关,这种类型的缺失数据会对统计分析的偏差程度造成很大的影响。因为在非随机缺失的情况下,应答者和无应答者之间的差异是由系统误差造成的,关于网络结构性质的统计指标将会受到影响(Costenbader & Valente, 2003)。

4缺失数据处理方法

41完整个案法

完整个案法,即删除部分已有的数据以保证所研究对象信息的完整性。完整个案法相当于行动者的列删除法,它不仅移除不完整观察行动者的列数据且一并移除该行动者的行数据,而移除行意味着在分析中移除不完整观察行动者和完整观察行动者之间的所有关系(Huisman & Steglich, 2008)。因此,使用完整个案法后用于分析的数据集是完整的,即每一个行动者既有接收的关系也有发出的关系。例如,图5(a)是一个班级情感关系网络的例子,其中有A、D、F三个无应答行动者,每一个无应答者都没有指向外部的情感关系,在观察网络的矩阵表达式中就会有几行缺失关系数据N,对数据进行完整个案法处理后,结果就会出现如图5(b)呈现的小网络。因此,完整个案法是在可完全观察行动者的小网络基础上进行分析处理的。nidaricˇ, Ferligoj和Doreian(2012)用完整个案法等多种缺失数据处理方法对社会网络区组模型中的无应答情况进行分析,结果发现,在小规模网络中,完整个案法对区组模型结构的稳定性影响最小。Robins, Pattison和Woolcock(2004)的研究结果则表明,完整个案法重新定义了网络边界:移除无应答行动者之后相当于生成了一个更小的网络。

完整个案法是一种加权方法,它丢弃了不完整个案的数据,对完整个案和缺失个案赋予了同样的权重。在分析的统计软件包里,完整个案法通常是默认处理缺失数据的方法。它最大的一个优点就是简便,缺点则是因为忽视不完整个案而丢失了大部分信息,很可能出现模型和数据无法拟合的情况。因此,只能在缺失概率较小的网络中使用完整个案法。Schafer和Graham(2002)认为,当无应答者是完全随机缺失时,完整个案法可能是有效的。然而,如果这个前提假设不成立,统计分析结果就会有偏差,因为剩余的行动者样本可能是不具有代表性的。也有学者认为,完全个案法从系统水平而言,严重损害了所有分析(Stork & Richards, 1992),且可能会暗中破坏社会网络模型的假设(Snijders, Bunt, & Steglich, 2010)。

42有效个案法

有效个案法是指忽略缺失的数据,只使用观测到的关系变量。有效个案法是直接对不完整数据进行分析,即根据SNA需要计算的统计值选择行动者的有效数据。例如,在一元统计分析中,在计算网络的平均数和标准差时,可以选择所有变量都完整观察的个体行动者的有效数据,而在计算网络的协方差或者相关系数时,则需要选择所有变量都完整观察的配对行动者的有效数据。

Littile和Rubin(1989)在探讨社会科学领域关于缺失数据处理的分析方法时,比较了完整个案法和有效个案法对网络的均值、方差、协方差及相关系数四个统计量的参数估计影响及二者的差异。研究结果表明,和完整个案法相比,使用有效个案法后,网络的均值参数估计值是无偏的。但是,其余三个统计量的参数估计值的偏差较大。随后,Little和Su(1989)进一步对两种方法的差异进行了详细的讨论,也得出了相同的结果。

有效个案法简单易行,和完整个案法相比,它的参数估计值较为精准。但是有效个案法具有较低的统计功效,且和没有缺失数据的网络参数估计值相比,存在很大的偏差。因此,研究者较少使用有效个案法对社会网络中的缺失数据进行处理。

43重建法

重建法指的是通过互惠关系来推断缺失连接的存在与否。重建法和插补法不一样,重建法在分析的过程中没有增加新的关系,它只是通过观察到的应答者的入度关系(即行动者接收的关系)来重建网络中无应答者的出度关系(即行动者发出的关系)。从本质上而言,即用已经报告的一个关系进行测量,且重建法仅允许两个人之间的关系。重建之后的网络中应答者和无应答者之间的关系是对称的。使用重建法对SNA中的缺失数据进行处理时,必须满足两个原则: (1)相似性,即应答行动者与无应答行动者之间的作答模式应具有相似性。因为重建法是通过应答行动者所描述的关系去构建无应答行动者的关系,所以两个行动者之间的应答模式不能存在系统的偏差;(2)可靠性,即应答行动者所描述的和无应答行动者之间的关系要确认是有效、可靠的(Stork & Richards, 1992)。自重建法提出以来,不少学者将其作为社会网络缺失数据常用的处理方法。Gabbay和Zuckerman(1998)在有向网络中,通过应答行动者报告的和无应答行动者之间的关系重建了网络中行动者之间的关系。Huisman和Steglich(2008)则用重建法研究了网络面板数据中的无应答缺失数据情况,结果表明重建法在构建完整的网络数据时几乎不会出现不收敛的问题。

一般而言,针对不同类型的网络,重建法的程序如下所示:

(1)在无向网络中,通过观察到的应答者之间的关系以及部分应答者和无应答者之间的关系对网络进行重构(Stork & Richards, 1992)。

(2)在有向网络中,通过对立关系来推断缺失关系。例如,对于应答行动者i和无应答行动者j,重建法假设行动者i描述的和行动者j之间的所有关系和行动者j所描述的关系是完全一致的,即研究者可以通过应答行动者i来插补对立关系的观察值,即ximpij=xji(Huisman, 2009)。

重建法最大的优点就是允许研究者最大化地利用有效信息去构建社会网络。有研究表明,当社会网络中存在缺失数据时,仅有437%的关系能够被解释,而使用重建法后,则能够解释缺失数据网络中897%的关系数据(Neal, 2008)。但是,重建法无法构建两个无应答行动者之间的关系。如果两个无应答行动者之间存在重要关系,研究者就无法使用重建法去正确地定义网络的结构。因此,需要用其它的插补方法来重建整个网络。例如,对于无应答行动者之间的所有关系,随机插补一个和观察密度成比例的关系,使重建网络中缺失关系的比例等于网络的观察密度。

44基于指数随机图模型的多重插补法

指数随机图模型(Exponential Random Graph Model, ERGM)又称为p

瘙 模型,是用来描述x分布情况的概率质量函数,其表达式为:

其中,q是网络的实值函数,常以θTz(x)的形式出现,z是网络的向量值函数,其取值为网络统计值。这些统计值也被称为结构统计值,用来描述网络中的结构,如连接、三方关系等的数量。θ是一个维度为p×1的向量参数(θ∈),ψ(θ)是一个常数,用于将函数值标准化(Koskinen, Robins, Wang, & Pattison, 2013)。

ERGM的原理是在综合了实测网络中的多种局部结构特征情况下来计算这些网络出现的可能性。具体过程为,首先使用马尔科夫链蒙特卡洛最大似然估计法(Markov Chain Mont Carlo Maximum Likelihood Estimation, MCMCMLE)模拟出一个随机网络,然后将这个随机网络的参数与实测网络的参数进行对比,最后通过对比指标判断是否采纳结果。Robins(2009)用ERGM方法对有向社会网络数据进行分析时指出,如果模拟的随机网络不能很好地代表实测网络,那么参数将被调整并运用到下一次模拟中,且这样的循环可能至少要进行8000次,直到模拟网络能够很好地代表实测网络为止。

基于ERGM的多重插补法,指的是通过ERGM产生的多个插补值的向量代替每一个缺失数据的过程。例如,当网络数据中存在无应答的缺失数据时,基于ERGM的多重插补法则会将应答行动者和无应答行动者看作是两种不同类型的节点,然后区分应答者之间的关系以及应答者和无应答者之间的关系。最后,根据研究者的调查目的,对缺失数据进行相应的处理。如果无应答者是随机缺失,则在网络特定结构间同质性的前提下利用ERGM对缺失数据进行多重插补。如果无应答者是非随机缺失,且研究重点关注应答者的网络结构,则可以将包含无应答者相关关系的信息看作是外源变量,并使用标准的马尔科夫图模型进行分析(Koskinen, Robins, Wang, & Pattison, 2013)。

基于ERGM的多重插补法最大的优点是,不仅能有效地辨别应答者和无应答者之间的差异是由系统误差还是随机误差造成的,还可以在缺失数据是随机缺失的情况下,最大化地利用观察到的数据信息。基于ERGM的多重插补法从本质上而言是通过网络的局部结构去推断整体结构。因此,即使数据有较大的缺失概率,只要网络有足够数量的局部网络子结构,就能够通过观察到的数据进行有理的推断。Koskinen,Robins和Pattison(2010)用基于ERGM的多重插补法对一个合作关系社会网络中的缺失数据进行处理,实证及模拟研究结果表明,这种基于模型的多重插补法能够正确地解释网络中80%的关系数据及允许有三分之一数据缺失的情况。但是,这种方法最大的缺点是运算过程较复杂,耗时较长。

5问题与展望

缺失数据对社会网络数据分析造成的消极影响主要体现在以下两个方面:(1)减少的样本量大小、行动者及关系的信息易导致模型和数据出现不拟合的情况;(2)缺失数据容易造成参数估计的偏差。例如,Kossinet(2006)和Huisman(2009)的研究发现,缺失数据会使社会网络数据分析的结果产生偏差,因为缺失数据不仅对网络结构描述产生消极影响,还会低估行动者之间的关系强弱和网络的聚类系数,容易造成中心性和度数测量不稳定的情况。因此,缺失数据是SNA广泛应用面临的严峻问题。

从表1的四种缺失处理方法的适用条件比较中可看到,缺失数据处理方法的选择和缺失概率、缺失机制存在较大的关联。进一步比较四种方法的优缺点可以发现,当缺失数据是完全随机缺失时,四种方法的参数估计是无偏的。当缺失数据是非随机缺失时,完整个案法和有效个案法虽简单易行,但容易导致信息的大量流失及具有较低的统计功效和较大的参数估计偏差。其中,和完整个案法相比,有效个案法在参数分布估计方面的偏差要略小,因为有效个案法分析的是全体有效样本的数据。但在其它参数估计方面,两种方法都出现了较大的偏差(Little & Rubin, 1989)。重建法和基于ERGM的多重插补法在非随机缺失的情况下,可以忽略缺失机制的影响而直接在缺失概率较小(20~30%)的网络中应用,两种方法在参数估计方面没有表现出太大的偏差,但是如果网络中的缺失概率较大时,两种方法会受到缺失机制的影响。

当数据是随机缺失时,重建法具有较好的统计功效,对社会网络进行描述性分析时,如计算网络的平均度数、互惠性和传递性等网络统计特征值,即使缺失概率达到50%,重建法仍然能够表现良好(Huisman, 2009)。但重建法只能用于特定网络的数据缺失处理,且在某些情况下会高估连接的数量。虽然,在社会网络中的数据缺失概率不大时,重建法和基于ERGM的多重插补法均没有太大的差异,但是后者能够利用插补值间的差异来衡量估计结果中不确定性的大量信息。和重建法一样,当社会网络中的缺失数据样本量在中等范围以下时,基于ERGM的多重插补法具有较小的参数估计偏差且不会低估标准误,但这种方法唯一的缺点就是运算过程复杂,需要做大量的工作来构建插补集以便于进行结果分析,且当缺失数据样本量大时,模拟网络和实测网络可能会出现不拟合的情况。

就应用现状而言,国内目前还没有关于SNA中缺失数据的处理方法这方面的研究,而国外的应用从2003年至今稳定增长(Butts, 2003; Robins et al., 2004; Kossinets, 2006; Gile & Handcock, 2006; Handcock & Gile, 2007; Koskinen, 2007; Smith & Moody, 2013)。

根据缺失数据处理方法的优缺点比较和应用现状的分析,对其在心理学研究中的应用提出以下建议:

(1)在数据收集期间,应报告缺失数据的原因及缺失概率(同时报告网络样本的大小)的情况,以便于为后期缺失数据处理方法的选择提供参考;

(2)在数据分析期间,缺失数据处理方法的选择应该建立在缺失机制这一前提假设基础上。当数据是完全随机缺失时,如果网络数据样本大,建议选择较为简单易行的完整个案法和有效个案法。反之,则建议选择重建法或者基于ERGM的多重插补法;当数据是非随机缺失时,如果数据的缺失概率较小,建议选择重建法或者基于ERGM的多重插补法,如果数据的缺失概率较为严重,则无论选择任何方法,参数估计都会出现较大的偏差;当数据是随机缺失时,建议选择基于ERGM的多重插补法。

参考文献

蔡亚华, 贾良定, 尤树洋, 张t, 陈艳露(2013). 差异化变革型领导对知识分享与团队创造力的影响: 社会网络机制的解释. 心理学报, 45(5): 585-598.

侯珂, 邹泓, 刘艳, 金灿灿, 蒋索(2014). 同伴团体对青少年问题行为的影响: 一项基于社会网络分析的研究. 心理发展与教育,30 (3): 259-267.

焦璨, 吴换杰, 黄h娜, 黄菲菲, 张敏强(2014). 网络自相关模型在心理学研究中的作用――以同群效应、学习动机对青少年学业表现的影响. 心理学报, 46(12), 1933-1945.

刘军(2004). 社会网络分析导论. 北京: 社会科学文献出版社.

刘军(2006).法村社会支持网――一个整体研究视角. 北京: 社会科学文献出版社.

刘军(2009). 整体网分析讲义――UCINET软件使用指南. 上海: 格致出版社.

李永强, 黄姚(2014). 个性特征与社会网络特征的关系及其本土化发展. 心理科学进展, 22(11): 1801-1813.

马绍奇, 焦璨, 张敏强(2011). 社会网络分析在心理研究中的应用. 心理科学进展, 19(5): 755-764.

马绍奇(2012). 班级社会网络分析及其与人格特质、心理健康的关系. 广州: 华南师范大学教育科学学院.

唐文清, 钟阳, 张敏强, 叶素静, 刘晶, 黄兆峰(2014). 社会网络分析法在中学生班级友谊关系研究中的应用. 心理研究, 7(5): 42-50.

徐伟, 陈光辉, 曾玉, 张文新(2011). 关系研究的新取向: 社会网络分析. 心理科学, 34(2): 499-504.

叶素静, 唐文清, 张敏强(2014). 追踪研究中缺失数据处理方法及应用现状分析.心理科学进展, 22(12): 1985-1994.

张辉华(2014). 个体情绪智力与任务绩效: 社会网路的视角. 心理学报, 46(11): 1691-1703.

Albrecht, T. L. (1984). Managerial communication and work perception. In R. Bostrom(Ed.), Communication yearbook8(pp. 538-552). Beverly Hills: Sage.

Borgatti, S.P., & Molina, J.L.(2003). Ethical and strategic issues in organizational social network analysis. Journal of Applied Behavioral Science, 39(3), 337-349.

Burt, R.S.(1987). A note on missing network data in the general social survey. Social Networks, 9(1), 63-73.

Butts, C.(2003). Network inference, error, and informant(in) accuracy: a Bayesian approach. Social Networks, 25(2), 103-140.

Costenbader, E., & Valente, T.W.(2003). The stability of centrality measures when networks are sampled. Social Networks, 25(4), 283-307.

Daniel, W.W. (1975). Nonresponse in sociological surveys: a review of some methods for handling the Problem. Sociological Methods & Research, 3(3), 291-307

Dean, J.J.W., & Brass, D. J.(1985). Social interaction and the perception of job characteristics in an organization. Human Relations, 38(6), 571-582.

Ebel, H., Mielsch, L.I., & Bornholdt, S.(2002). Scalefree topology of email networks.Physical Review E 66, 035103, 1-4.

Feld, S.L.(1991). Why your friends have more friends than you do. American Journal of Sociology, 96(6), 1464-1477.

Gabby, S.S., & Zuckerman, E.W. (1998). Social capital and opportunity in corporate R&D: The contingent effect of contact density on mobility expectations. Social Science Research, 27(2), 189-197.

Gile, K., & Handcock, M.S.(2006). Modelbased assessment of the impact of missing data on inference for networks. Unpublished manuscript, University of Washington, Seattle.

Guimera, R., Danon, L., DiazGuilera, A., Giralt, F., & Arenas, A.(2003). Selfsimilar community structure in organisations. Physical Review E, 68: 065103.

Handcock, M.S., & Gile, K.(2007). Modeling social networks with sampled or missing data. Unpublished manuscript, University of Washington, Seattle.

Holland, P.W., & Leinhard, S.(1973). Structural implications of measurement error in sociometry. Journal of Mathematical Sociology, 3(1), 85-111.

Holme, P., Edling, C.R., & Liljeros, F.(2004). Structure and timeevolution of an Internet dating community. Social Networks, 26(2), 155-174.

Huisman, M., & Steglich, C.(2008). Treatment of nonresponse in longitudinal network studies. Social Networks, 30(4), 297-308.

Huisman, M.(2009). Imputation of Missing Network Data Some Simple Procedures Journal of Social Structure, 10(1), 1-29.

Koskinen, J., Snijders, T.A.B.(2007). Bayesian inference for dynamic network data.Journal of Statistical Planning and Inference, 137(12), 3930-3938.

Koskinen, J. H., Robins, G. L., & Pattison, P.E.(2010). Analysing exponential random graph(pstar) models with missing data using Bayesian data augmentation. Statistical Methodology, 7(3), 366-384.

Koskinen, J. H., Robins, G. L., Wang, P., & Pattison, P.E.(2013). Bayesian analysis for partially observed network data, missing ties, attributes and actors. Social Networks, 35(4), 514-527.

Kossinets, G.(2006). Effects of missing data in social networks. Social Networks, 28(3), 247-268.

Laumann, E.O., Marsden, P.V., & Prensky, D.(1983). The boundary specification problem in network analysis. In Burt, R.S., Minor, M.J(Eds.) (pp. 18-34). London: Applied Network Analysis Sage Publications.

Little, R.J.A., & Rubin, D.B.(1989). The analysis of social science data with missing values. Sociological Methods & Research, 18(2-3), 292-326.

Little, R.J.A., & Su, H. L.(1989). Item nonresponse in panel surveys. In D. Kasprzyk, G. Duncan, and M. P. Singh(Eds.)(pp.400-425).New York: John Wiley & Sons.

Moch, M. K. (1980). Job involvement, internal motivation, and employees integration into networks of work relationships. Organizational Behavior and Human Performance, 25(1), 15-31.

Monge, P. R., Edwards, J. A., & Kirste, K. K.(1983). Determinants of communication network involvement: Connectedness and integration.Group & Organization Management, 8(1), 83-111.

Newman, M.E.J.(2002). Assortative mixing in networks. Physical Review Letters, 89(20), 1-4.

Neal, J. W.(2008). “Kracking” the missing data problem: applying krackhardts cognitive social structures to schoolbased social networks. Sociology of Education, 81(2), 140-162.

Robins, G., Pattison, P., & Woolcock, J.(2004). Missing data in networks: exponential random graph(p*) models for networks with nonrespondents. Social Networks, 26(3), 257-283.

Robins, G.L., Pattison, P.E., & Wang, P.(2009). Closure, connectivity and degrees: new specifications for exponential random graph(p*) models for directed social networks. Social Networks, 31(2), 105-117.

Roberts, K. H., & OReilly, C. A.(1978). Organizations as communication structures: an empirical approach. Human Communication Research, 4(4), 283-293.

Roberts, K. H., & OReilly, C. A.(1979). Some correlations of communication roles in organizations. Academy of Management Journal, 22(1), 42-57.

Rubin, D.B.(1976). Inference and missing data. Biometrika, 63(3), 581-592.

Rumsey, D.J.(1993). Nonresponse models for social network stochastic processes. Unpublished doctorial dissertation. The Ohio State University.

Schafer, J.L., & Graham, J.W.(2002). Missing data: our view of the state of the art.Psychological Methods, 7(2), 147-177.

Snijders, T.A.B., Bunt, G.G., & Steglich, C.E.G.(2010). Introduction to stochastic actorbased models for network dynamics. Social Networks, 32(1), 44-60.

Snith, J.A., & Moddy, J. (2013). Structural effects of network sampling coverageⅠ: nodes missing at random. Social Networks, 35(4), 652-668.

Stork, D., & Richards, W. D.(1992). Nonrespondents in communication. Network Studies: Problems and Possibilities. Group & Organization Management, 17(2), 193-209.

数据分析的方法篇(8)

中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)12-20ppp-0c

Cluster Anlaysis Methods of Data Mining

HUANG Li-wen

(School of Science, Quanzhou Normal University, Quanzhou 362000, China)

Abstract: Cluster analysis is one of the important methods of multivariate statistical analysis, and this method has a wide range of applications in many fields. In this paper, the classification of the cluster is introduced briefly, and then gives some common methods of cluster analysis and the advantages and disadvantages of these methods,and these clustering method were compared and anslyzed so that people can chose suitable clustering methods according to the actual issues.

Key words: Cluster Analysis; Data Mining?

1 引言

聚类分析是数据挖掘中的重要方法之一,它把一个没有类别标记的样本集按某种准则划分成若干个子类,使相似的样品尽可能归为一类,而不相似的样品尽量划分到不同的类中。目前,该方法已经被广泛地应用于生物、气候学、经济学和遥感等许多领域,其目的在于区别不同事物并认识事物间的相似性。因此,聚类分析的研究具有重要的意义。

本文主要介绍常用的一些聚类方法,并从聚类的可伸缩性、类的形状识别、抗“噪声”能力、处理高维能力和算法效率五个方面对其进行比较分析,以便人们根据实际的问题选择合适的聚类方法。

2 聚类的分类

聚类分析给人们提供了丰富多彩的分类方法,这些方法大致可归纳为以下几种[1,2,3,4]:划分方法、层次方法、基于密度的聚类方法、基于网格的聚类方法和基于模型的聚类方法。

2.1 划分法(partitionging methods)

给定一个含有n个对象(或元组)的数据库,采用一个划分方法构建数据的k个划分,每个划分表示一个聚簇,且k≤n。在聚类的过程中,需预先给定划分的数目k,并初始化k个划分,然后采用迭代的方法进行改进划分,使得在同一类中的对象之间尽可能地相似,而不同类的中的对象之间尽可能地相异。这种聚类方法适用于中小数据集,对大规模的数据集进行聚类时需要作进一步的改进。

2.2 层次法(hietarchical methods)

层次法对给定数据对象集合按层次进行分解,分解的结果形成一颗以数据子集为节点的聚类树,它表明类与类之间的相互关系。根据层次分解是自低向上还是自顶向下,可分为凝聚聚类法和分解聚类法:凝聚聚类法的主要思想是将每个对象作为一个单独的一个类,然后相继地合并相近的对象和类,直到所有的类合并为一个,或者符合预先给定的终止条件;分裂聚类法的主要思想是将所有的对象置于一个簇中,在迭代的每一步中,一个簇被分裂为更小的簇,直到最终每个对象在单独的一个簇中,或者符合预先给定的终止条件。在层次聚类法中,当数据对象集很大,且划分的类别数较少时,其速度较快,但是,该方法常常有这样的缺点:一个步骤(合并或分裂)完成,它就不能被取消,也就是说,开始错分的对象,以后无法再改变,从而使错分的对象不断增加,影响聚类的精度,此外,其抗“噪声”的能力也较弱,但是若把层次聚类和其他的聚类技术集成,形成多阶段聚类,聚类的效果有很大的提高。

2.3 基于密度的方法(density-based methods)

该方法的主要思想是只要临近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类。也就是说,对于给定的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。这样的方法就可以用来滤处"噪声"孤立点数据,发现任意形状的簇。

2.4 基于网格的方法(grid-based methods)

这种方法是把对象空间量化为有限数目的单元,形成一个网格结构。所有的聚类操作都在这个网格结构上进行。用这种方法进行聚类处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。

2.5 基于模型的方法(model-based method)

基于模型的方法为每个簇假定一个模型,寻找数据对给定模型的最佳拟合。该方法经常基于这样的假设:数据是根据潜在的概率分布生成的。该方法主要有两类:统计学方法和神经网络方法。

3 常用的聚类算法

目前,已经提出的聚类算法很多,常用的聚类算法主要有以下几种:系统聚类法、动态聚类法、CLARANS、CURE、DBSCAN、STING和模糊聚类法(FCM)。

3.1 系统聚类法

系统聚类法[5]是将n个样品看成n类,即一类包含一个样品;然后将性质最接近的两类合并成一个新类,这样就得到n-1类,再从这n-1类中找出性质最接近的两类加以合并,成了n-2类;如此下去,最后所有的样品均成一类;将上述类的合并过程画成一张图(这图常称为聚类图),这样便可决定分多少类,每类各有什么样品。

系统聚类法的计算简单,而且其聚类结果给出一个谱系图,因此,可以根据该图选择所需要的聚类结果。但是,它也有不足之处,其主要表现在以下几个方面:1)当样品数量很多时,而且只需要划分为较少的类别时,这种聚类方法的重复计算量很大;2)当某一样品划归某一个类后,其属性不变,若分类方法的选择不当,对聚类的精度影响很大;3)对大数据量进行处理时,计算机内存开销很大,有时,计算机受此限制而无法进行聚类分析,而且其速度很慢;4)抗干扰的能力很弱。

3.2 动态聚类算法

动态聚类法[5]就是在开始时先建立一批初始中心,而让待分的各个样品依据某种判别准则向初始中心凝聚,然后再逐步修改调整中心,重新分类;并根据各类离散性统计量(如均方差)和两类间可分离性的统计量(如类间标准化距离、J-M距离等)再进行合并和分裂。此后在修改调整中心,这样不断继续下去,直到分类比较合适为止。

动态聚类法使用随机方式选择 作为初始聚类中心,按照算法的迭代执行,整个算法的结束条件是类的重心(或凝聚点)不再改变,它的计算复杂性是O(nkt),其中,n为样本数量,k为聚类数,t为迭代次数。与系统聚类法相比,动态聚类法明显的优势是运算量小,能用于处理庞大的样本数据,也为实时处理提供了一定的可能性,但其也存在一些缺点,主要表现在以下几个方面:(1)动态聚类法要求用户必须事先给出聚类的数目,选择初始划分的最佳方向、更新分区和停止准则,且其结果与数据输入顺序有关,不同的初始值可能会导致不同的结果;(2)对于噪声和孤立点敏感,很容易受例外情况的影响,适用于发现球状类,但不适合发现非凸面状的簇,不适合大小差别较大的簇;(3)一个对象只能属于一个类中,不能多维揭示其多重属性。

3.3 CLARANS算法

CLARANS[2,6,9]也叫随机搜索聚类算法,是一种分割聚类方法。该算法是基于CLARA算法的改进,与CLARA算法不同的是:CLARA算法在每个阶段都选取一个固定样本,而CLARANS在搜索的每一步都带一定的随机性选取一个样本,在替换了一个中心点后得到的聚类结果被称为当前聚类结果的邻居,搜索的邻居点数目被用户定义的一个参数加以限制。如果找到一个比它更好的邻居,则把中心点移到该邻居节点上,否则把该点作为局部最小量,然后再随机选择一个点来寻找另一个局部最小量。

该算法能够探测孤立点,并适用于大型数据库,但其计算复杂度复杂度较高,大约为O(n2);此外,该算法对数据输入的顺序敏感,适用于凸形或球形数据。

3.4 CURE算法

CURE[6,7,8]算法是一种使用代表点的聚类算法。该方法首先把每个数据点看成一簇,然后再以一个特定的收缩因子向中心“收缩”,即合并两个距离最近的代表点的簇,直至达到预先给定的聚类个数为止。它回避了用所有点或单个质心来表示一个簇的传统方法,将一个簇用多个代表点来表示,使CURE可以适应非球形的几何形状。另外,收缩因子降底了噪音对聚类的影响,从而使CURE对孤立点的处理更加健壮,而且能识别非球形和大小变化比较大的簇。

该算法采用随机抽样与分割相结合的方法来提高聚类效率,对于大型数据库,它也具有良好的伸缩性,运行速度很快,而且有较好的聚类效果,其计算复杂度为O(n)。

3.5 DBSCAN算法

DBSCAN算法[6,7,8,9]是一种基于高密度连接区域密度的聚类算法。该方法将密度足够高的区域划分为簇,并可以在带有“噪声”的空间数据库中发现任意形状的聚类。其主要的思想是通过检查数据库中每个点的ε-邻域来寻找聚类。如果第一个点p的ε-邻域包含多于MinPts个点,则创建一个以P作为核心对象的新簇,否则先把它暂时标为噪声点,跳到下一个点,并判断它是否为核心点。然后反复地寻找从这些核心点直接密度可达的对象,当没有新的点可以被添加到任何簇时,该过程结束。

该算法可以数据集中的所有簇和噪声,但其不对数据集进行预处理而直接进行聚类操作,当数据集很大时,占用内存很大,而且I/O消耗也很大,如果采用空间索引,其计算复杂度为O(nlogn),否则,其计算复杂度为O(n2)。

3.6 STING算法

STING算法[2,3,8]是一种基于风格的多分辨率聚类技术,它将空间区域划分为矩形单元。针对不同级别的分辨率,通常存在多个级别的矩形单元,这些单元形成了一个层次结构,高层的每个单元被划分为多个低一层的单元,高层单元的统计参数可以很容易地从低层单元计算得到,而统计信息的查询则采用自顶向下的基于网格的方法。这些参数包括:属性无关的参数count;属性相关的参数m(平均值)、s(标准偏差)、min(最小值)、max(最大值)以及该单元中属性值遵循的分布(distribution)类型。该算法预先计算和存储每个单元的统计信息,它不依赖于查询的汇总信息。

该算法主要优点是效率高,有利于并行处理和增量更新;它通过扫描数据库一次来计算单元的统计信息,因而其计算复杂度为O(n)。在层次结构建立后,其查询处理的计算复杂度为O(m),其中m为最低层网格单元的数目。其缺点是聚类质量取决于网格结构最低层的粒度,粒度的大小会明显影响处理代价,特别是当数据集的维数较高时,由于生成网格层次及每一层的单元数较多,算法的效率会降低。

3.7 模糊聚类算法(FCM)

传统的聚类分析是一种硬划分,它把每个待识别的对象严格地划分到某类中,具有“非此即彼”的性质;而在实际中,大多数对象并没有严格的属性,它们在性态和类属方面存在着中介性,具有“亦此亦彼”的性质;鉴于此,人们开始用模糊的方法来处理这类问题,从而产生了模糊聚类的方法,也就是说,模糊聚类法[5]是将模糊数学的思想观点用到聚类分析中产生的方法,其关键是隶属函数的确定。该方法多用于定性变量的分类。其主要算法如下:

(1)选择一个初始模糊分类方案,将n个样本分成k个模糊类,得到一个模糊隶属度矩阵U={uij,i=1,2,…,n;j=1,2,…,k},其中uij表示样本Xi对模糊集Cj的隶属度,uij∈[0,1];

(2)利用矩阵 计算模糊评判函数的值,模糊评判函数通常是一个与对应的分类相联系的加权平方误差和

是第k个模糊集的中心,重新分配样本到各模糊集以减少评判函数的值并重新计算U;

(3)重复(2),直到矩阵U不再有较大的变动。

模糊聚类解决了一些混合对象的归类问题,同时,当样本数较少的时候,应用该方法的优越性也比较明显,另外,其抗干扰的能力也较强;但是,它对一些隐含类的提取能力还有待于进一步的改进,除此之外,预定的分类数目一般也是人为决定的,同动态聚类一样,就可能出现人为预定的分类数与实际存在的类数不相符这种情况,从而影响分类的结果。

4 聚类的性能比较

基于上述的分析,现从可伸缩性、类的形状识别、抗噪声能力、处理高维能力和算法效率五个方面对常用聚类算法的性能进行了比较,结果如下表。通过这些比较,可以给聚类算法研究和应用的选择提供参考。

5 结束语

目前,已经提出的聚类算法很多,每种方法都有其优缺点和不同的适用领域,可以根据上述的分析,选择适合特定问题的聚类方法;但是,在实际应用中,由于数据的复杂性,往往用某种聚类算法进行聚类划分得到的效果不佳,可能要综合多种聚类方法才能得到较好的聚类效果。因此,在将来的研究中,需要做好对现有聚类算法的改进和融合,以便得到更好的聚类方法。

参考文献:

[1] 孙孝萍.基于聚类分析的数据挖掘算法研究[D].硕士学位论文,2002.4.

[2] 覃拥军,刘先锋.数据挖掘中的聚类研究[J].科技咨询导报,2007(16):28-30.

[3] 梁志荣.数据挖掘中聚类分析的技术方法[J]. 电脑开发与应用,2007,20(6):37-39.

[4] 谷淑化,吕维先,马于涛.关于数据挖掘中聚类分析算法的比较[J].现代计算机,2005(3):26-29.

[5] 黄利文.基于几何概率的聚类分析[D]. 硕士学位论文,2006(1).

[6] 张红云,刘向东,段晓东等.数据挖掘中聚类算法比较[J].计算机应用与软件,2003(2):5-6.

[7] 王劲波,翁伟,许华荣.数据挖掘中基于密度的聚类分析方法[J].统计与决策,2005(10):139-141.

[8] 刘泉凤,陆蓓. 数据挖掘中聚类算法的比较研究[J].浙江水利水电专科学校学报,2005,17(2):55-58.

[9] 丁学钧,杨克俭,李虹等.数据挖掘中聚类算法的比较研究[J].河北建筑工程学院学报,2004,22(3):125-127.

数据分析的方法篇(9)

一、数据挖掘及其作用

数据挖掘(Data Mining,DM),又称为数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。它融合数据库系统、人工智能、统计学、机器学习、信息科学等,是一个新兴的多学科交叉应用领域[1]。简单地说,数据挖掘就是把存放在数据库、数据仓库或其他信息库中的大量的数据中“挖掘”或“找到”有趣知识的过程。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括行业监管、商务管理、生产控制、市场分析、工程设计和科学探索等。

有一个“尿布与啤酒”的故事,可以用来说明数据挖掘的作用。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。沃尔玛在这些原始交易数据的基础上,利用数据挖掘技术方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,发现美国的太太们常叮嘱她们的丈夫下班后到超市为小孩买尿布,而丈夫们中有30%~40%的人在买尿布的同时也为自己买一些啤酒。于是沃尔玛干脆将尿布与啤酒摆在同一个货架上,从而更方便了顾客,促进了销售。按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术方法对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。那么,怎么样来挖掘数据呢?

二、常用的数据挖掘方法和应用举例

挖掘数据,简单来说就是要通过读活数据(传统方法)、知识运用(推理方法)、大海捞针(筛选方法)、专业软件(技术方法)等方法或手段,挖掘出有用数据。

(一)读活数据――传统方法

通过阅读政策、理论和报表数据,运用政策传导和理论根据,去挖掘数据背后的真实状况。在阅读的基础上,进一步计算比较基础数据的增加值、增长率和标准值等变化规律,及时发现各指标在运行过程中发生的突变情况。在阅读、比较的基础上进一步分析。

分析实例一,利率对银行的影响:2007年12月21日到2008年12月23日,央行连续4次下调基准利率,假设在银行存贷款总额不变的情况下,存、贷款余额和银行的利息收支变化情况如表一:

表一 利率对银行的影响

从银行的角度来看,当基准利率下调时,支付的存款利息和收到的贷款利息都会减少,而且在存贷比保持某个比例时,利差会增大,而不是通常人们认为的那样利差会减少。从消费者的角度来看,存款人少收的利息大于贷款人少付的利息,结果银行增加的收入来自存款人减少的收入。

(二)知识运用――推理方法

通过经济理论知识来实证当前社会经济的情况或预测世界经济可能会出现的情况。

分析实例二,用奥肯定律来分析我国的GDP和失业率之间的关系:萨缪尔森和诺德豪斯合著的《经济学》第16版456页确切表述,“按奥肯定律,GDP增长比潜在GDP增长每快2%,失业率上升1个百分点,公式表示为:失业率的变动=-(实际GDP的增长率-潜在GDP的增长率)/2”[2]。2008年,全年国内生产总值同比增长9.6%。2009年GDP增长8.7%,则实际下降0.9个百分点,根据奥肯定律来推测,失业率应上升0.45个百分点,达到4.65%。

分析实例三,GDP与固定资产投资的关系:通过用加速模型对中国1978~1997年数据进行检验,从而推断出那些以有效需求不足为假设前提的模型不能解释中国的现实。其次,以供不应求为特征的存量调整模型能较好地解释中国固定资产投资的决定因素。在正常年份,实际国内生产总值增长1%,合理的实际固定资产投资应增长1.85%[3]。即GDP增长一个点,约需要投资增长2个点。因此,用GDP与投资总量之间的这种理论关系,可以推算出非信贷投资总额。比如:2008年保山市GDP增长率为13.1%(G),从GDP增速倒推,与其相适应的投资增速应在26.2%左右,但本地银行贷款实际增长22.27亿元,增速仅为16.84%,少增9.36%,表明可能有其他资金投放在本地;年初贷款余额N=131.79亿元,S=N×G×2-M=131.79×13.1%×2-22.27=12.37亿元。表明外地资金在本地当年投放12.37亿元左右。

分析实例四,金融危机与菜农的关系:美国金融危机后?圯中国涉外企业十分困难,大多处于关停状态?圯大量农民工返乡?圯返乡后自己种蔬菜(再说也无法买到原来吃的蔬菜)?圯以往这些农民工日常消费的蔬菜没有人消费,形成消费链断裂?圯河南菜农的蔬菜卖不出去?圯河南菜农生产过剩。事实上,根据国新办于2009年2月2日上午10时举行新闻背景吹风会,离开本乡镇外出就业的农民工的总量大概是1.3亿人,大约有15.3%的农民工因全球金融危机而失去了工作,或者没找到工作。据此推算,全国大约有2000万农民工失去工作,或者还没有找到工作而返乡了。假设每个农民工日均消费1市斤蔬菜,返乡农民工有2000万,就意味着菜农每天有2000万斤蔬菜卖不出去。

(三)大海捞针――筛选方法

可以通过Excel的筛选命令,从众多的数据中筛选出需要的信息。

分析实例五,异地贷款统计:在《银行业非现场监管信息系统》中,没有对异地贷款信息专门统计,给异地贷款风险监管带来难度,可是,银行业《风险预警系统》给我们提供了丰富的客户信息资源。《风险预警系统》中包含了哪个银行在什么地方对哪个企业授信多少、发放贷款多少,以及现在贷款的质量怎么样等48项信息。当银行与企业不在同一个地方时,贷款就衍变为异地贷款,考察全省汇总数据,我们很快发现,可以用筛选方法,将异地贷款统计出来。方法是:分别用筛选命令,筛选出注册地在本地各县区的所有客户,并将其汇总在同一张Excel表中,再删除本地银行机构的客户信息,剩下的就是外地银行在本地客户的贷款信息。反之,也可以筛选出本地银行在外地客户的贷款信息。

(四)专业软件――技术方法

通过《银行业非现场监管信息系统》的查询方法和分析模型,进行“时间序列分析”和“同质同类比较分析”,可以挖掘出更多有用的监管信息;通过Excel中强大的函数库,可以获得更多的统计分析结果;通过《马克威分析系统》等专业分析软件,可以从海量信息和数据中寻找规律和知识,建立起概念模型,为决策者提供科学的决策依据。

分析实例六,2009年全国贷款总额预测:根据2002年至2009年一季度贷款余额和全年贷款总量,以及2010年一季度的贷款余额,可以用回归分析预测出2010年贷款总量。如表二所示:

表二 金融机构人民币信贷收支表(单位:亿元)

表中用回归分析预测函数FORECAST预测了2010年的全年贷款总量将达到47.9万亿元,FORECAST(x,known_y's,known_x's)中的x是2010年一季度贷款余额;known_y's是2003至2009年的贷款总量,是因变量;known_x's是2003至2009年一季度贷款余额,是对应的自变量。在本例中,函数表达式是FORECAST(B11,C3:C10,B3:B10)。

在表中,如果计算同比增加量,2010年全年同比增加贷款7.96万亿元左右。如果以时间作为自变量,全年各项贷款余额作为因变量,画出全年贷款余额折线图和三阶趋势线,我们发现,决定系统R2=0.997,接近于1,表示线性拟合程度较高。

考虑到出口减少,外汇储备下降,货币生成机制发生变化,企业更加依赖银行贷款等因素,贷款余额将远不止45万亿元,事实上,2010末贷款余额达到了50.9万亿元,这说明这个回归分析预测函数准确率还是很高的。

参考文献

[1]刘明亮.数据挖掘技术标准综述.计算机科学[J].2008年,(06):5.

数据分析的方法篇(10)

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2017)03-0104-02

1 综述

1.1 简介

在数字化时代,需要新一代系统架构提升业务创新能力。在新一代系统架构中,大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭建大数据平台时,就着手大数据治理相关建设。

1.2 需求和意义

从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全,提升大数据平台服务能力,让大数据平台变得易使用、易获得、高质量。

但是,目前很多技术解决方案存在诸多安全和效率隐患:业务系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶段的应用角度不同,需要降低系统间的集成复杂度。

2 功能设计

2.1 总体架构

本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格式分为非结构化数据、结构化数据;按数据模型分类为范式化模型数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据处理架构;并提供数据中心平台与安全管理方案,为企业级用户建立一个通用数据处理和分析中心。如图1所示。

2.2 在线数据

在线数据在线通过接口去获得的数据,一般要求为秒级或速度更快。首先应当将数据进行区分:在线数据、或归档数据。本平台中采用:Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续的数据流称为DStream(离散流),一个DStream是RDD弹性分布式数据集的micro-batch微批次,RDD是分布式集合能够并行地被任何函数操作,也可以通过一个滑动窗口的数据进行变换。

2.3 归档数据

归档数据是在线存储周期超过数据生命周期规划的数据,处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技术生态体系内的框架进行计算,这里不详细阐述。

2.4 非结构化数据

通常非结构化的数据不一定具备字段,即使具备字段其长度也不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。

针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中,需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。

2.5 结构化数据

结构化数据具备特定的数据结构,通常可以转换后最终用二维的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要对象。

本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现,而非Hadoop的基于Java的Map-Reduce机制,将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作,为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。

结构化数据根据采集频度可以继续分类为:非实时数据、准实时数据。

2.6 准实时数据

通常准实时数据是指数据存储在平台本身,但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询,但数据的再处理度不高,具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架,Redis作为高速缓存去缓存数据热区,减小高并发下的系统负载。

2.7 非实时数据

非实时数据主要应用于支持分析型应用,时效性较低。通常用于数据的深度利用和挖掘,例如:因素分析、信息分类、语义网络、图计算、数值拟合等。

非实时数据根据数据模型可继续分类为:范式化模型数据、维度模型数据。

2.8 范式化模型

范式化模型主要是针对关系型数据库设计范式,通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区,建议使用并行MPP数据库集群,既具备关系型数据库的优点,又兼顾了大数据下的处理。

2.9 基于维度模型

维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术,而在大数据和开源框架的时代下,本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式,而是参考了MPP并行数据库的思想另起炉灶,省掉不必要的shuffle、sort等开销,使运算得到优化。

3 应用效果

本系统在不同的业务领域上都可以应用,以2016年在某银行的应用案例为例:该银行已完成数据仓库建设,但众多数据质量问题严重影响了数据应用的效果,以不同的数据存储方式,以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施,以元数据、数据标准、数据质量平台为支撑,实现了数据管控在50多个分支,60个局,1000余处的全面推广,实现了全行的覆盖;管理了120个系统和数据仓库,显著提升了新系统的快速接入能力;通过14个数据规范和流程明确了数据管控的分工;数据考核机制的实施,使其在数据质量评比中名列前茅。

4 结语

本文介绍了大数据下数据分析方法及实现技术的大体设计和思路,从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。

上一篇: 农村发展趋势 下一篇: 培养孩子学习的兴趣
相关精选
相关期刊