统计学地域分析汇总十篇

时间:2023-11-15 11:06:09

统计学地域分析

统计学地域分析篇(1)

空间统计学(spatial analysis)起始于20世纪60年代左右,经过五十几年的发展,已广泛应用于人类生活和发展的各个领域。空间现象不同于传统的统计对象,它们之间存在不同方向、不同距离成分等相互作用。传统的数理统计方法无法有效地解决空间样本点的选取、空间估值和两组以上空间数据的关系等问题。空间统计学的一些基本理论都是在传统统计学的基础上发展起来的。空间统计分析主要用于研究与地理位置有关的数据之间的空间关系,基于空间地理位置利用空间统计分析模型计算空间数据的关联度。它不仅能够进行数值计算,将数据分析与地理位置相结合,既考虑到样本值的大小,又弥补传统统计分析忽略空间方位的缺陷,更能描述和揭示空间数据中所蕴涵的独特的空间信息、关系、格局和过程。

空间统计分析主要分析的内容有基本统计量、探索性空间统计分析、分级统计分析、空间插值、空间回归和空间分类。空间统计数据在地方、区域和全国各级水平的经济发展分析过程中都发挥着重要作用 。城市的建设和发展与周边的环境是相互联系和影响的,因此城市布局的空间规律可以运用空间统计分析方法进行系统的计算。基于空间统计分析,可以通过对人均GDP的空间分布模式研究以探讨区域经济发展状况。利用GIS系统开发一个分析空间关联的功能模块,运用度量空间自相关、空间关联的一些空间统计分析方法,可将其应用于区域经济分析的各个方面。

本文首先分析了空间统计学中的基本原理,概念与经典分析方法,介绍了空间统计分析在区域社会经济分析各方面的应用实例,最后展望了空间统计分析的应用前景。

1 空间统计分析方法

空间数据基本上都具有定位、定性、时间、空间依赖、空间自相关等特征。数据间的空间关联对传统统计分析中相互独立的基本假设不成立,故在处理离散的区域社会经济数据时,需要引入空间统计分析方法。空间连续数据分析方法包括反距离加权法、简单克里格方法、普通克里格方法以及泛克里格方法。本文探讨了面状数据空间模式分析方法,研究地理位置数据间的空间依赖、空间关联或空间自相关。介绍空间权重矩阵,空间地物其位置邻近关系、确定空间权重矩阵的两个简单标准以及空间自相关的几种最著名的方法。

1.1 空间权重矩阵

通常情况下,为体现空间自相关指数,反映空间链接和空间邻近关系,常定义一个二元对称空间权重矩阵W来表达个位置的空间邻近关系。

空间权重矩阵的建立规则可以分为三类:一是根据相邻关系;二是根据距离关系;三是选择最近的个点(不论距离远近)。空间权重矩阵可以用来衡量空间位置之间的空间关联程度。

1.2空间自相关度量

空间自相关指同一变量在不同空间位置上的相关性。与区域社会经济相关的各方面因为受到地理分布上具有连续性的过程所影响而在空间上具有自相关特征。空间自相关指数能够对变量空间分布的自相关强度进行检验,空间自相关分析可以包括全程空间自相关分析和局部空间自相关分析。全程空间自相关用于分析整体范围内某一属性是否具有自相关性。局部空间自相关用于分析局部地区某一理现象或某一属性值是否具有自相关性。

1.2.1全局空间自相关

全局空间自相关一般用Moran系数和Geary比率来度量。

Moran I指数反映的是空间邻接或空间邻近的区域单元观测值的相似程度,其公式为

Moran指数I值取值一般在之间,小于零表示负相关,大于零表示正相关,等于零表示不相关。

Geary系数等方法也是可选择的统计指标,它与Moran指数是负相关关系。

对于Moran指数,可计算检验统计量标准化值Z来判断n个区域是否存在空间自相关性,如公式(4)所示。

当Z值为正且显著时,表明存在正的空间自相关,即相似的观测值趋于空间集聚;当Z值为负且显著时,表明存在负的空间自相关,即相似的观测值趋于空间分散;当Z值为零时,则呈随机的空间分布。

1.2.2局部空间自相关

一般而言,全局Moran系数可以很好的反映观测值全局的空间相关情况。而观测值的局部特征往往在全局评估中被掩盖了。当需考虑局部特征时,就需要引入局部空间自相关指标。常见的指标包括:空间联系的局部指标、G统计、Moran散点图。这里主要介绍Moran图和LISA。

1) 空间联系的局部指标LISA

LISA包括局部Moran指数和局部Geary指数。局部Moran指数I 被定义为:

式中,。当I>o时表示该区域单元周围相似值的空间集聚,当I

空间联系的局部指标满足下列两个条件:(1)每个区域的LISA是描述其周围显著的相似值区域空间集聚程度的指标;(2)所有LISA总与全局空间联系指标成正比。

局部指数Local Moran’s I可以将空间关联模式为四种类型,分别与MORAN散点图中的四个象限相对应。正的空间关联包括两种类型:“高-高”关联和“低-低”关联。而负的空间关联也有两种类型:“高-低”关联,或者相反的“低-高”关联。

2)Moran散点图

Moran散点图以(,)为坐标点,常用来研究局部空间的不稳定性。对相邻域单元观测值的空间加权平均值(又称为“空间滞后”向量)和数据(所有观测值与均值之间的离差组成的向量)进行了可视化的二位图示,构成散点图。对Moran指数以及外值具有强烈影响的区域,可通过标准回归诊断出来。

Moran散点图中第一、三象限代表正的空间联系,第二、四象限代表负的空间联系。“Moran显著性水平图”可以由将Moran散点图与LISA显著性水平相结合得到。

1.3空间统计分析与GIS集成

地理信息系统数据库中存储了海量的数据及信息,如能与空间统计分析方法有效集成,提高其空间分析的能力,必将大大拓宽GIS数据库的知识发现和在GIS分析决策上的应用。从而更深入地探索、分析、处理和解释与经济发展相关的各地理特征之间的相互关系。完成空间统计分析与 GIS的集成,要在现有成熟的GIS系统中,嵌入空间统计分析功能模块,充分的利用GIS强大的可视化和交互功能,实现区域社会经济数据的空间化统计。

2 应用实例

人均GDP是反映区域经济发展整体水平的重要指标,故在探讨区域经济发展水平时,多采用GDP数据以了解经济发展水平的好坏。经济持续增长是一个国家和地区长期追求的目标,也是区域经济持续发展、社会福利增进和政治稳定的前提条件,历来受到各国和地区政府、学术界长期关注和普遍重视。随着理论和实践的发展,有关的理论研究也日益深化。利用空间统计学知识对经济学和经济地理学从不同的角度对经济增长和区域差异的理论做研究已成为重要应用之一。

研究区域经济差异可通过对个地域年平均GDP增长速度进行分析。这里作者将给出两个研究实例以帮助分析应用的过程与技术关键。根据计算出的全局Moran系数各个区域的MC可以大致说明空间统计分析方法计算经济区域内存在的空间关联的有效性。首先需要按要求生成一个空间权值矩阵,再计算数据集中的空间自相关性质和强度。同时进行显著性检验 (一般取0.05)。又称可进一步分析得到局部区域的Moran系数以考察各个区域之间存在的局部空间经济关联模式。

2.1 分析湖南省长沙市经济增长速度及区域差异

实验数据为1988~2009年长沙市内五区的GDP数据。实验方法为:计算各个区年平均GDP增长速度,在计算全局的Moran系数、各县市的局部MC系数,并借助局部Moran系数散点图来确定空间显著特征点。

在生成空间权值矩阵的过程中,首先采用邻近多边形列表来表示区域单元空间邻近关系。在生成邻近多边形列表后,可计算数据的Moran系数、均值及检验统计量标准化值Z,得到数据集中的空间自相关。可以得到1988~2009 年长沙市各区 GDP年平均增速之间存在显著的正的空间自相关。再计算各个区局部Moran系数及检验统计量可以考察区域经济的局部空间关系。通过与GIS集成,可将上述的空间统计方法集成到一个ArcView中使用的一个模块,为经济决策提供一个种灵活方便的、交互式的可视化支持工具。

2.2 分析1978―2001年全国各省区人均GDP水平

实验数据选取1978~2001年中国大陆31个省区的人均GDP(可比价)统计数据,采用自然对数变换方式,对人均GDP进行数据变换以减小变幅来用于空间数据统计分析。

实验方法为:先各省份的人均GDP数据计算Moran I指数,检验建立在正态分布假设之上,分析各省份人均GDP水平的空间聚集特征,再计算Moran散点图以分析对样本全局相关性影响较大的几个省份及各省份空间自相关性的正负,揭示全国经济发展区域分异的空间格局及演变过程。最后,由LISA分析来进一步探究显著性水平较高的局部空间集聚指标。

实验结果可以得到东部发展水平高,西北、西南发展水平低,且它们在空间上都趋于集聚。集聚的发达地区主要集中在以北京和天津为核心的环渤海区域,以上海为核心的长江三角洲地区,和以广州、深圳为核心的珠三角地区。

2.3 分析湖南省县级及以上城市人均GDP分布的空间分布模式

实验数据位为湖南省县级及以上85个城市的“人均GDP”的统计数据。实验方法为先提取数据总体特征,再分析分布的局部特征。

首先用spss软件对实验数据镜像快速聚类并结合标准化z分数将人均GDP指标分为5个级别,使用ArcGIS查看分类结果。计算人均GDP统计数据的Moran I指数值,随机选择999中变化进行检验,接受零假设-空间自相关性不显著的概率仅为0.0010,即认为拒绝零假设,表明全局分布具有较强的正自相关,有显著的空间聚集。再将Local Moran系数的显著水平较高的空间单元计算空间关联类型,最后得到湖南省东部、中部和西部区域城市存在的或正或负的空间关联模式。

统计学地域分析篇(2)

1、计量地理学[2]在区域经济学中的应用

1.1 地理学中经典的统计分析方法

经典的统计方法有回归分析、主成分分析、时间序列分析、相关分析、系统聚类分析、趋势面分析方法等等

1.1.1回归分析

回归分析是研究对象与影响因素之间的关系,包括函数确定和相关关系不确定。回归就是用统计手段找出变量间近似函数关系的方法。在回归分析中,通常将我们关心的研究对象称为因变量,并且在一次研究中一般只有一个因变量,将影响因变量的其他因素称为自变量,自变量的个数既可以有一个(称为一元回归),也可以有多个(多元回归)。在农户自主发展能力的三商影响研究[3]中,采用多元回归分析可知农户自主发展能力与智商,情商和财商存在显著的线性关系。在研究智商,情商和财商分别对农户自主发展能力贡献大小时,可依次采用一元回归分析。

1.1.2主成分分析

主成分分析是指把反映样本某项特征的多个指标变量转化为几个综合变量的多元统计方法。在区域经济研究过程中,常常需要用多个变量对多个区域或城市进行综合评价,如区域经济发展水平,区域经济综合竞争力,地区经济发展潜力,地区投资环境,城市经济综合实力等,这些综合评价指标的共同特点是需要将多个相关指标合成一个综合指标,以反映各区域或城市在某一方面的综合水平。要完成这项工作,一般要经过以下五项步骤:

第一,选取指标

第二,对指标进行矢量纲化处理

第三,对指标进行简化或归类处理

第四,确定权重

第五,计算综合评价值

在基于微观视角的河南省农区经济类型划分[4]文章中,采用主成分分析方法,通过计算出各乡镇每个主成分的得分,结合地势状况,土地资源状况,把农区经济首先划分为富裕区、小康区、温饱区、贫困区等4中类型,又可进一步划分为平原富裕区、丘陵富裕区、平原小康区、丘陵小康区、山地小康区、盆地温饱区、山地温饱区、平原贫困区、盆地贫困区、山地贫困区等9种类型区。

1.2 线性规划分析

线性规划在实际应用日益广泛与深入,已经被广泛地应用到工业、农业、商业与交通运输规划、工程技术的优化设计以及企业管理等各个领域。在地理学领域,线性规划是解决有关规划,决策和系统优化问题的重要手段。

线性规划应用最多的实例就是农场种植计划或农区集中选择。如果线性规划只有单一的目标函数,那么建立的种植计划模型就是单目标规划模型,进而给出种植计划方案,要么使总产量最大,要么使总产值最大,两目标无法兼得;多目标规划的思想就可以解决这个问题。

1.3 空间统计分析

空间统计学的理论发展c70年代,空间统计分析处理的数据是空间数据,空间数据具有地理位置属性的一类特殊数据,不用于一般的截面数据和时间序列数据。通常运用空间分析的方法分析空间中“点”的分布具有什么样的规律,是否具有聚集性的特点,怎样去度量这种聚集程度。空间统计分析的核心是认识与地理位置相关的数据间的空间依赖,空间关联或空间自相关,通过空间位置建立数据间的统计关系。

Moran指数和Geary系数是两个用来衡量空间自相关的全局指标。Moran指数反映的是空间邻接或空间邻近的区域单元属性值的相似程度。Geary系数与Moran指数存在负相关关系。局部空间自相关的分析方法包括3种:(1)空间联系的局部指标(LISA):是描述区域单元周围显著的相似值,区域单元之间空间集聚程度的指标。(2)G统计量:显著的G统计量正值表示在该区域单元周围,高观测值的区域单元趋于空间集聚;而显著的负值表示低观测值的区域单元趋于空间集聚。(3)Moran散点图:用来研究局部的空间不稳定性。

利用空间统计分析通常用于宏观尺度的分析,比如中国大陆30个省级行政区人均GDP的空间关联分析,基于空间统计分析与GIS的人口空间分布模式研究――以甘肃省天水市为例[5],研究表明天水市人口分布呈现西北-东南模式,存在显著的空间集聚现象。

1.4 投入产出分析

投入产出分析又称“部门平衡”分析,或称“产业联系分析”,最早由美国经济学家瓦.列昂捷夫(W.Lenotief)提出,主要通过编制投入产出表及建立相应的数学模型,反映经济系统各个部门(产业)之间的相互关系。自20世纪60年代以来,这种方法就被地理学家广泛地应用于区域产出构成分析,区域相互作用分析以及资源利用与环境保护研究等方面。在现代经济地理学中,投入产出分析方法是必不可少的方法之一。

投入产出在微观层面的研究,地形对山区农田人地系统投入产出影响的微观分析――河南省巩义市吴沟村的实验研究[6]中把多种农业投入(x1,x2,x3...)与产出(Y)之间的关系以道格拉斯生产函数的形式Y=AX1αX2α表示出来,在该文中利用有关学者的研究成果确定折能系数,进行农田地块能量投入产出及效率的有关折算,得出地形对农田投入产出的影响。

1.5 AHP决策分析

AHP决策分析方法是美国运筹学家T.L.Saaty于20世纪70年代提出的,AHP决策分析方法(Analytic Hierarchy Process)是一种定性与定量相结合的决策分析方法,常常被运用到多目标,多准则,多要素,多层次的非结构化的复杂决策问题,特别是战略决策问题的研究,具有十分广泛的实用性。

甘肃省两西地区扶贫开发战略问题进行定量分析[7]文章中采用层次分析法给出了诸战略目标、发展战略、制约因素及方针措施的重要性排序,为地区扶贫开发建设决策提供了可续依据。根据这种思路是否也可以在微观层面上用层次分析法为较快较好的进行精准扶贫提供较为科学的依据。

1.6 地理网络分析

网络分析主要运用图论方法研究各类网络的结构及其优化问题,对于许多现实的地理问题,譬如城镇体系问题,城市地域结构问题,交通问题,商业网点布局问题,物流问题,管道运输问题等等都可以运用网络分析方法进行研究。中国中部农区企业集群的竞争优势研究――以河南省虞城县南庄村钢卷尺企业集群为例[8]利用图论很清楚的描述出了各个因素之间的联系。

参考文献:

[1] 李小建.经济地理学的微观研究[J].经济地理,2011,31(6):881-887.

[2] 徐建华.计量地理学[M].北京:高等教育出版社,2006.

[3] 乔家君,党睿,赵德华.农户自主发展能力的三商影响研究[J].经济地理,2009,29(7):1160-

1166.

[4] 乔家君,李小建.基于微观视角的河南省农区经济类型划分[J].经济地理,2008,28(5):832-

统计学地域分析篇(3)

Abstract:In the big data era, data analysis can affect the development of archival cause. At present, the benefit of data analysis is dissatisfactory because of lacking settled analysts in archival field. This paper addresses the post requirements, the post duties and the quality demands of data scientists in archival field.

Keywords:big data of archive; data scientist; post requirements; post duties; quality demands

大数据时代,数据成为重要的战略资源。在电子办公深度与广度不断拓展的进程中,人类对数据“精、准、深”的要求日益突出。在基于数据决策、依赖数据管理等“以数据说话”的理念日益深入人心的大环境下,作为大数据的关键组成部分――档案大数据的地位和作用也逐渐凸显出来,它是大数据重要维度即历史维度数据的核心,在各个领域都有很好的应用前景。但是,应该看到,受保密、档案管理机制等因素的制约,档案大数据的应有价值还没有得到充分发挥,档案大数据与其他数据的整合还有一段很长的路要走。为提升档案资源建设与利用效益,对档案大数据进行分析,优化档案事业发展方案,更好地为领导决策和各领域工作的开展提供数据支撑,成为档案工作的重要组成部分,这就需要档案资源和档案事业数据的鼎力支撑。虽然从国家主管部门到各级档案馆(室),都在开展档案数据的统计和分析工作,但是,由于缺乏固定而专业的分析人员,从数据统计和分析的全面性、系统性、多维性、深入性和规范性等方面看,仍有待进一步增强。在此种形势下,档案大数据作用的发挥和档案事业发展的科学性很大程度上取决于档案部门自身结构的优化和管理资源使用效益的提升。

1 档案领域数据分析师岗位设置的意义

大数据时代,数据分析在各领域有着十分重要的意义,各行业对数据分析师的需求与日俱增。与其他数据相比,档案大数据很大一部分源于政府、军队等组织机构的活动,具有权威性和凭证性等不可替代的价值特点,虽然有着服务社会、服务百姓的义务,但又必须确保国家利益不受侵害。因此,在行业内部设立数据分析师岗位不仅是社会需求、也是档案行业组织机构结构优化的内在需要。

1.1 优化档案资源体系建设的需要。从局部看,各级档案部门都不同程度地存在着档案收集不齐全、著录不规范等问题。从整体看,各档案部门之间存在着档案资源交叉重复、数据异构等问题。系统地设置统计项目,全面地对档案资源建设现状进行分析,就可以准确地发现档案资源体系建设中的弱项和“瓶颈”。通信网络和数字设备发展实践告诉人们:当今,电子文件的增长几乎达到了几何级。例如,阿富汉战争期间,美军为打击一小股,其情报侦测、监视系统24小时产生的数据量就达53TB。在如此大的数据量面前,如何分类电子文件、确定保管期限?网站、微博、通讯交友软件等产生的数据,哪些是需要作为电子文件保存的、又该如何保存?现有馆(室)藏档案资源,哪些方面需要丰富、哪些方面需要“瘦身”?如何从国家层面调控档案资源体系建设?这些均有待于档案领域数据分析师从“保存历史、服务社会”视角、以可靠的数据和科学的分析给出建设性的解答。

1.2 分析和把握档案利用规律的需要。档案资源的利用是有规律可循的,掌握了这个规律对于提升档案资源利用率是十分有益的。有的档案资源,其利用具有扩展效应,即一次成功利用可能会激发人数更多、范围更广、程度更深的利用,例如名人档案、著名战役档案、历史典故档案等;有的档案资源,其利用具有递减效应,即一次成功利用之后可能很长时间内不会再有第二次利用,例如事关普通百姓的个人档案。如果机械地根据其前段时间的关注热点推荐档案信息服务产品,则不仅达不到理想效果甚至还会引起用户反感。依托数据分析师的科学分析,有助于档案部门聚焦服务热点,提前做好档案信息服务预案,根据用户需求方向准确提供档案资源及其编研产品服务。

1.3 推动档案管理科学发展的需要。近年来,档案事业出现了一派欣欣向荣的景象,尤其是档案信息化建设、民生档案的收集与管理等得到了长足发展。但是,无论是硬件建设、还是软件建设,离精细式、集约化科学发展尚有一定距离,这就需要发挥档案大数据的决策助手作用。对于不同学识背景、不同工作经历、不同职业精神的数据分析人员来说,同样的统计数据得出的结论也是不尽相同的。设置固定的数据分析师岗位,则有益于提升数据统计和分析工作的科学性。通过数据分析师对档案事业分门别类的统计和分析,可以有效地冲破经验主义思维的“篱笆”,发现和把握新形势下档案管理工作的发展规律,更加统筹、协调和集约化地利用管理资源,构建档案事业发展的良好生态。

1.4 更好地服务社会发展的需要。如果说“读史可以明智”只能模糊地形容档案的作用,档案大数据在金融、医药、卫生、交通、安全和军事等领域的成功应用,已经很好地量化和解释了档案大数据的价值。它是转换思维方式、科学决策的直接支撑,是引领社会更快、更好发展的“催化剂”。设置档案大数据分析师,无疑会有助于提升档案信息服务于社会的广度与深度。同时,也有助于档案部门把握契机创新服务社会的模式与内容。

2 档案领域数据分析师的岗位职责

档案领域数据分析师,可以依据各级主管部门、档案馆(室)的编制和事业发展状况合理配置,其职责主要是从档案资源建设、档案利用、档案事业综合发展以及档案文件内容等方面进行数据统计和分析,并制定优化方案和提出发展规划建议。

2.1 档案资源数据统计和分析。档案资源数量统计和分析,主要是对馆(室)藏或者主管范围内的档案资源数量情况进行统计和分析,包括对各全宗文件数量的分类统计和分析、同类全宗文件数量的对比分析、现行全宗文件产生量与归档量的对比分析、永久档案与定期档案数量的对比分析、不同类型载体档案数量的对比分析、不同地域不同系统档案移交数量对比分析、不同时期档案数量对比分析、不同密级档案数量对比分析等。

档案资源质量统计和分析。主要是对馆(室)藏或者主管范围内的档案质量情况进行统计和分析,包括档案资源载体和信息完好度分析、档案资源结构分析、档案著录情况分析、档案信息化建设情况分析、档案目录数据库质量分析、档案全文数据质量分析、档案缩微情况分析、档案修复情况分析等。

档案资源优化方案的制定。基于馆(室)功能,在科学分析的基础上,提出一定范围内档案资源体系建设优化方案。主要是从档案资源结构和数量视角,有重点地对现有档案资源进行丰富、再鉴定工作。对明显存在缺失的馆(室)藏方向,分析档案资源可能的分布点,为收(征)集工作提供指导。具体分析档案著录、目录数据库构建情形,提供档案著录尤其是电子文件著录以及档案目录数据库优化方案。必要时,对全文数据质量进行优化。根据档案完好度统计,制定档案修复计划。

2.2 档案利用数据统计和分析。档案利用人群统计和分析。主要是对用户基本情况进行统计和分析,包括用户职业、单位、年龄、学历、档案专业知识、兴趣点、档案意识等,从共性和个性等方面进行分析和研究。

档案利用目的、利用效益统计和分析。主要是对档案利用目标和用户所获得的收益进行分析。从编史修志、工作查考、解决个人问题等方面对档案利用目的作进一步细分,分别进行统计和分析,并关注其利用效益。同时,分析一定时期内得到用户关注和利用的档案资源,尤其是得到用户重点关注或利用的档案资源。

档案检索效率统计和分析。主要是对档案目录和全文的检索效率进行分析,与图书情报资源等相关领域的检索效率进行对比,考虑其是否满足用户需要,有无改进策略。密切跟踪信息和知识领域的发展前沿,将先进的技术和工具应用到档案检索效率的提升上来,主要是对档案信息组织和检索模式提出创新方案。

档案利用发展趋势预测。由于社会和国家发展的需要,人们会在一定时期内有重点地开展某个或某些方面的工作。数据分析师应密切关注某个系统、国家乃至整个人类社会的发展形势,科学地统计和分析用户的潜在需求,准确地预测出档案利用的重点方向,从而有针对性地做好档案利用准备工作。例如,编史修志工作往往在国家层面、某一系统或行业层面进行统一行动,有的又会与编制体制调整、大型纪念活动、大项任务开展等时机紧密结合;个人利用档案,往往会与国家出台某项政策、某一年龄段人群的成长经历、某些文化活动的开展等密切关联。根据档案利用历史数据的分析、当前社会热点、用户关注方向等,引导档案信息资源的开发,借助大数据工具,利用档案信息资源整合平台,充分地进行知识挖掘,高效地构建专题数据库,向用户推送档案信息资源。

2.3 档案事业数据综合统计和分析。档案人才队伍建设情况统计和分析。当今时代,不仅要求档案工作者具有较高的信息素养,而且需要档案工作者转变理念,从知识管理视角出发,为用户提供问题解决方案。档案领域数据分析师应该对档案工作者个体素质和整个队伍建设情况进行统计和分析,要重点关注专业学历、知识储备、年龄结构、管理能力、信息素养和职业精神等方面。

档案事业组织领导形势统计和分析。组织领导是档案事业发展的关键。档案领域数据分析师,应可以系统地设置档案事业各类统计表格,并根据形势发展创新地设置统计项目和衡量指标。不仅要分析档案主管部门对档案工作的组织领导情况,还要分析各级组织机构对档案事业的组织领导形势,包括工作规划、经费投入和对档案事业的关注度等。

档案专业硬件、软件建设情况统计和分析。在国家大力倡导档案信息共享平台建设的情形下,对行业内硬件、软件建设情况进行统计和分析,要重点对档案馆(室)库房建设、档案安全体系建设、业务设备建设、档案软件系统建设等方面进行统计和分析,避免低水平重复建设、提升管理资源利用效益。

制定档案事业科学发展方案。档案领域数据分析师要适应大环境的需要,从档案工作者个体出发,提出人才培养和培训方案。从档案人才队伍整体建设出发,合理提出编制调整、人才配备和人才发展等建议。在硬件建设方面,从档案事业整体发展视角提供指导意见,合理配置各类设备设施。在应用系统开发方面,针对技术发展形势及时提供建议,为颁布软件系统需求标准、协调资源做出贡献。

2.4 档案文件内容大数据的分析和知识挖掘。无论是科技档案、专门档案,还是文书档案,其利用都是围绕着组织机构(或个人)的业务行为开展的。因此,从业务层面对档案内容大数据进行分析,是档案大数据分析的重要内容。根据各专业发展的需要,利用高效、可视化的图形分析工具,对档案文件内容大数据进行分析,挖掘出其中蕴含的知识点,以指导各领域业务工作的科学开展。

3 档案领域数据分析师的基本素质要求

数据分析师肩负着对档案事业各类数据进行统计和分析的职责,并且要根据分析结果制定出推动各行业科学发展的、切实可行的方案,这就要求其具有高度的事业心和责任感,具备档案、计算机、数学和管理等领域专业知识和技能。

3.1 思维开阔,开拓精神强。无论是统计项目的设置、还是优化方案的制定,都要求档案领域数据分析师关注相关领域前沿发展形势,具有开阔的思维和较强的创新意识,能够敏锐地捕捉到档案事业发展中的主要矛盾,打破旧的思维和工作运行模式,为建立起切合实际的、具有前瞻性的档案工作机制贡献力量。

3.2 档案专业功底扎实。档案领域的数据分析,其出发点和落脚点均在档案收集、管理和利用。因而,数据分析师应具备系统的档案专业理论知识。不仅要熟知档案领域基本理论,而且要掌握领域前沿发展和理论创新情况,密切跟踪行业发展实践,能够科学地设计好统计与衡量指标、优化和促进档案事业的综合发展。

3.3 掌握计算机应用专业知识。数据分析师经常要与计算机网络、多种软件工具打交道,必须具备较高的信息素养和扎实的计算机应用专业知识。档案领域数据分析师,应了解机器学习、人工智能和自然语言知识,能够结合领域实际,提出具体的统计、分析软件系统需求;能够熟练操作基本分析软件,掌握大数据分析工具的使用(如R软件、SPSS、MATLAB),准确地采集、处理数据,必要时进行数据迁移;能够在看似无关的数据中挖掘出蕴含的关联、发现档案资源建设和档案事业发展内在规律。

3.4 熟悉管理学基本理论。无论是档案资源管理、还是档案事业的综合管理,都离不开管理学基本理论的运用。因此,档案领域数据分析师应熟悉现代管理学基本理论,具有严谨的逻辑思维能力和较好的文字表述能力,能够运用管理学前沿理论来指导档案资源建设和档案事业科学发展方案的制定。

3.5 灵活运用统计和分析基本方法。在可视化需求不断增长的今天,人们需要数据分析师能够直观地将统计和分析结果呈现出来。这就要求档案领域数据分析师熟练掌握数据分析与建模方法,牢记统计、分析的基本程序和原则,将分析结果以图形化方式表述出来,必要时加以创新和发展,从定性分析和定量分析两个视角,为档案事业的科学发展提供数据支撑。

此外,在对档案文件内容大数据进行分析和挖掘时,还要求数据分析师了解相关领域的专业知识,或者与相关领域专业人员密切协作,以确保分析过程和结果的质量。

参考文献:

[1]丁世飞,靳奉祥,赵相伟.现代数据分析与信息模式识别[M].北京:科学出版社,2012.

[2]金光.数据分析与建模方法[M].北京:国防工业出版社,2013.

统计学地域分析篇(4)

中图分类号:C931.6文献标识码:A

1前言

地理信息系统是60年代中期开始逐渐发展起来的一门新技术,近十几年发展迅猛。早期地理信息系统开发研制的目的是为了解决自然资源管理和土地规划等方面的问题。随着技术的发展,地理信息系统的应用已逐步超出地学研究范围,但仍然是地学研究中的强大技术手段之一。对于它的认识,也不再局限于认为GIS仅仅是科学研究的工具和手段,而是逐步认识到地理信息系统的理论概念和方法对人们认识现实世界思维方式改变的积极作用。对于它的发展,建立大型综合的空间数据库,引入专家系统和各类应用模型,GIS、RS和GPS即所谓的3S一体化是它的主要方面。另外,由于GIS技术是以计算机技术为基础的,一些计算机的发展趋势也必将体现在GIS上面 ,如微机化、网络化、视窗化、标准化等等。

2空间分析方法简介

地理信息系统中的空间分析功能的发展与完善是地理信息系统研究和应用的主要目标。随着地理信息系统在数量、规模、复杂性和应用深度方面的提高,空间分析已成为地理信息系统独立的研究领域,并成为区别于其它类型信息系统的主要标志。

由于地理信息系统的种类很多,因而在功能上特别是空间分析的功能上有差异,但各有所长。有以处理矢量数据为主的,也有处理以栅格数据为主的系统。一般来说,地理信息系统的空间分析功能有以下几个方面:⑴空间特征的几何分析功能;⑵网络分析功能;⑶数字图像的分析功能;⑷地形分析与多元分析。[1]

3 GIS空间分析方法的应用举例

空间分析的应用领域与 GIS的应用领域基本上是一致的,已有很多资料对 GIS的应用进行了非常详细的介绍,本文在介绍这些具体的应用时更加强调GIS的空间分析功能。空间分析的具体应用领域包括水污染监测、城市规划与管理、地震灾害和损失估计、洪水灾害分析、矿产资源评价、道路交通管理、地形地貌分析、医疗卫生、军事领域等。

3.1 GIS空间分析在水污染监测中的应用

水质污染是我国面临的最为严重的环境问题之一,水环境污染防治问题涉及的区域范围广、数据量大、防治水质污染已成为我国环境保护的一项紧迫的任务。进行水质污染管理和分析的另外一个突出的特点就是必须借助大量的、科学合理的水质模拟模型进行水质的预测和评价。因此,在利用GIS的空间分析技术进行水质污染监测时,必须充分利用这些水质模型辅助GIS的空间分析。

在进行江河流域水污染防治规划过程中应贯彻综合防治原则,实施全流域的综合管理,因此,必须对全流域的经济发展、工业布局、城市发展、人口增长、水体自净能力和水体的功能、级别等进行充分的研究,力求处理好流域经济发展与水体保护的关系、局部发展与流域总体发展的关系、近期发展与持续发展的关系。为此,我们需要贯彻系统工程化思想,以整个流域范围为研究对象,建立有关的自然、经济和社会信息数据库,建立整个流域范围及各相关城镇的空间数据库,并建立各种水质评价和预测模型,进行多模型的综合评价,减少单一模型方法的缺陷,提高水质预测的准确度。同时,还需要结合领导的经验决策意见和各项法律法规,建立起综合相关专家知识和领导决策意见的专家知识库。

流域水污染防治规划GIS系统的建立是一个半结构化过程,实现了定量方法与定性方法的有机结合,实现了科学管理与领导的决策经验的有机结合。图1所示的为江河流域水污染防治规划GIS系统的工作流程。

图1 江河流域水污染防治规划GIS系统流程图

图中,数据库系统主要提供基础数据,同时为模型服务;模型库系统是存储于计算机内,用以描述、模拟预测江河的水质、流域经济等各种数学模型的集合,模型的生成是在模型数据库、方法库的支持下完成的,它是整个决策系统的核心。方法库系统的作用是对各种模型的求解提供必要的算法支持。模型库和方法库联系非常紧密,也可以综合成一个库,即模型方法库。知识库用于存放环保规划专家和水质评价专家提供的专门知识,通过知识库知识的自动获取为江河流域水污染防治规划辅助决策支持系统提供有力支持。

这种具有大量数学模型的GIS系统进行空间分析时解决的一个最重要的问题就是如何充分利用这些数学模型,为空间分析任务服务。这种数学模型与空间分析任务的结合包括以下几种方式:

1)松散的结合:数学模型系统与GIS空间分析系统各自独立地运行,分别运行在各自独立的系统中,二者之间的数据通讯通过ASCII文件或二进制进行。用户负责根据GIS所确定的格式对文件进行格式化。这种结合是在同一台计算机上或局域网的不同计算机上联机执行的。

2)紧密的耦合:在这种情况下,数据模型仍然是不同的,但是在GIS和空间分析之间的数据的自动交换是通过一个标准的接口执行的,无须用户的干预。这提高了数据交换的效率,但是需要更多的编程任务,需要用户负责进行数据的集成。

3)完全的集成:从用户的角度来看,这种集成方式是在同一个系统下执行相关操作。数据交换是基于相同的数据模型和数据库管理系统。数学模型和空间分析之间的相互作用是十分有效的。

3.2 空间分析在其它领域的应用

3.2.1 空间分析在城市规划管理中的应用

空间分析技术方法的应用,为城市规划空间研究提供了有效的技术手段,可以很好地解决以前在这方面存在的不足。

在数据的分析处理方面,基于地理信息系统的空间分析技术,首先能够胜任海量空间数据存储管理与检索查询,安全可靠且现势性强;其次可以对空间数据进行综合性分析处理,获得规划所需要的有用信息;同时还能将分析所得的结果用可视化方法进行表达,易于规划人员理解和进一步加以利用[2]。

在空间分析研究的深度方面,由于空间分析方法实现了图形数据和属性数据的一体化处理,因此,不仅能够透过城市空间现象的表面对其内在的空间关系进行深层次的分析研究,而且还能在把握城市空间发展演变机制的基础上,对城市的未来发展进行较为可靠的预测模拟与优化调整,从而改变以往城市规划停留于城市空间问题的表象、就事论事、缺乏预见能力的空间分析研究工作方法,使规划更具深度和说服力,也更能面向未来。

3.2.2 空间分析在矿产资源评价中的应用

矿产资源是国家经济发展的支柱,矿产资源评价工作历来都是地质工作者非常重视的焦点。以前,大多利用多元统计或其它数学方法,把各种地质现象离散化或数值化,对评价区进行打分,来进行矿产资源的评价工作,这种方法在找矿工作中起到了一定的作用。但它有自己的局限性,它是针对数值型数据而不是针对图形,故难于与地质图件相联系,而且在给地质现象打分的过程中,往往受人为因素的影响。

GIS可以利用地质图件和相关资料,借助于地理信息系统所提供的空间分析能力,充分利用图形要素和空间图形信息进行矿产资源的评价工作。目前人们用GIS来进行矿产资源的评价工作,是指在专家的指导下,利用专家找矿模型来进行的。然而对一些工作程度相对较低,专家的找矿模型不统一、找矿模型不能确定的情况,需利用GIS的空间分析功能来反推找矿模型,从而达到矿产资源评价的目的。[3]它的好处是不受人为的限制,充分利用现有资料,在拥有资料的基础上提炼出找矿模型,为地质工作者提供有益的启示。

3.2.3 空间分析和属性数据库操作相组合进行土地适宜性分析

土地分等定级是对土地使用价值即土地的质量优劣进行评分,并使结果等级化的过程。通过科学的、综合的方法划分土地级别,可以为合理利用城镇土地及有关部门制定规划、计算和使用提供依据。地理信息系统的空间分析功能及数据库操作功能能极大地提高土地定级估价的效率,其可靠性和准确性也优于一般的常规方法。[4]地理信息系统内所带数据库管理模块功能一般不是太强,但如果正确使用,可以解决大部分的应用问题,如同一网格,不同因素影响大小的取舍问题,分类中的逻辑提取功能,以及数据统计和频率计算等等。对于一些地理系统数据库功能不能解决的问题,还可以通过数据转换,传致另外的系统中进行处理,然后再传回属性数据库。[5]如在此次工作中,单元总分频率直方图便是使用了EXCEL的作图功能。在确定了分级界线后,建立查找表,再在地理信息系统上进行所有单元总分的赋值与分类,确定级别并统计级别的面积。

3.2.4 空间分析在地震灾害和损失估计中的应用

地震是地壳运动的一种表现形式,地震和地质构造都是包含有空间位置信息的地学实体。对地震灾害以及地震次生灾害的评估对于一个区域的降低危险,资源分配以及紧急相应规划具有重要意义。通过存储和分析地质构造信息,利用地理信息系统的空间分析功能可以预测地震发生的“场景”,估计该区域由于地震引发的潜在损失,并且可以分析地震实际发生时的灾害严重程度的空间分布,帮助政府分配紧急响应的资源。[6]而对于地震活动性分析常规的工作方法是按发震时间或地震带选取地震资料,但由于地震带的划分一般范围较大,往往跨越多个构造带或新构造分区,对于小范围构造分区的地震活动性分析比较困难。由于地质构造特征和演化历史差异,不同的地质构造单元其地震活动特征也有所不同。利用地理信息系统空间分析功能不仅可以完成不同地震区、带的地震活动分析,还可以根据需要进行不同构造单元之间的地震活动对比分析。[7]例如:利用活动断裂地理信息系统的空间叠加模块,可以对地震带不同新构造分区地震活动进行对比分析,如不同新构造分区的地震频度、震级的对比分析.

4 结论

作为地理信息系统的核心,空间分析功能的应用领域越来越广泛,要求增强GIS的空间分析能力的呼声越来越高,许多研究工作者都在各个领域探求增强GIS空间分析功能的多种方法。本文主要对GIS空间分析在水污染监测和地震灾害的应用领域作了介绍。随着空间分析技术的不断发展,地理信息系统必将向着能够提供丰富、全面的空间分析功能的智能型 GIS方向发展。

参考文献:

[1]李晓军. GIS空间分析方法研究[D].浙江大学, 2007 .

[2]许为一. GIS空间处理建模在城市规划设计中的应用研究[D].江西师范大学, 2008

[3]杨海军,邵全琴.GIS空间分析技术在地理数据处理中的应用研究[J].地球信息科学, 2007,(05) .

[4]胡春生. GIS空间分析在自然地理学中的应用[J].甘肃农业, 2006,(07) .

统计学地域分析篇(5)

中图分类号:F127.53文献标识码:A文章编号:1003-4161(2009)01-0064-04

1.引言

区域是一个复杂的多层次的空间系统[1],它是一定的地域空间范围内由社会、经济、生态三个相互作用、相互依赖的子系统组成的复合系统。区域可持续发展作为一种系统的发展观,一方面要求区域内部各子系统及其构成要素之间具有较高的协同程度,另一方面要求同一层次和不同层次的区域之间能够更加协同一致、均衡发展,以保证区域可持续发展的实现。区域可持续发展是指区域的经济、社会、环境和资源相互协调,使经济效益、社会效益、资源效益和环境效益得到统一的发展[2]。区域可持续发展包含着极其丰富的内涵,其基本特征主要表现在以下方面:

1.1 发展

可持续发展鼓励经济增长,因为它是区域实力和社会财富的体现。发展是人类的基本权利,也是改善和保护自然生态环境的物质保障,没有发展也就不可能持续,因为缺少持续的动力,所以保持高质量的经济增长是实现区域可持续发展的基础。同时,可持续发展不仅重视增长数量,更追求改善质量、提高效益、节约能源、减少废物,改变传统的生产和消费模式,实施清洁生产和文明消费。

1.2 协调

可持续发展要以保护自然为基础,与资源环境的承载能力相协调。因此,发展的同时必须保护环境,包括控制环境污染,改善环境质量,保护生命支持系统,保护生物多样性,保持地球生态的完整性,保证以可持续的方式使用可再生资源,使人类的发展保持在区域承载能力范围之内。区域可持续发展研究的核心问题就是如何实现长期尺度上人类社会、经济活动与区域范围内的生态系统脆弱性和恢复能力相协调。要实现区域长期健康发展,必须考虑发展过程中经济增长是否与资源存量、生态环境和社会水平相协调以及协调的程度如何。

1.3持续

可持续是区域可持续发展追求的目标,区域内资源的存量在现有的经济增长方式与速度的消耗下能够维持多久;是否有足够的动力或新的增长点来支撑区域经济与社会的长期发展,这种能力有多大.这些都是区域可持续发展研究中的重要问题。

因此,对于区域可持续发展能力的分析和评价需要以系统观作为指导。基于系统发展的理论,本文首先将区域可持续发展界定为一个系统,通过对该系统构成要素的分解来建立评价区域可持续发展能力的指标体系。用这个指标体系对江苏区域可持续发展能力进行分析、评价,以期为江苏区域可持续发展建设和决策提供科学依据。

2.区域可持续发展评价指标体系的建立

从整体角度看,一个区域系统可以分解为多个子系统。就区域系统而言,由上述对区域可持续发展的内涵分析可知,可持续发展不是单指经济可持续发展或社会可持续发展,也不是单指环境可持续发展,而是“环境――社会――经济”复合系统的可持续发展[3]。

由于区域复合系统结构复杂、层次多变,子系统之间既有相互作用,又有相互间的输入和输出。某些层次、某些元素及某些子系统的改变可能导致整个系统由优到劣或由劣到优的变化。因此,要在众多的指标中筛选出那些最灵敏的、便于度量且内涵丰富的主导性指标作为评价指标,确实不是一件容易的事。对于区域复合系统这样的复杂巨系统而言,目前还不可能用少数几个指标来描述系统的状态和变化,因而需要用多个指标组成一个有机的整体,通过建立指标体系来描述系统的发展状况。既然作为指标体系,就其构建的一般原则来说,不外乎必须遵循客观性、完整性、稳定性和有效性等普遍原则。但作为评价区域可持续发展的指标体系,除了应遵循普遍原则外,还应满足以下原则[4][5]。

2.1 科学性和系统性原则

指标体系一定要建立在科学基础上,要能真实反映各子系统和指标间的相互联系,指标概念必须明确,并且符合区域可持续发展的内涵,能够科学、客观、真实地度量和反映区域符合系统结构和功能的现状以及发展的趋势、发展潜力和目标的实现程度。

2.2整体性原则

设置指标时,应能综合反映影响区域可持续发展的各种主要因素。既要有反映人口、经济、社会、资源与环境等各子系统发展的指标,又要有表征以上各子系统相互协调的指标。尽可能地全面反映区域可持续发展,不可以偏概全。

2.3实用性和可操作性原则

指标的建立要能为实证分析服务,能为决策提供依据。这就要求指标体系中的指标内容要简单明了,要考虑指标量化和数据取得的难易程度等问题。同时指标要有明确的含义,要尽量选择那些有代表性的综合指标和主要指标。指标的设置要尽可能利用现有统计资料,数据易于获得,便于操作。

2.4动态性和可比性原则

区域复合系统运行过程是一个动态过程,可持续发展对于区域来说,既是一个目标,也是一个过程,这就决定了指标体系应具有动态性,综合反映区域的现状特点和发展趋势。指标体系应符合纵向可比和横向可比的原则,要求指标数据的选取和计算做到口径一致。

2.5区域性和针对性原则

不同的区域,自然条件、社会经济条件有较大差异,影响可持续发展的要素及其重要性也不尽相同,不同区域的可持续发展也具有各自不同的特点。应根据各地区的特点,建立适合当地情况的具有地方特色的区域可持续发展指标体系。因此应在充分研究所评价的区域的基础上,选出最能反映该区域发展特征的指标。对于不同层次的区域或不同的区域单元,应做到因地制宜。

按照可持续发展指标体系的设计原则,本文针对江苏的具体情况,并着重可操作性和可比性的原则,以统计数据为基础,选取具体的量化指标,构成区域可持续发展定量研究的指标体系。该指标体系分为三层,目标层为区域可持续发展能力,准则层为经济发展能力、社会发展能力和资源环境发展能力,指标层为34个具体指标(表1)。

3.区域可持续发展能力评价方法选择

区域作为一个复合系统,其可持续发展能力受到经济、社会、环境等多方面因素的强烈影响,这些因素不仅与区域可持续发展能力之间具有相关性,而且自身之间也相互关联,所以用单纯的相关分析,不能解决误差的冗余。

主成分分析法(Principal Component Analysis-PCA)是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。其基本思想是:设法将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标,即将原来的指标做线性组合,成为若干个新的指标。通常要求第一个线性组合方差最大,即第一个综合指标包含的信息最多,如果第一个主成分不足以代表原来所有指标的信息,再考虑选取第二个主成分,并要求已有的信息不出现在其中,依次类推,直到选取的主成分能够包含评价所需要的足够的信息[6]。

主成分分析方法在简化区域复合系统评价指标结构、消除变量之间的相关性方面可起到明显的效果。主成分分析法可以将若干变量压缩为几个独立的成分,以此来减弱各自变量之间的相互干扰。同时主成分分析法可以把影响区域可持续发展能力的众多指标进行线性组合,使原始变量减少为有代表意义的少数几个新的变量,以少数几个指标来代替多个指标,既能更集中更典型地表明研究对象的特征,也能避免大量重复的工作。进行主成分分析的主要步骤如下:[7]

①指标数据标准化(SPSS软件自动执行);

②确定主成分个数m;

③主成分命名;

④确定主成分与综合主成分评价分值。

确定各主成分得分公式为:

Fp=a1mZX1+a2mZX2+…apmZXp(1)

式中Fp为各主成分得分,p为原始数据指标个数,ZXp是原始数据Xp经过标准化处理的值,a1i,a2i,…,api(i=1,2,…,m)为X的协方差矩阵的特征值所对应的特征向量。

确定综合主成分评价分值公式为:

F=(λ1F1+λ2 F2+…+λmFm)/∑mi=1λi(2)

其中λi为每个主成分所对应的特征值,Fm为确定的各主成分得分。

4.实证研究――江苏省区域可持续发展能力评价

江苏省作为我国东部沿海地区的经济发达省份之一,尽管其经济发展能力、人民生活水平相对较高,但从可持续发展水平来看,各地市可持续发展水平不一。有些地市尽管经济发展水平较高,但是可持续发展受到资源瓶颈制约,环境问题日益突出;而有些地市经济水平虽然还较落后,但是资源丰富,后发优势明显。因此,如何区分江苏不同区域可持续发展水平,分析不同区域可持续发展存在的问题,并针对不同区域可持续发展的状况提出不同的对策就成了促进目前江苏可持续发展的重要问题[8]。

4.1数据来源及处理

分析所用计算数据全部来自《江苏统计年鉴―2005》[9]。我们按上述(表1)所述指标体系,收集江苏13个地级市34个量化指标的数据,运用统计分析软件SPSS12.0进行主成分分析。

4.2确定主成分

根据特征根大于1,累积贡献率大于80%的原则得出主成分特征根、主成分贡献率和累计贡献率(如表2所示)。由表2可知第一、第二、第三主成分的累计贡献率已达83.317%,说明前3个主成分已提供了原始数据的足够信息,完全符合分析的要求。

表2 特征根及主成分贡献率

主成分特征根贡献率(%)累积贡献率(%)

122.4535056366.0397224566.03972245

23.3364129399.81297923375.85270169

32.5380243957.46477763483.31747932

表3 主成分载荷矩阵

变量第一主成分第二主成分第三主成分变量第一主成分第二主成分第三主成分

X10.9390.248-0.181X180.613-0.258-0.088

X2-0.877-0.209-0.287X190.9500.166-0.181

X30.9210.298-0.190X200.974-0.1460.029

X40.9620.139-0.114X210.583-0.5340.569

X50.975-0.053-0.044X220.9700.118-0.170

X60.957-0.011-0.182X230.630-0.6280.063

X70.947-0.165-0.105X240.924-0.0680.063

X80.6950.3120.545X250.966-0.218-0.028

X90.881-0.1030.049X260.950-0.011-0.097

X10-0.921-0.003-0.073X270.929-0.140-0.096

X110.8320.300-0.006X28-0.939-0.030-0.270

X120.675-0.5040.175X290.568-0.2350.548

X130.8430.284-0.243X300.482-0.469-0.115

X140.7640.198-0.314X310.4590.7020.114

X150.9670.075-0.163X320.580-0.038-0.401

X160.9620.053-0.158X33-0.0330.7180.424

X170.591-0.1730.650X340.2590.5630.446

通过主成分分析,提取出3个主成分作为江苏区域可持续发展系统的分析指标。主成分的载荷矩阵(如表3所示)。由表3可知,第一主成分在人均社会消费品零售额、医院床位数及机动车拥有量、第三产业总产值、旅游、财政收支、职工平均收入、人均耕地、第一产业构成、人均农业总产值等指标的载荷量绝对值较大,因此,第一主成分反映区域的经济实力、社会进步等现状,其中耕地、第一产业构成及农业产值指标的载荷系数为负值,表明第一主成分与它们之间呈负相关。第二主成分在城市固体废弃物处理率、废水排放密度、城市人均拥有道路面积、人均用水量、三产构成及园林绿地拥有量等指标的载荷量绝对值较大,因此,它主要反映区域的污染治理、环境状况等现状,经济发展速率、对外开放程度和环境污染等现状,并与环境污染指标呈负相关。第三主成分在人口密度、公路密度等指标的载荷量绝对值较大,因此,它主要反映区域的人口、基础建设等的发展现状。

4.3 区域可持续发展的空间差异分析

根据上述进行主成分分析的主要步骤中公式(1)、(2),运用SPSS软件分析数据得出江苏省各区域可持续发展各主成分及综合主成分排名(如表4所示),这些综合指数把区域可持续发展综合现状进行了数量化。

表4 江苏各区域主成分得分及排名

区域第一主成分排名第二主成分排名第三主成分排名综合主成分排名

无锡市7.00 2 1.50 4 0.55 4 4.51 1

苏州市7.3212.361-2.19124.352

南京市6.653-4.63130.3172.893

常州市3.4141.5820.3462.404

镇江市1.245-0.288-0.4690.575

南通市-0.696-1.43122.321-0.276

扬州市-0.7470.2760.345-0.307

泰州市-2.0381.3452.072-0.488

徐州市-2.609-0.7490.228-1.639

连云港市-3.7910-0.8711-0.8910-2.5710

宿迁市-5.66131.5331.663-2.6211

淮安市-4.82110.197-1.0211-2.9612

盐城市-5.2912-0.8110-3.2513-3.8913

从最后的得分结果看,还是符合江苏各个地区的实际情况的。在最后的加权得分中,苏南五城市排在前列,苏中三城市处在中间行列,苏北五城市则靠尾。江苏13个地级市可持续发展能力的不平衡,将是江苏未来区域可持续发展急需解决的问题。第一主成分主要反映了区域经济发展的水平,从其得分看,江苏区域之间经济的发展极不平衡,增强苏北地区的经济实力,是提高这些地区区域可持续发展的关键。第二主成分反映了资源环境系统对区域可持续发展能力的影响。南京的得分在这个主成分排名上竟然最低。具体的考察,发现在影响该主成分的污水处理率及固体废弃物处理率上,南京的排名都是很靠后的。可见,南京比其余城市面临更大的资源环境问题。盐城、南通与连云港在这个主成分上排名也靠后。苏州在第一、第二主成分上排名第一,但是在与人口有关的第三主成分上排名靠后,说明苏州在其经济发展保持领先的前提下,要重视人口问题对其区域可持续发展能力的制约。

5.结论及展望

(1)利用主成分分析法,可以很方便地使用统计年鉴或其他区域统计资料等现有的量化数据,定量评价区域可持续发展能力。该方法将分析指标由多个降维综合为少数几个主成分,并把分析指标转化为描述区域可持续发展能力的综合指数。本文实例验证了其分析结果能够客观地反映区域的发展现状,可为决策管理部门制定发展方案提供理论依据。

(2)江苏各个地市在区域可持续发展方面各自面临的问题有所不同,提高其区域的可持续发展水平,应分区域有所针对,有所侧重。

(3)江苏省区域可持续发展空间差异明显。其中经济发展的水平是影响区域可持续发展的关键因素。如何提高经济实力,缩小空间差异,同时兼顾资源的合理利用与环境保护,应是今后制定江苏区域可持续发展实施方案的主要内容。

(4)本文虽然对江苏省区域可持续发展能力进行了评价并对其可持续发展的空间差异进行了分析,但是如何缩小区域发展差异、引导生产要素跨区域合理流动、探讨实现区域协调发展的政策机制等等仍是今后需要进一步研究的课题。

基金项目:东南大学SRTP(大学生科研创新计划)重点项目,项目编号:064220010。

参考文献:

[1] 贾若祥,刘毅.中国区域可持续发展状态及类型划分[J].地理研究,2003,22(5):609-617.

[2] 王好芳,董增川,左仲国.区域复合系统可持续发展指标体系及其评价方法[J].河海大学学报(自然科学版),2003,31,(2):212-215.

[3] 程晓民,叶正波,孟繁琴.区域可持续发展评估指标及指标体系构建[J].佳木斯大学学报(自然科学版),2004,22,(1):141.

[4] 高志刚.新疆区域可持续发展评价指标体系构建与测度方法研究[J].新疆社会科学,2004:27-31.

[5] 李志强,周丽琴.基于区域可持续发展的指标体系构建研究[J].当代财经,2006,5:126-128.

[6] 崔立瑶,刘忠.区域工业发展水平评价方法研究[J].四川大学学报(自然科学版),2006,43,(1):89-93.

[7] 陈平雁,黄浙明.SPSS10.0统计软件应用教程[M].人民军医出版社.2002.

[8] 姚晓东,曲福田,肖屹.江苏区域可持续发展空间差异分析[J].南京社会科学,2008,9:140-146.

统计学地域分析篇(6)

中图分类号:O13;F224 文献识别码:A 文章编号:1001-828X(2016)030-000-01

引言

数学学科重视逻辑思维能力,具有高度的抽象性,被广泛应用于社会生活的各个方面,如工程学、经济学等等。数学学科中的统计方法对经济学具有重要意义,对于现代企业来说,经济上决策的制定实施都需要应用数学的统计方法。因此,应当对数学统计在现代经济与管理领域的应用进行具体分析,以帮助企业提高经营效率,从而促进我国经济的发展。

一、数学统计法对于现代经济与管理领域的意义

1.解决复杂问题

现代经济和管理领域问题需要严密精确的计算,而数学统计最大的特c是逻辑缜密。把数学统计的方法应用于现代经济和管理领域,可以有效解决复杂问题。数学方法和经济学和管理领域密切相关,衍生出数理经济学、产权经济学等多门专业学科,说明统计方法在现代经济中已经得到了广泛应用[1]。

2.进行科学决策

企业对经济管理领域活动进行评估,需要从定性分析发展为定量分析,这一分析过程需要应用数学统计的方法。在制定决策时,企业应用数学统计方法,来进行精确的分析决策,可以有效提高企业决议的科学性,避免造成资金财力的损失。在决策之后,企业对自身的发展状况有了准确认识,可以进一步提出发展规划,促进企业蓬勃发展。

3.分析现论

数学统计方法是分析经济管理理论的重要工具。经济学的数据比较繁杂,把统计方法和现代经济管理理论相结合,可以化难为易,解决深奥的数学问题。近年来,人们尝试用统计方法进行数量关系分析,对质和量的判定都精准无误,为分析理论提供了非常有效的渠道和途径。

4.指导经营活动

事物的发展会经历一个从量变到质变的过程,经济与管理领域的问题也不例外。因此,经济与管理领域问题中的定性分析和定量分析具有重要意义。数学统计方法通过数量关系分析经济要素之间的关系,对经济理论进行分析之后,企业制定相应的发展策略,指导经营活动。

二、数学统计法在现代经济与管理领域的应用问题

1.我国市场经济体系存在弊端

运用数学统计的方法来解决经济与管理领域问题,有几个具体步骤。首先,要取出数学变量,建立相关模型。模型的建立需要对具体经济现象进行分析,同时要遵循相应的经济理论[2]。企业在经济运行过程中,需要建立宏观的经济模型,这就要求数学统计法对宏观的运行机制进行分析。只有保证宏观经济运行机制描述的客观性,以及宏观经济行为分析的科学性,才能确保数学统计法的顺利实施。但是目前我国的社会主义市场积极体系还不完善,许多基础的理论问题没有得到解决,导致数学方法无法在经济学领域中有效应用。

2.目前数据统计水平相对较低

数据对事物的描述具有重要作用,而经济统计数据指的是对经济事物和与经济有关的对象进行描述。经济统计数据的准确与否将直接影响到分析经济管理问题的结果。数据统计法的对象便是数据,如果经济统计数据出现了问题,数据统计法也将失去效用。目前我国数据统计水平相对较低,可用数据口径不一,无法整合到一起满足解决问题的需要。随着我国经济的不断发展,经济数据越来越繁杂,整理工作越来越困难,极大影响了我国的数据统计水平。

3.对数学统计的认识存在问题

数学统计方法的目的是化难为易,高效地解决经济与管理领域问题。在使用过程中,要注意方法使用的科学性和合理性。但是在当下企业,一些经济分析师为了炫耀自己的才华,盲目使用数学统计方法,认为只有应用这种方法才能提升工作水平。这种认识是错误的,极不利于企业的良性发展[3]。部分分析人员没有掌握数学统计方法的基本原理,在解决问题时难免出现纰漏,造成经济事故。

三、数学统计法在现代经济与管理领域的应用策略

1.健全社会主义市场经济体系

就上文分析的具体问题,将数学统计法应用于现代经济和管理领域,首先应当健全我国的社会主义市场经济体系。国家应该挖掘社会主义市场经济的发展规律,优化产业结构,使更多企业加入到市场的良性竞争中,提升自己的竞争实力[4]。企业在经济管理领域应用数学统计法的过程中,应当总结市场经济的发展经验,完善相关理论,从而进行科学分析,制定相应的发展对策。现代企业在良性竞争中发展,反之又能促进社会主义市场经济体系的完善。

2.建立经济数据网络收集平台

经济数据是进行数据统计的重要因素,只有保证经济数据的科学可靠,数据收集的及时有效,数据范围的广泛完备,才能使数据统计有效进行。因此,必须建立一个专门收集数据的网络平台,实现资源共享,提高数据处理的效率。我国经济数据的收集工作一般由经济部门完成,经济统计部门应该建立一套较为完备的数据统计体系,对应该收集的数据进行核实,对新兴的数据进行采集。同时,经济统计部门要加大调查力度,确保信息来源的全面性。最后,还应该调动相关部门积极配合,实现数据的顺利收集。

3.科学合理应用数学统计方法

运用数学统计方法分析经济问题,目的是把复杂的经济问题简单化,促进问题的解决。因此,企业经济部门人员应当科学合理地应用数学统计方法。经济问题的定量分析通常依据数学统计方法,但是定性分析拥有自己的专门方法。工作人员在具体的应用中要合理分析,选择最适合的方法[5]。

四、结论

数学统计在现代经济管理领域具有重要作用,企业应当重视应用数学统计法,精确分析相关问题,制定出相应的发展方案,从而促进自身的快速发展。目前数学统计法的应用还存在一些问题,政府、企业和社会如果能全力配合,寻找有效策略,就能促进我国市场经济的良好发展。

参考文献:

统计学地域分析篇(7)

中图分类号:C861 文献标志码:A 文章编号:

10085831(2014)02009906

一、引言

国务院2010年6月颁布的《国家中长期人才发展规划纲要(2010-2010年)》(以下简称纲要)中明确提出,为了加强人才工作基础性建设,推进人才工作信息化建设,建立人才信息网络和数据库,为此政府需要积极支持社会各方力量建设完善面向市场的各类专业人才数据库和人才管理系统。同时纲要还提出,在体制机制创新中必须创新人才工作机制,特别是人才评价发现机制,要求完善人才评价标准,注重靠实践和贡献评价人才,把评价人才和发现人才结合起来,坚持在实践和群众中识别人才、发现人才[1]。

本文将构建一个可操作性强的实际人才评价的应用平台,该平台可以依托各期刊数据库,自动化处理和分析文献信息,构建各领域的专题文献库,基于该库通过识别、筛选出各个研究领域的杰出专家及相互联系,解释其合作模式与规律,并对其进行科学评价。专家库的建立主要是通过采用包括h指数评价法、引文分析在内的多种文献计量方法和“中心性分析”等社会网络分析方法,利用专题文献库从各领域的核心作者中筛选出各领域专家而实现。各领域专家库的建成不仅有助于领域研究者加深对同行的了解,而且有助于科研管理部门和社会大众把握各领域研究人员分布情况和遴选相关专家。目前,我们开发的专家评价网络信息服务平台已经在武汉大学研究中心各项目组都投入了实际使用,大大提高了科研中的数据获取、处理、分析与评价的效率,并能导出各种统计图表、专家地图和专门格式的数据文件,以供更为深入分析之用,本网络平台也为一些高校的高端人才引进与评价提供了咨询服务。

二、平台构建意义

(一)对科研管理部门科技管理的决策支持

通过对专题文献库进行科研合作网络和引文网络的分析,可以发现某学科领域的核心专家群体,发现国家或机构研究人员的合作模式及规律,综合运用文献计量学、社会网络分析等指标对科学家个人,甚至扩展应用到对科研机构、学术期刊、科研项目进行学术水平的评价,从而为科研管理部门的人才引进、项目论证、科研团队组建、科技资源配置等决策提供定量依据。

(二)创新人才评价方法论体系

评价理论框架本身具有跨学科特征,所涉及的学科领域主要有决策学、管理学、政策学、行为学、经济学、计量学、工程学、社会学、心理学和逻辑学等,设计和实施科学的评价活动需要跨学科的方法,需要不同专业领域理论的整合和综合应用[2]。我们在评价过程中采取了多学科方法的融合,综合运用了以下各种方法:综合评价方法(如层次分析法、模糊综合评判法)、统计学方法、文献计量学方法(如引文分析)、社会网络分析方法(如中心性分析等)、心理测量方法等。

(三)人才评价活动的科学化、智能化

在评价过程中充分利用先进的信息技术是提高评价活动效率和准确性的必然要求,受到科学评价界的广泛关注。本网络平台要解决海量数据的获取途径和处理、分析方法的创新以及过程的自动化问题,实现各类数据库的数据自动采集、整理和目标关系矩阵的生成与运算,从而实现数据处理完全自动化,大大提高研究效率和结果的准确性,为科学研究的深入开展创造条件。

(四)开放化的网络服务平台创造社会价值

搭建基于web的评价信息服务平台能够充分利用互联网的开放性和社会性,充分整合各种类型的信息资源,更好地实现个性化信息服务(如本平台后面的专家地图功能,就是利用了谷歌公司的地图开放应用编程接口,实现了专家评价信息和地理信息的有效整合,提供了直观的评价结果可视化方案);开放化的网络服务平台,能满足广大科研工作者、科研管理部门各种信息需求,全面实现评价信息资源的社会价值和经济价值。

三、专家评价概述

科学评价(广义)是指用科学的方法对一切对象进行评价,意指“科学地评价”、“评价科学化”,覆盖的范围非常广泛,囊括了各行各业、各学科领域、各层次、各种类型的评价。评价就是根据评价的综合标准和指标体系确定被评价对象有无价值及价值的大小,价值是评价的基础[2]。本文研究的专家评价属于科研领域人才的评价,建立在心理测量学、文献计量学、社会学等基础上,对人才的人格、态度、能力、道德等内在(隐性)特质、工作成果与绩效等外部(显性)素质以及在同一社会群体的地位和影响力共三个方面进行测量,并按照评价标准进行评价的一种活动。科研人才的评价可以全面了解一个人各方面的内在素质、能力、业绩和社会影响力,对于科研管理部门的招聘、录用与选拨都有一定的参考价值。表1是我们提出的一个针对科研领域专家的一个通用人才评价体系,能根据不同的应用领域和目的对这三个方面的内部进行适当的微调。

本文将搭建一个基于文献信息的分析挖掘和专家评价系统,研究的目的是构建一个操作性强的应用平台,筛选出各个学科领域的杰出专家并进行评价和展示。哲学关于物质决定精神的观点,是心理测量的理论基础,一个人的心理特质可通过外在的行为样本进行间接测量和评价,很多都是通过与常模(群体中的相对水平,如人格特质测评)对比或者自比(个人在各种职业兴趣类型上得分的对比,如职业兴趣测评)的方式判定一个人的某种心理特质水平,无法进行直接比较[6],因此没有纳入综合排名的计算,而是另外单独提供心理测评服务,而学术道德诚信方面的评价更是难以标准化处理。因此,评价指标侧重于科研绩效(文献计量学定量指标)的评价和学术水平与地位(社会网络分析定量指标)的评价,突出可操作性,评价的指标权重确定采用了层次分析法。由于很难获得科研人员在具体某一学科的专利、自然基金项目、科技奖励等数据,因此专家评价主要采用期刊论文数据。本系统的国内数据源主要来自CNKI中国学术期刊出版总库,国外数据源主要来自美国ISI的Web of Science,而没有涉及博士、硕士学位论文、会议论文、专利、标准和其他科技成果数据库以及科技奖励和科研项目信息,这个需要以后再加以扩展。

四、系统分析与设计

(一)系统体系结构

本系统选择的开发平台是:LAMP(Linux/Apache/MYSQL/PHP) 。此开发平台具有开源、免费、跨平台、低成本的优势。这是一组常用来搭建动态网站或者服务器的开源软件,四个部分具有很高的兼容度,共同组成了一个强大的Web应用程序开发平台[7]。从使用的广泛性看,互联网信息服务提供者大量采用了LAMP的开发平台,比如著名的Google、FaceBook、维基百科以及大量的开放社区系统等。

表1 专家评价指标体系

(二)系统模型

整个系统主要包括从期刊数据源采集、整理、入库,到文献分析挖掘、专家筛选与管理、专家评价、专家关系挖掘与展示等各种分析结果导出,流程非常复杂,中间还涉及到大量系统与用户的交互环节,因此系统的流程设计必须充分考虑用户体验,部分交互环节采用了AJAX技术实现,做到按需加载数据,简洁高效,同时基于web信息构建原则,系统还具备了清晰的导航、标识和检索系统。系统流程模型如图2所示。

图2 系统模型

(三)数据库设计

本项目数据库的设计综合考虑了数据库存储优化和查询效率优化两方面的需求,对数据库的关系表结构进行了相应的优化处理。比如优化查询语句、试验联接、并、子查询等寻找最佳查询语句,文本检索时为了性能考虑少用LIKE关键词通配符匹配,而考虑采用全文本搜索(FULLTEXT)。为经常检索的表字段建立合适的索引,表结构设计选择正确的数据类型等[9]。后台数据库的设计采用免费、开源数据库管理系统MYSQL,并采用可视化的管理工具Navicat for MySQL实现数据库的开发与管理。系统包括以下核心关系表:管理账户表、评价指标表、期刊表、论文表、主题词表、关键词表、共词表、专家表、作者对表等。

(四)系统功能设计与实现

本系统主要包括信息采集、文献信息分析与挖掘、专家库三大模块。首先通过信息采集功能完成专题文献库的自动化建立,然后利用文献分析与挖掘模块从专题文献库分析、抽取出该领域的专家信息,并构建专家库。专家库采用了专家网络(将专家库中的专家按照其合作或潜在合作关系组成一个相互链接的专家网络,就是一个相互链接的专家页面集合)、专家地图(以Google地图作为媒介的方式可视化呈现专家信息、区域分布与相互联系)和专家排行榜(综合排行榜和各单项指标排行榜)三种形式展示丰富的专家信息。为了便于阐述系统设计与实现原理,本文采用测试数据集演示系统功能界面。

1.信息采集

信息采集功能主要完成以各文献数据库(目前,本系统的数据源主要来自CNKI中国学术文献网络出版总库、ISI Web Of Knowledge,以后将逐步扩展)为数据源的自动采集、入库,并完成数据的标准化处理,自动建立各领域的专题文献库,以符合深入分析与评价的需要。首先选定特定的研究领域,构造检索式完成信息检索,通过期刊系统的数据接口将检索结果导出为txt格式的文本文件,然后按照分析需求解析并截取题录信息各字段内容存入数据库(专题文献库)。有些数据则通过web采集,识别指定数据库网址URL特征和页面文本特征,分别编制相应正则表达式集合,通过字符串截取、正则匹配抓取指定数据(各种引文、下载信息等)完成采集入库。

2.文献信息分析与挖掘

主要包括基本文献分析和高级文献分析。基本分析功能实现对某领域文献库的基本分析,让科学研究人员能从整体上把握研究领域的基本状况。主要完成基于传统的文献计量学的一些基本统计,比如论文总数、合著论文数、作者总数、合著作者人数、合作度、合作率、词频统计与分析、作者发文数分布、期刊发文分布、机构发文分布、发文时序分布等,还包括一些基本的社会网络指标(包括网络节点数、边数、平均度、网络密度、节点度分布)的统计。这些基本统计运算逻辑通过本系统的统计业务类实现了封装。统计分析结果的可视化则采用第三方绘图组件包JPGraph实现。高级文献分析模块主要是发现科研工作者的相互联系,解释其合作模式与规律。主要包括基本功能:(1)作者关键词耦合分析(潜在关系网络挖掘);(2)作者合著关系分析(外在合作关系网络挖掘);(3)作者共被引分析,用于挖掘学科共同体及其共同约定,进而分析其学术观点归纳出该学科领域的学科范式;(4)共词分析(挖掘研究热点、学科前沿领域)。几个模块的实现有很多相似之处,都是通过调用基本统计分析后生成的数据(如词频统计生成的核心关键词表、关键词、作者的共现分析生成的共词表和作者对表)生成相应的矩阵,然后调用本系统的分析业务类所封装的矩阵算法进行分析处理,得出有意义的社会变量。本模块可以将生成的各种矩阵数据(专家合作矩阵、专家潜在合作矩阵等)导出为excel格式、UCINET专用的数据语言文件(DL file)格式,可以方便地导入SPSS或UCINET,从而进行更深入的数据分析与挖掘。

3.专家库

主要实现识别并筛选指定研究领域的专家,构建各领域的人才库,并进行评价和各种分析。各领域人才库的建成有助于各领域研究者加深对同行的了解,也有助于科研管理部门和社会大众把握各领域研究人员分布情况和遴选相关领域的专家,能为各科研机构和高校的人才选拨、招聘以及项目团队组建提供定量依据。专家库需要存储以下四类信息:第一类是专家基本信息(如姓名、单位、联系方式、科研简介等);第二类是该专家的专长研究领域信息(通过系统内置主题词表结合专题文献库的词频统计分析进行抽取);第三类是该专家的合作网络揭示及其可视化呈现(科研合作网络、潜在合作关系揭示);第四类是该专家各单项指标和综合指标的得分及其排名信息。包括专家识别与筛选、专家地图、专家检索和专家评价输出4个子模块。

之一,专家识别与筛选。通过分析专题文献库(作为专家数据源),提供各种组合筛选条件(发文数、期刊级别及影响因子、被引用频次、H指数、社会网络中心性指标等)由用户定制,然后根据用户定制条件从专题文献库提取专家基本信息(如姓名、单位、研究专长领域等),并计算该专家的相关特征数据,包括发文指标(发文数、第一作者发文数、个人独著发文数)、引文指标(被引用频次、高被引论文数、H指数)、社会网络指标(度中心度、中间中心度、结构洞约束系数)等,经过评价模型运算后将和评价数据一起存入该领域专家库。专家库会按照综合排名进行列表输出,点击每一个专家条目则进入该专家主页。后期通过后台管理界面实现专家个人信息的人工添加,主要包括个人各种联系方式、成果简介等补充信息。

之二,专家地图。专家地图是专家库系统的一个用于可视化展示的功能,其基于专家库的各种数据,通过Google Maps API实现地理信息和专家信息的有效整合,实现专家相关信息的可视化展示。专家地图是通过google地图加载专家基本信息(姓名、所在机构、研究领域等)和评价信息(发文数、引用次数、度中心度等指标的原始数据及其排名),通过google地图这个媒介直观呈现本学科领域专家的地域分布,使得专家的相关信息得以可视化展示。

基于专家数据库的基本信息和各项指标原始数据,进行各项排名生成处理,然后按照预置的模板将这些信息动态生成XML文档,然后利用XMLDOM解析

相应专家各项数据,并利用循环语句在地图上添加GMarker地标即可。由于专家数目比较多,所以采用了GMarkerManager地标管理器通过导入地标数组实现批量地标数据的加载[10]。

之三,专家检索。主要包括两部分:第一部分是专家库的多途径关键字(包括按题名、作者、机构、关键词、摘要、全文等)检索,通过关键字匹配实现精确或模糊检索,输出该专家基本信息和相关文献列表;第二部分是作者合作关系网络检索与可视化呈现(作者间的合作关系和潜在关系的揭示),可以任意指定一对作者,系统可以输出他们之间的所有最短路径,包括联系他们的作者及其文献信息,这是基于图论的Dijkstra算法并作出改进后实现的[11]。专家个人主页实现了专家相关信息的深度聚合,今后将向科研社会化网络服务方向发展,包括:个人基本信息、研究主题及时间分布、在线沟通(嵌入及时通讯和电子邮件工具)、各单项指标数据及其排名、二度合作人脉网络(每一个专家姓名链接到其个人主页,形成一个相互链接的合作社会网络)、潜在合作关系挖掘与展示(通过对因时空障碍而无直接联系的专家之间进行关键词耦合分析[12],发现共同的研究兴趣及耦合度,以及相互之间共同的合作者)、相关文献列表(通过机构、关键词、期刊、标题等字段链接到对应专题文献库的详细信息)。

之四,专家评价输出。基于构建的各领域专家库实现专家的综合评价与单项指标评价,各种评价结果便于科研管理部门和相关领域研究者全面了解和把握本领域的专家绩效、学术水平和影响力。本模块包括指标库管理、评价模型运算等功能。指标库管理包括专家评价指标库的增、删、改、查等基本功能。其中评价指标库的权重生成采用了层次分析法(AHP)实现,层次分析法的算法封装在了系统的评价业务类中。评价模型运算通过调用评价指标库的指标及其权重数据,同时调用评价业务类的评价算法实现各一级指标排序和综合排序,并自动生成各种评价报表,包括了各个二级指标的单项排名和综合排名。

五、结论

本文搭建了一个基于科学文献的信息分析与专家评价网络信息服务平台,目的是通过该平台满足科研工作者和科研管理部门关于领域专家的各种信息需求。平台依托各期刊数据库,实现了自动化的文献信息处理和智能化的分析挖掘,能对目标研究领域的学科知识结构进行一定程度的揭示,并运用社会网络分析方法对科研工作者的(潜在)合作关系的网络结构进行挖掘,以发现核心作者群体及其相互联系。同时,本文提出了一个实用的科研人才评价体系,综合运用文献计量学、社会网络分析的指标进行专家评价及排名,并通过Google Maps API实现了专家的地域分布及相关评价信息的可视化展示。本平台现已得到部分科研领域用户的使用及反馈,目前在支持的数据源(由于数据源的原因尚无法进行引文网络的分析挖掘)及其采集的自动化和准确性方面尚有待提高,对专家绩效指标仅仅支持其科研论文数据的采集和分析,今后将对专利、标准、报告等绩效指标的采集处理进行扩展。而关于专家个体内在特质的各种心理特质、道德水准的衡量,因为采用的测量及评价方法属于间接测量和心理映射,我们并没有纳入综合排名计算中,而是作为单独的模块提供,作为用户单位在择人、用人方面测试评价使用。参考文献:

[1]中央人才工作协调小组办公室,中共中央组织部人才工作局.国家中长期人才发展规划纲要(2010-2020年)学习辅导百问[M].北京:党建读物出版社,2010:8.

[2]邱均平,文庭孝.评价学理论・方法・实践[M].北京:科学出版社,2010:5.

[3]赵基明,邱均平.一种新的科学计量指标――h指数及其应用述评[J].中国科学基金,2008(1):23-32.

[4]宋歌.社会网络分析在引文评价中的应用研究[J].图书情报工作,2010,54(14):16-19.

[5]朱天,吴斌,王柏.科研合作网络的重要作者发现[J].数字图书馆论坛,2010,75(8):29-35.

[6] 刘远我.人才测评――方法与应用[M].北京:电子工业出版社,2008.

[7] JASON W, GILMORE W J.Beginning PHP and MySQL(Third Edition)[M].朱涛江,译.北京:人民邮

电出版社,2009.

[8] 叶新伟.PHP+Ajax Web2.0编程技术与项目开发大全[M].北京:电子工业出版社,2008.

[9]BEN FORTA. MySQL Crash Course[M]. Beijing:Posts&Telecom,2009.

[10]江宽,龚小鹏.程序天下Google API开发详解:Google Maps与Google Earth双剑合璧[M].北京:电子工业出版社,2008:1.

[11]周益民,孙世新,田玲. 一种实用的所有点对之间最短路径并行算法[J].计算机应用,2005,25(12):2911-2934.

[12]刘志辉,张志强.作者关键词耦合分析方法及实证研究[J].情报学报,2010,29(2):268-275.

Research on Web-based Information Service Platform of Expert Evaluation

DU Hui

(School of Information Management, Wuhan University, Wuhan 430072, P. R. China)

统计学地域分析篇(8)

中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)26-6411-03

Domain Model Construction of Network Teaching Evaluation System in Higher Vocational Colleges Based on UML

HU Shi-gang, LI Ze

(Academy of Information Technology, Hubei Polytechnic Institute, Xiaogan 432000, China)

Abstract: UML(Unified Modeling Language) is an important application of object-oriented technology, and also a useful analyzing and designing tool toward objects in modern software engineering. The domain model is used to describe the business in the field of things or concepts, with state and behavior characteristics. After introducing UML’s essential content, the paper describes how to use UML to design domain model of Network Teaching Evaluation System in Higher Vocational Colleges.

Key words: UML; domain model; network teaching evaluation system; OOA&OOD; Java

软件系统中的模型代表真实世界中的实体。在软件开发过程中,领域模型聚焦于分析业务领域本身,从中挖掘重要的业务领域概念,同时理清业务领域概念关系。它是真实世界中实体的软件抽象,用于描述业务领域中的事物或概念,具有状态和行为特征。

领域模型是业务分析模型的一部分,用于帮助领域专家和开发人员理解或模拟问题域中的真实实体,以使之更加贴近应用系统中的业务实体。由此可见,领域模型的建立是软件分析与设计过程中的重要组成部分。

UML的出现统一了面向对象建模的基本概念,术语和图示符号,描述了建模过程所必须遵循的基本步骤,为学者和软件工程师之间研究交流提供了共同语言。UML是一种定义良好、易于表达、功能强大且普遍适用的建模语言,集软件研究领域的许多新思想、新方法、新技术于一体,强有力地支持软件开发的全过程。

UML采用图形表示法,共定义了5类模型图――用例图(Use Case)、静态图(Static Diagram)、行为图(Behavior Diagram)、交互图(Interactive Diagram)和 实现图(Implementation Diagram),为人们提供了从不同角度去观察和展示系统的各种特征的一种标准方法。

1 网络评教系统领域模型的UML建模过程

1.1 理解需求

通过与学校质量管理人员、教学院系管理员、学生用户和教师用户等的详细沟通与交流,在明确系统功能和熟悉业务领域后,本文综合分析教学质量管理业务领域知识,从而详细描述软件功能需求,形成软件需求分析报告,构建软件需求可行方案,为软件设计工作提供指南和依据。本文明确了系统功能目标和性能目标:

1) 保证系统的安全性。为保证数据的一致性和减少丢失,本系统需要定义清晰的用户角色和严格的控制访问权限来对用户操作和系统维护进行控制。

2) 提高系统的可靠性。要保证系统在运行过程中尽量不发生软件或硬件故障,在发生误操作时,系统应具有较强容错能力,减少误操作造成数据信息被破坏。

3) 保持系统的可扩展性。在进行系统设计时,需要保持系统具备良好的可扩展性,为系统的日后扩展做好准备,使得学校质量管理体系其余部分的业务逻辑模块能够顺利加入本系统。

1.2 分析

分析的任务是找出系统的所有需求并加以描述,同时建立模型,以定义系统中的关键领域模型类。分析与需求捕获相比,最主要的差别在于它可以使用开发人员的语言来描述。

1) 需求分析

首先定义用例,确定系统的功能需求。通过分析,本系统的角色有Admin(超级管理员)、DeptAdmin(院系管理员)、Teacher(教师)、Student(学生)。在此基础上确认的系统用例有评价标准管理、班级管理、课程管理、教师管理、专业管理、评价时间管理、教师查看评价结果、学生评价教学质量、提出教学建议。其用例图(Use Cases)描述,如图1所表示。

2) 特定领域分析

分析阶段的另一项工作是特定领域分析,以列出系统中的特定领域类。我们可以通过阅读规格说明、用例以及寻找系统处理的“概念”来进行特定领域分析,也可以通过用户和领域专家的讨论,以识别出要处理的所有关键类及它们的相互关系。这里的特定领域是指具体的教学质量评价领域,而不是整个系统领域。需要强调的是,这一阶段对特定领域类的描述具有一定的素描性质,也就是说特定领域类的操作和属性不一定与最终实现时的定义一致。因为此时还没有涉及到系统功能的具体实现,不可能准确、完整地定义它们。有一些操作需要在设计阶段细化时才能确定。在本实例中,可以确定网络评教系统中的特定领域类为教师、学生、班级、课程、专业、院系部门、班级教学安排、学期、评价标准和评价结果等。

1.3 网络评教系统的设计

设计阶段的任务是对分析阶段的成果进一步细化,细化分析类的方法和相互之间关系并增加新类以处理诸如数据库、用户接口、设备等技术领域的问题,细化各子系统的接口和相互交互,得到实现时可以使用的设计模型。设计的目的是指定一个可行的解决方案,以便能很容易地转变成为编程代码。设计阶段可以分为两个部分:第一部分是体系结构设计(Architecture Design),这是~个从较高层次进行的设计,用来定义包(子系统),描述包之间的依赖性及通信机制。很自然,目的是要设计一个清晰简单的体系结构,有很少的依赖性,而且尽可能避免双向依赖。

第二部分是详细设计(Detailed Design),在此阶段,所有的类都详尽地进行描述,给编写代码的程序员一个清晰的规范说明。UML中的动态模型用来说明类的对象如何在特定的情况下做出相应的表现。

1) 体系结构设计

SSH框架技术可将Struts、Spring和Hibernate三个开源的JavaEE框架整合,并应用到整个Web应用系统中,它利用这三个框架各自的目标领域与优势,将它们无缝地整合起来应用到项目开发中,这种系统整体框架技术目前在业界比较流行。

系统中引入SSH框架技术后,其中Struts框架管理表现层,维护用户交互、JSP页面跳转、表单以及数据验证;Spring框架管理业务逻辑层,可实现组件或层间的松耦合联系,有利于日后系统的维护和扩展;Hibernate框架管理数据持久层,提供HQL语句供开发人员完成各种业务逻辑操作。同时,整合框架也是轻量级的,不会给系统带来速度方面影响,也不会占用很多资源系统。如此,系统中的各层由专门的框架来维护,可利用各框架的功能和优点,完成系统中的基础性操作更有效率,SSH框架已将底层组件封装,减轻了代码量,可使开发工作快速进入应用逻辑部分。

本文将SSH框架技术运用到系统架构建设中,是因为它能够保证系统总体框架的稳定性,降低各层间的耦合度,提高系统业务处理效率,以及扩展性、可维护性和可靠性。采用SSH框架的系统架构如图2所示。

2) 详细设计

详细设计的目的是通过创建新的类图、状态图和动态图,描述新的技术类,并扩展和细化分析阶段所描述的事务对象类。这些图在分析阶段也曾使用过,不过在详细设计阶段,对它们定义得更加详细,具有了更高的技术水平。

① 类图(Class Diagram)

类图表示不同的实体(人、事物和数据)如何彼此相关,换句话说,它显示了系统的静态结构类在类图上使用包含三个部分的矩形来描述。最上面的部分显示类的名称,中间部分包含类的属性,最下面的部分包含类的方法。根据经验,几乎每个开发人员都知道这个类图是什么,但是我发现大多数程序员都不能正确地描述类的关系。

② 顺序图(Sequence Diagram)

顺序图是一个交互图,它强调消息(Message)的时间顺序。一个顺序图描述一组对象以及由这些对象发送和接收的消息。这些对象通常是命名或匿名的类的实例,但也可以代表其它事物的实例,比如合作、构件和节点。学生对教学质量的评价过程的顺序图如图4所示。

③ 部署图((Deployment Diagram)。

部署图显示系统运行时进行处理的节点和在节点上活动的构件的配置。部署图用来对系统的静态部署视图建摸。多数情况下,这包括系统运行于其上的硬件的拓扑结构建摸。部署图实质上是针对系统节点的类图。如图5所示。

2 网络评教系统功能实现

2.1 表现层Struts实现

湖北职业技术学院网络评教系统使用Struts框架将表现层与业务逻辑层分离,用户请求访问时,系统通过控制器ActionServlet接收用户请求,查询Struts-config.xml配置文件找到相应的Action控制器来处理请求;Action控制器将表单数据转换成领域对象,然后把领域对象交给业务逻辑层服务组件来处理,Action控制器接收服务组件返回的数据信息并将其显示在相应的视图上,或者跳转到另一个JSP页面。

2.2 业务逻辑层Spring实现

采用Spring框架后,业务逻辑层负责接收表现层的用户请求,是整个系统的业务处理核心,控制业务逻辑的流程,并操作持久层存取数据信息。业务服务接口、接口实现类和领域对象共同组成业务逻辑层。表现层访问业务服务接口的各种方法,但接口实现类来完成具体实施。创建教学质量评价记录时,业务逻辑层接收表现层提交的业务数据,执行完整的功能流程,并完成数据持久化操作。

2.3 持久层Hibernate实现

采用Hibernate框架后,系统数据存取以数据持久层为中心。DAO接口、DAO接口实现类和实体共同组成持久层。业务持久化操作由DAO接口声明,但其具体实现由DAO接口实现类来完成,持久化操作代码在DAO接口实现类中编写。教学质量评价功能的DAO组件,接收从Spring服务组件传递的教学质量评价领域对象(Domain model),并利用Hibernate框架提供的持久化操作方法来保存质量评价领域对象。

3 系统配置与测试

编码结束后,UML的使用还没有停止。例如,可以检验用例是否在已完成的应用程序中得到很好的支持。系统的配置是指将系统提交给用户,包括所有的文档。文档中应包括系统的物理配置图,包括构件图和配置图。

4 总结

本文通过对高职院校网络评教系统的分析和设计,介绍了UML的实际建模过程。通过与教师、学生以及教学质量管理人员的沟通与交流,本文从教学质量管理领域建模入手,分析并确定了本系统中的领域模型类及其属性和方法,找出了它们之间的关系,深入理解系统要解决的根本问题,画出UML用例图以及网页形式的需求草图,设计系统业务流程图,描述技术上的解决方案,编程实现系统,测试和配置系统。

参考文献:

[1] 程学生,王聪.基于领域模型的需求获取方法[J].计算机应用研究,2006(12):74-76.

统计学地域分析篇(9)

【关键词】

统计学; 社会经济; 关系

1 统计学在社会经济中的作用

统计学在社会经济研究中的重要作用主要表现在以下几个方面:

1.1 为收集经济数据提供必要的方法

现代经济学的研究必须在定性分析的基础上,建立经济数量模型,开展定量分析。因此首先有必要收集必要的经济数据。经济统计学给出了各种经济统计指标的科学定义和计算口径,给出了具体收集各种指标的方法和途径。离开了统计学的支撑,就不可能得到充分的能够真实反映客观世界的经济数据。

1.2 为总结和提炼客观经济现象的数量变动规律提供方法

社会经济的个别现象受多种复杂因素的影响,其中包括了相当多的偶然因素,只有通过统计的大量观察法,才能从偶然中发现必然,总结出现象变动的数量特征。微观经济学中著名的恩格尔曲线(Engel’s curve)与宏观经济学中的菲利普斯曲线(Phillips curve) ,就是通过统计观察发现数量特征的典型事例。

1.3 为检验经济学理论的真实性和完善程度提供方法论基础

任何经济理论都只是相对真理,只能在特定的历史阶段较好地解释某些经济现实。因此需要人们利用经济数据去检验这些理论是否能够与实际情况相符。这种分析被称为实证分析。实证分析所获得的新知识常常为实质性学科的研究开辟新的领域,例如消费函数。

2 社会经济统计研究成果的评价标准

美国著名统计学家Tukey1962年发表了题为“数据分析的未来”的长篇文章,论及对数理统计研究的评价标准。对分析数据工作有无直接作用。是否发明了新的统计方法或者将一些统计方法组合应用于新的领域。对分析数据工作有无间接作用。虽然未发明新的统计方法,但就学科的理论框架进行了有益的探讨,为学科的发展、揭示新的方向或思路,或开辟新的研究分支和领域。如费歇在1921年发表的题为《理论统计学的数学基础》和1925年发表的题为《点估计理论》的文章,虽则并末提出新的统计方法,但其中所提出的概念和理论框架,主导了以后许多年的数理统计学的研究思路影响延续至今。成果的数学水平。解决或推进有统计学背景的数学问题方面有独到和创新之处。

对于社会经济统计研究来说,衡量社会经济统计研究成果也可以有类似的三个标准:

第一,经济学标准。通过对经济数据的分析,发现了新的经济规律,或者是很好地论证和说明了某种经济现象发展的趋势和数量变动规律。

第二,对经济数据分析工作的直接作用。提出了新的经济指标及其核算方法、发明了新的分析方法或者是将产生于其他领域的方法成功地应用于经济社会领域,或者是巧妙地结合运用已有的方法等等。

第三,对经济数据分析工作的间接作用。虽然未提出新的方法,但就学科的理论框架进行有益的探讨,为学科的发展、揭示新的方向或思路,或开辟新的研究分支和领域。关于大统计学科的讨论等等,经济统计领域大国民核算体系的提出等等也属于类似的工作。

长期以来,我国的数理统计学界,采用发展纯数学的方法去发展统计学,特别是在成果评价方面,重理论轻实用。这种“政策导向”使许多数理统计学者对实用问题不感兴趣。研究内容流于空疏,无补于实际。

我国的经济统计学界没有很好地将现代统计方法应用于社会经济领域,去得到一些非统计专业的经济学者难以得到的很有参考价值的定量分析结论。因此,难于获得社会的支持。使学科发展的“良性循环”无法形成。相当一部分经济统计学论文的统计特色不够鲜明,不会江统计学深入运用到社会经济领域。与经济学其他学科的研究没有明显的区别。个别论文甚至只有文字的论述或数学公式的推导,而很少统计方法与统计数据的应用。

3 统计学在社会经济领域中的正确运用

3.1 坚持统计学的正确方向

对社会经济进行研究时,需要应用通用的统计方法,但更重要的是要密切结合有关经济理论,建立和完善以有关经济现象为对象的特定的统计方法。因此,搞经济统计时不能盲目照搬照抄西方经济理论,而应该从我国国情出发,要密切结合社会主义市场经济发展需要,将研究适合经济领域特有的统计方法作为研究的重点,同时积极参与重大社会经济问题的研究,发挥经济统计学的作用。

3.2 经济研究最重要的是经济思想而不是数学公式

不能以数学水平的高低来衡量经济学家的水平,也不能以运用数学的多少和它的难易程度来作为评判经济学论文质量高低的标准。我们在对社会经济进行深入研究时,不能将简单问题复杂化,不注意问题的实质和方法的适用条件,片面追求复杂的方法和复杂的模型。我们应该找的最佳的方法和手段来解决复杂问题。

3.3 重视社会经济思想的运用

在肯定数学在经济学研究中的重要作用的同时,需要指出:经济学不是数学。在经济研究中,经济思想是最重要的,数学和计量方法只是体现和执行经济想法的工具。经济学的主要领域是靠经济学知识而不是数学取胜。

【参考文献】

[1]陈希孺:数理统计学及其与社会经济统计学的关系[J].中国统计,2001年第7期。

统计学地域分析篇(10)

中图分类号:S11+7 文献标识码:A 文章编号:0439-8114(2013)19-4638-04

1 白洋淀概况

1.2 白洋淀气候

1.3 白洋淀水域面积退化现状

2 研究方法与数据的收集、处理

2.1 研究方法的选取

所谓灰色系统是指既含已知信息又含未知信息或非确知信息的系统。灰色系统理论着重研究概率统计、模糊数学难以解决的“小样本,贫信息”不确定性问题,着重研究“外延明确,内涵不明确”的对象[9]。在现有系统分析的量化方法中,如回归分析、方差分析、指数分析等,一般要求有大量的样本,较好的分布规律;对于多因素、时间序列较短、统计数据缺少、不具备典型分布的情况,灰色关联度分析法恰好克服了回归分析、方差分析等方法的缺陷,是比较合适的分析方法。

王超等[10]采用灰色关联度分析法,很好地定量化确定了安固里淖湿地退化因子的大小,找到了安固里淖湿地退化的主要因子和次要因子。导致白洋淀湿地面积退化的因素众多,在这众多因素中有的因素已知,有的因素未知,因此可将白洋淀湿地生态系统视作一个退化信息已知,但是导致其退化信息不明确的灰色系统,采用灰色关联度分析法对白洋淀湿地退化影响因素进行分析。

湿地水域面积的变化情况是研究湿地退化与恢复的主要指标,而社会、经济和自然因素与湿地水域面积的变化密切相关。因此以白洋淀2000、2005、2010年水域面积作为母序列,以大清河流域年降水总量、年平均气温、安新县国内生产总值、总播种面积、水产品产量、地下水开采量等11项自然、经济和社会因素作为子序列进行灰色关联度分析。

2.2 计算方法

2.3 数据资料获取和处理

湿地生态系统并不是一个简单的孤立系统,其变迁过程与周围自然、经济和社会因素的影响息息相关。

3 结果与分析

3.1 关联度计算结果

根据公式(3)、(4),各子序列的关联度和排序如表2所示。

3.2 白洋淀水域面积变化影响因素分析

4 小结与讨论

虽然河北省多次跨流域调水补给白洋淀,但是根据中国环境卫星2000、2005、2010年影像数据显示,白洋淀水域面积减少趋势依然明显。

影响白洋淀湿地水域面积变化的因素包括自然因素和社会经济因素两大方面,通过灰色关联度分析法对11项自然和社会经济因素进行分析后,确定社会经济因素是白洋淀湿地水域面积变化的主要影响因素。而在众多社会经济因素中,大规模开采地下水是造成白洋淀湿地水域面积减少的首要因素。

参考文献:

[1] 高彦春,王 晗,龙 笛.白洋淀流域水文条件变化和面临的生态环境问题[J].资源科学,2009,31(9):1506-1513.

[2] 田 冰,张义文,魏立涛.河北省湿地现状及其可持续利用[J].河北师范大学学报(自然科学版),2007,31(1):130-133.

[3] 肖 辉,陈翠英,魏 青,等.河北省湿地现状、问题及对立法的影响[J].河北林业科技,2006(2):33-34.

[4] 庄长伟,欧阳志云,徐卫华,等.近33年白洋淀景观动态变化[J].生态学报,2011,31(3):839-848.

[5] 刘春兰.白洋淀湿地退化与生态恢复研究[D].石家庄:河北师范大学,2004.

[6] 姜 海.白洋淀区域环境问题研究[D].天津:天津大学,2003.

[7] 刘春兰,谢高地,肖 玉.气候变化对白洋淀湿地的影响[J].长江流域资源与环境,2007,16(2):245-250.

[8] 弓 冉.白洋淀水量变化原因分析[J].地理学与国土研究,1993, 9(2):36-40.

[9] 刘思峰.灰色系统理论及其应用[M].北京:科学出版社, 2004.

[10] 王 超,高红真,戴 福,等.安固里淖湿地退化机制研究[J].内蒙古农业大学学报(自然科学版),2010,31(2):116-119.

[11] 刘文具.保定市地下水位持续下降成因及对策研究[J].地下水,2007,9(3):94-95.

[12] 张建立,王东胜,潘世兵.基于地下水模拟的保定地区生态需水量计算[J].地球科学——中国地质大学学报,2012,37(2):370-374.

[13] 吕晨旭,贾绍凤,季志恒.近30年来白洋淀流域平原区地下水位动态变化及原因分析[J].南水北调与水利科技,2010,8(1):65-68.

[14] 王长燕,赵景波,李小燕.华北地区气候暖干化的农业适应性对策研究[J].干旱区地理,2006,29(5):646-652.

[15] 刘 越,程伍群,尹键梅,等.白洋淀湿地生态水位及生态补水方案分析[J].河北农业大学学报,2010,33(2):107-109.

上一篇: 税务会计和管理会计 下一篇: 物流公司运输管理
相关精选
相关期刊