数据分析论文汇总十篇

时间：2023-05-24 16:48:00

数据分析论文

数据分析论文篇（1）

2数据分析模块与算法

2．1SVM算法SVM算法最初是由Vapnik等人在1995年提出的一种可训练的机器学习算法．依据统计学习理论、VC维理论和结构风险最小化理论，从一定数目的样本信息在学习能力和复杂度（对训练样本的学习程度）中找到最佳折中，以期望获得最好的推广能力（或称泛化能力）．

2．2基于SVM的医疗数据分析模块将SVM分类算法应用到医疗数据分析模块中，进行疾病预测．基于SVM的医疗数据分析模块，通过数据交换模块获取原始组数据（患病病人医疗数据和对照组病人数据）．通过特征选择过程输入到SVM分类器中进行训练，训练后可以对新的医疗数据进行分析预测．

3改进的医疗数据交换模块

3．1医疗数据交换模块在原始的医疗数据交换模块中，数据请求原语只由4条通信原语组成．由原始医疗数据分析模型的3个模块构建，其中在医疗数据分析模块与医疗数据提取模块之间的4条通信原语包括2条请求和2条应答．由于医疗数据的维度极大，属性很多，但是在预测某个疾病时，只有很少的一部分属性会对分类预测产生影响．这样的全部维度的数据都需要传输，浪费了时间，降低了数据传输效率，影响了医疗数据分析模块的算法效率．

3．2改进的医疗数据交换模块在改进的医疗数据交换模块中，在数据传输协议中增加了4条原语．在每条原语中不仅有医疗记录条数的要求，还包括对所请求医疗数据维度和属性的具体说明．医疗数据分析模块先请求一小部分全部维度的数据，对这小部分数据进行特征选择．然后医疗数据分析模块只请求特征选择出来的对预测相关的属性的剩余所有医疗数据．最后通过SVM分类算法进行训练和预测．在新的医疗数据交换模块中，大部分数据中只有小部分相关属性被传输到数据分析模块，极大地减少了数据传输总量，也同时增加了分析模块预测算法的效率．

数据分析论文篇（2）

数据的采集是指利用传感器、社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化以及非结构化的海量数据，这是一切数据分析的基础。数据的采集需要解决分布式高速高可靠数据的采集、高速数据全映像等数据收集技术。还要设计质量评估模型，开发数据质量技术。而数据采集一般分为大数据智能感知层：主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统，实现对海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。

1.2数据预处理

数据采集的过程本身就有会有很多数据库，但如果想达到有效分析海量数据的目的，就必将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，而且在导入基础上做一些简单的辨析、抽取、清洗等操作。

①抽取：因为我们通过各种途径获取的数据可能存在多种结构和类型，而数据抽取过程可以有效地将这些复杂的数据转换为单一的结构或者便于处理的类型。以达到快速分析处理的目的。

②清洗：对于海量数据而言，数据所处的价值层次不一样，就必然存在由于价值低而导致开发成本偏大的数据，还有与数据分析毫无关系的数据，而另一些数据则是完全错误的干扰项，所以对数据通过过滤“去噪”从而提取出有效数据是十分重要的步骤。

1.3数据的存储与管理

当我们采集数据完成后，就需要将其存储起来统一管理，主要途径就是建立相应的数据库，进行统一管理和调用。在此基础上，需要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。还需开发可靠的分布式文件系统（DFS）、能效优化的存储、计算融入存储、数据的去冗余及高效低成本的大数据存储技术；以及分布式非关系型大数据管理与处理技术、异构数据的数据融合技术、数据组织技术、研究大数据建模技术、索引、移动、备份、复制、可视化技术。

1.4数据的统计分析

一般情况下，统计与分析主要就是利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

1.5数据分析与挖掘

所谓数据挖掘是指从数据库中的大量不完全的、有噪声的、模糊的、随机的实际应用数据中，揭示出隐含的、先前未知的并有潜在价值的信息的过程。与前面统计和分析过程不同的是，数据挖掘一般不会有预先设计好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型的算法有用于聚类的K-means、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

2数据分析的8个层次

2.1标准化报告（StandardReports）

标准化报告作为数据分析的第一个层次，要求相对较低，主要是借助相应的统计工具对数据进行归纳总结，得出包含主要参数指标的标准化报告。类似于一个销售企业每月或者每季度的财务报表。

2.2即席查询（AdHocReports）

用户可以通过自己的需求，灵活地选择查询条件，系统就能够根据用户的需求选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的，而即席查询所有的查询条件都是用户自己定义的。在面向高层的数据分析软件中，用户随意添加想要查询的指标按钮再加上相应的限制条件，就可以立即生成可视化的统计结果，不仅一目了然，而且没有任何操作难度。

2.3多维分析（QueryDrilldown）

多维分析是指对具有多个维度和指标所组成的数据模型进行的可视化分析手段的统称，常用的分析方式包括：下钻、上卷、切片（切块）、旋转等各种分析操作。以便剖析数据，使分析者、决策者能从多个角度多个侧面观察数据，从而深入了解包含在数据中的信息和内涵。上卷是在数据立方体中执行聚集操作，通过在维级别中上升或通过消除某个或某些维来观察更概括的数据。上卷的另外一种情况是通过消除一个或者多个维来观察更加概括的数据。下钻是在维级别中下降或者通过引入某个或者某些维来更细致地观察数据。切片是在给定的数据立方体一个维上进行的选择操作，切片的结果是得到了一个二维的平面数据（切块是在给定的数据立方体的两个或者多个维上进行选择操作，而切块的结果是得到了一个子立方块）。转轴相对比较简单，就是改变维的方向。

2.4仪表盘与模拟分析(Alerts)

仪表盘用于监控一些关键指标。模拟分析是由操作者动态地加以调节的控件（如滑动块、可调旋钮、选择框等），来控制管理决策模型行为某些参数。当操作者通过控制面板对模型中的参数值或变量值进行调节时，图形中的曲线、柱形组或分析指标等要素就会发生相应的运动，而这种运动正好反映了该参数的变化对模型行为的影响，如果这种变动引起了模型中最优解或其他关键数字的变化，能够随时将关于这种变化的结论正确地显示出来。

2.5统计分析（StatisticallyAnalysis）

我们知道概率论是数理统计的基础，数理统计是在其基础上研究随机变量，并应用概率论的知识做出合理的估计、推断与预测。概率论中讨论的各种分布在数理统计中作为统计模型来分析处理带有随机误差的数据。典型的数理统计方法有参数估计、假设检验和回归分析。而统计分析主要是对用户所关注的问题进行推断、预测和控制的分析方法。具体可以分为以下三方面：

①描述统计：主要是集中趋势、离散程度、分布形状等，统计图（方图、箱线图、散点图等）；

②数据的分类汇总；

③基础统计分析：方差分析、时间序列分析、相关和回归分析、（主成分）因子分析等统计分析方法。

2.6预测（Forecasting）

在统计分析和数据挖掘领域，对未来的预测已经有了很多数学模型以及解决具体问题的相关算法。其核心思想便是从历史数据中找出数据的发展模式，然后以这些模式为支点，就可以对未来进行预测。

2.7预测模型（PredictiveModeling）

随着数据分析学家对数据挖掘技术的不断探索，出现了很多预测模型以及与之相对应的算法，但是很难确定某个模型是最精确的，因为不同的领域，不同的条件，对应的预测模型是不一样的，所以没有统一化的最优模型，只存在有选择性的最优模型。下面介绍几种典型的预测模型。

①回归模型:回归模型可以分为一元线性回归模型和多元线性回归模型。一元线性回归模型可表示为yt=b0+b1xt+ut，该式表示变量yt和xt之间的真实关系。其中yt称作被解释变量（或相依变量、因变量），xt称作解释变量（或独立变量、自变量），ut称作随机误差项，b0称作常数项（截距项），b1称作回归系数。b0+b1xt是非随机部分，ut是随机部分。而在很多情况下，回归模型必包含两个或更多自变量才能够适应地描述经济现象各相关量之间的联系，这就是多元线性回归模型需要解决的问题，其一般形式为：Y=a+b1X1+b2X2+…+bmXm，式中X1、X2、…、Xm是这个多元回归问题的m个自变量，b1、b2、…、bm是回归方程对应于各自变量的系数，又称偏回归系数。

②贝叶斯网络：贝叶斯网络是基于概率推理的数学模型，而概率推理是通过一些产量的信息来获取其他概率信息的过程。贝叶斯网络会建立一个有向无环图和一个概率表集合，有向无环图中的每一个节点便是一个随机变量，而有向边表示随机变量间的条件依赖，条件概率表中的每一个元素对应有向无环图中唯一的节点，存储此节点对其所有直接前驱节点的条件概率。贝叶斯网络是为了解决不定性与不完整性问题而提出的，在多个领域中获得广泛应用。

③基于时间序列分析的指数平滑模型在时间序列分析中指数平滑模型是最灵活和准确的方法，在经济领域也被证明是最有效的预测模型。在不同的时间序列下，指数平滑模型可以分为简单指数平滑法、带有趋势调整的指数平滑法、带有阻尼趋势的指数平滑法、简单季节指数平滑法、带有趋势和季节调整的指数平滑法五种不复杂度的模型。

2.8最优化

（Optimization）因为优化问题往往可以带来巨额的收益，通过一系列可行的优化，可以使收益得到显著提高。所谓最优化就是从有限或者无限种可行的方案中选取最优的方案。如果可以通过简单的评判，就可以确定最优方案那是最好的。但是事实不会那么简单，所以优化技术已经发展出了一系列的理论来解决实际问题。其常用的优化技术为：

①线性规划：当目标函数与约束函数都是线性函数时，就是一个线性规划问题。而当同时满足约束函数和目标函数时，则可以认为是最优解。

②整数规划：要求决策变量取整数值的数学规划。

③多目标规划：指衡量一个决策优劣的标准不止一个，也就是有多目标函数。

④动态规划：将一个复杂的问题划分为多个阶段，逐段求解，最终求出全局最优解。

3用Excel实现简单的数据分析

①对于企业而言最重要的是利润，所以管理者必须要从这张表中得到最关键也最容易得到的销量和销售额以及与其相关的一些数据，通常是用最基本的数理统计结果来直观地反映该企业在某个期间的盈利情况。

②其次，我们必须要做进一步的分析。已经对整体的情况有了一定的把握，所以就可以朝着不同的方向去挖掘一些有价值的信息，为企业高层做决策提供有力的依据。对产品销售而言，客户结构能够有效地反映客户的地域分布，企业可以根据客户的来源，在未开辟客户的地域去寻找新的目标客户群。而销量结构可以直观地反映企业最大销量来自哪个地区，对销量较小的地区可以加大宣传力度或者增加销售网点来保持各地区销售均衡。还可以及时地调整销售方式来扩大市场份额，而对于销量最小的地区考虑开辟新的市场。

统计了各地区的销售总额和平均销售额以及两者的对比关系。由此可以得出地区平均购买力大小，以及各地区总销售额大小。借助图表描述，管理者可以对企业在某段期间内的销售状况有一个大概的把握，只有掌握了这些的信息，才能更细化地去研究具体的影响因素。划分等级，对于经常性大量购买的客户必须要以最优惠的价格和最好的服务让其满意，以形成一个稳定的大客户群。而对于那些少量购买的客户，也要制定出相应合适的方案来留住客户。所以，分析销售额的分布情况，可以掌握客户的购买力度而且还能及时做一些留住大客户的举措。

4用R语言实现数据多层次分析

R语言是一种自由软件编程语言与操作环境，是一套完整的数据处理、计算和制图软件系统，它是一种用来进行数据探索、统计分析和作图的解释型语言。它可以提供一些集成的统计工具，但更大量的是它提供各种数学计算、统计计算的函数，从而使使用者能灵活机动地进行数据分析，甚至创造出符合需要的新的统计计算方法。而在使用R语言进行数据分析处理时，当我们遇到很大的原始数据，但用来建模的数据较小，则可以先在数据库中进行整理，然后通过R与数据库的接口提取数据，数据库适合存放和整理比较规整的数据，和R中的数据框有良好的对应关系，这也是R中绝大多数统计模型的标准数据结构。数据库中大部分的运算都不需要消耗很大的内存。

数据分析论文篇（3）

改革以来中国发生的大规模人口迁移，是制度变迁和经济转型共同作用的结果。中国传统的计划经济体制是围绕推行重工业优先发展战略而形成的。在资本稀缺的经济中，推行资本密集型重工业优先发展战略，不可能依靠市场来引导资源配置，因而必须通过计划分配的机制把各种资源按照产业发展的优先序进行配置。由此，以资本和劳动力为代表的资源或生产要素，既无必要，也不允许根据市场价格信号自由流动，因此，随着20世纪50年代这种发展战略格局的确定，一系列相关制度安排把资本和劳动力的配置，按照地域、产业、所有制等分类人为地“画地为牢”，计划之外的生产要素流动成为不合法的现象。其中把城乡人口和劳动力分隔开的户籍制度，以及与其配套的城市劳动就业制度、城市偏向的社会保障制度、基本消费品供应的票证制度、排他性的城市福利体制等，阻碍了劳动力这种生产要素在部门间、地域上和所有制之间的流动。在这种制度下，不存在劳动力市场，农村居民没有政府的许可不可能向城市流动，劳动和人事部门通过计划来控制劳动力跨部门流动。

1978年底开始的农村家庭承包制改革，使农户成为其边际劳动努力的剩余索取者，从而解决了制度下因平均分配原则而长期解决不了的激励问题（meng，2000）。与此同时，政府开始对价格进行改革，诱导农民提高农业生产率。在农业剩余劳动力被释放出来后，非农产业活动更高的报酬吸引劳动力转移（cook，1999），从而推动农村生产要素市场的发育，原来主要集中在农业的劳动力开始向农村非农产业、小城镇甚至大中城市流动。

由于各种阻碍劳动力流动的障碍尚未拆除，以及政府鼓励农村劳动力就地转移的政策引导，20世纪80年代前期的劳动力转移以从农业向农村非农产业转移为主，主要是在乡镇企业中就业，即所谓的“离土不离乡”。但随着乡镇企业遇到来自国有企业、“三资”企业和私人企业越来越强劲的竞争，必须提高技术水平和产品质量，因而乡镇企业资本增加的速度逐渐加快，吸纳劳动力的速度相应减缓。农村劳动力面临着越来越强烈的跨地区转移的压力。与此同时，外商投资企业、中外合资企业、私营企业和股份公司等其他非国有部门在东部地区发展较快，扩大了对劳动力需求，并成为消除制约劳动力流动体制障碍的一支重要力量。

随着农村劳动力就地转移渠道日益狭窄，1983年政府开始允许农民从事农产品的长途贩运和自销，第一次给予农民异地经营以合法性。1984年进一步放松对劳动力流动的控制，甚至鼓励劳动力到临近小城镇打工。1988年中央政府则开了先例，允许农民自带口粮进入城市务工经商。到20世纪90年代，中央政府和地方政府分别采取一系列措施，适当放宽对迁移的政策限制，也就意味着对户籍制度进行了一定程度的改革。例如，许多各种规模的城市很早就实行了所谓的“蓝印户口”制度，把绝对的户籍控制变为选择性地接受。此外，1998年公安部对若干种人群开了进入城市的绿灯，如子女可以随父母任何一方进行户籍登记，长期两地分居的夫妻可以调动到一起并得以户籍转换，老人可以随子女而获得城市户口，等等。虽然执行时在一些大城市遇到阻力，但至少在中央政府的层次上为户籍制度的进一步改革提供了合法性依据。城市福利制度的改革也为农村劳动力向城市流动创造了制度环境。80年代后期开始逐步进行的城市经济改革，如非国有经济的发展，粮食定量供给制度的改革，以及住房分配制度、医疗制度及就业制度的改革，降低了农民向城市流动并居住下来和寻找工作的成本。

与其他方面的政策改革相比，户籍制度改革在很长时间里没有实质性的突破，成为劳动力流动的最大障碍。所有在就业政策、保障体制和社会服务供给方面对外地人的歧视性对待，都根源于户籍制度。随着时间推移，两方面的因素变化推动政府对迁移政策进行改革。一是城市户籍制度不再拥有外部或隐含的福利，也就是地方政府不再根据个人的户籍来提供就业、社会福利等各方面保障。这样，城市人口规模扩张不会给地方政府增添额外财政负担。二是地方政府意识到，劳动力流动不仅带来资源重新配置，而且也是城市融资的一个重要来源。这样，市场化发育水平相异的城市根据各自目标来推进城市户籍制度改革。

可见，通过户籍制度及一系列其他阻碍人口迁移的制度因素的改革而推动的劳动力流动，不仅是经济发展的一个重要内容，也是整个经济体制向市场机制转变的重要进程，并且以其他领域改革的进展为前提。这个转变或改革的结果便是劳动力市场的形成与发育，劳动力资源越来越多地由市场来配置。而在整个经济不断市场化的过程中，人口迁移也表现出转轨时期的特点。这是中国转轨时期人口迁移的特殊性所在。本文旨在利用2000年人口普查资料来分析人口流动与市场化之间的关系。

一、转轨时期人口迁移理论

人口和劳动力在地区间的流动，是劳动力市场在空间上从不均衡向均衡转变的过程。发展中国家在其经济发展过程中，伴随着工业化和城市化发展，大量农村人口和劳动力从农村流向城市，从低生产率的农业部门流向生产率较高的工业部门。刘易斯（lewis，1954）认为，发展中国家存在着典型的二元经济结构，农村存在着大量剩余劳动力和隐蔽性失业，农业中劳动力的边际生产力几乎等于零或为负值，农村劳动力从农业部门流出不会对农业产出带来负面影响，反而使留在农业部门劳动力的边际产出不断提高；随着城市中劳动力数量不断增加，城市工资水平开始下降，直至城市部门的工资水平与农业部门的工资水平相等，农村劳动力向城市流动才会停止。在刘易斯的模型中，劳动力在城乡之间可以自由流动，不存在显著的制度。城市现代部门的较高工资水平和传统农业部门的低工资水平，是劳动力在城乡之间流动的驱动力量。在托达罗（todaro，1969；harris和todaro，1970）两部门模型分析中，农村人口和劳动力的迁移取决于城市的工资水平和就业概率，当城市的预期收入水平和农村的工资水平相等时，劳动力在城乡之间分配和迁移都达到均衡。

由于城市经济存在着现代正规部门和非正规部门之分，农村劳动力向城市迁移首先进入非正规部门，然后才有可能进入正规部门就业。城市正规部门就业创造率越大，越有利于将更多的非正规部门劳动力转入正规部门；城乡收入差距越大，从农村流向城市非正规部门劳动力数量越多，城市非正规部门劳动力规模也越大。由于城市正规部门的就业创造率取决于工业产出增长率及该部门的劳动生产率增长率，城市工业的快速增长将有利于提高正规部门的就业创造率，从而减少城市非正规部门的劳动力规模。但是，这个效应有可能被城市工资增长所诱发的大量新增农村劳动力流入所抵消。因此，城市正规部门的就业创造结果带来了城市失业率的上升。

费尔茨（fields，1974）认为，托达罗模型中没有考虑农村劳动力在城市正规部门寻找工作的概率问题。由于非正规部门劳动力获得正规部门就业机会的相对概率较低，流入城市的农村劳动力大多数只能滞留于非正规部门。他们之所以能够接受较低的工资水平，主要是在于他们预期能够从得到的城市正规部门工作机会中获得补偿。在托达罗模型基础上，费尔茨引入了搜寻工作机会的观点，一方面强调了城市制度工资和相对就业概率对迁移过程的影响，另一方面也指出，非正式部门大量不充分就业的劳动力保证了劳动力市场实现均衡时的失业率低于托达罗模型得出的估计。非正式部门大量不充分就业的劳动力存在，在一定程度上缓解了城市的失业问题。

随着劳动力流动，城乡劳动力市场开始相互作用。但是，根据托达罗理论，城市失业率上升将起到减缓人口继续向城市迁移。如果依据费尔茨的观点，城市劳动力市场似乎对农村劳动力流动的影响不大。相比之下，在成熟的市场经济中，城市的失业率是影响劳动力流动的重要因素。托普尔（topel，1986）利用美国人口普查资料研究发现，1970～1980年，美国东部、中部和北部各州的平均失业率相对于全国水平上升了23%，同时西部和西南部各州的失业率却显著下降。同期，人口迁移的空间流向恰好与此相反，人口净流入地区为西部和西南部地区，东部、中部和北部均为人口净流出地区。

中国的人口迁移不仅具有发展中国家的一般特征，而且还有经济体制转型的独特之处。如前所述，中国特有的户籍制度及其改革过程，为人口和劳动力自由流动和择业提供了制度基础，这也是研究其他国家人口迁移的理论没有遇到过的问题。随着时间的推移，包括户籍制度在内的各项市场化改革措施必然对人口与劳动力迁移产生显著影响。同时，城市就业环境变化也为我们观察城乡劳动力市场的相互作用提供了条件。

首先，不仅是城乡之间、地区之间的收入差距驱动人口的迁移，市场化水平在城乡和地区间的差异也直接影响农村劳动力迁移决策，从而形成特定的迁移流向。在经济发展的初期，资本相对稀缺而劳动力相对丰富。因此，中国经济的比较优势在劳动密集型产业。在20世纪80年代以前的经济增长模式下，由于政府采取人为扭曲资金价格的方式，在资金密集型产业上投资过多，抑制了具有比较优势的劳动密集型产业的发展，导致产业结构的扭曲，资源配置效率的损失。经济改革以来，通过一系列制度变革，资源配置逐渐转向劳动力较为密集的产业，较好地发挥了中国劳动力资源丰富的比较优势。产品和生产要素市场的发育带来了资源重新配置效率的改善，对经济增长做出了重要的贡献（cai等，2002）。由于生产要素市场发育上在地区之间不平衡，这种资源重新配置的效果主要体现在沿海地区。2000年，92.1%进出口贸易集中在东部地区，中西部地区分别为4.3%和3.6%.同年，86.5%的外商直接投资集中在东部地区，中西部地区分别为8.9%和4.6%.因此，劳动力迁移在东部地区更为活跃，迁移的流向也以从中西部地区向东部地区为特征。

其次，正如在其他国家观察到的那样，较大的迁移距离增加了交通成本、弱化了社会网络关系和目的地的就业信息，减少了迁移者的收益预期，因此，迁移距离上升降低了迁移发生概率。工作的不稳定性和信息获得的不确定性，不仅造成了迁移流向是一个从县内流向县外，从省内向省外的渐进过程，而且使得亲友等社会网络成为迁移者获得非正规部门就业信息的主要方式。格林伍得（greenwood，1969）认为，迁移存量对人口在地区之间迁移扮演着社会网络的作用。先前的迁移可以为后来者提供信息和其他方面的帮助，减少迁移风险，从而对后期的迁移产生影响。蔡fǎng＠①（cai，1999）研究发现，75.8%的省内迁移者、82.4%的跨省迁移者的就业信息获得是通过住在城里或在城里找到工作的亲戚、老乡、朋友获得的。因此，农村劳动力向城市流动通常受到距离所反映出的社会网络强弱的限制，形成分阶段迁移。

第三，尽管户籍制度继续阻隔着农村劳动力向城市迁移，但市场化改革使得城乡劳动力市场开始融合，城市就业环境变化必然对农村劳动力向城市流动带来影响。随着国有企业亏损和非国有部门扩大，越来越多的原国有企业职工开始和迁移者在非正式部门展开就业竞争。在这种情况下，农村劳动力“是走还是留”，取决于正式部门和非正式部门的就业状况，而且其决策通常是暂时的，而不是长期的。这与harris和todaro（1970）模型中所讨论的情况（迁移者在非正式部门临时就业、等待得到正式部门就业机会），以及sethuraman（1981）观察到其他发展中国家的情况（大多数迁移者将他们在非正式部门就业视为永久性的）都有显著差异。一个普遍观察到的现象是，中国农村劳动力向城市和发达地区流动，通常具有季节性特点，最多以年为单位在原住地和迁入地之间往返，呈现出“钟摆式”的流动模式。正如solinger（1999）指出的那样，城市对农村劳动力的大量需求是推进户籍制度改革的必要条件。在非国有经济、特别是外商投资较快的地区，市场力量日益显现，迁移受到鼓励。

二、空间分布特征变化

1990年以来，中国地区收入差距进一步扩大，吸引了中西部地区劳动力向东部地区流动。同时，要素市场发育及资源配置市场化程度，对地区经济增长越来越起着主导性的作用。东部地区不仅对外开放时间早，而且市场发育迅速，较高的市场化水平不断消除了劳动力等要素跨地区间流动的制度，以至成为劳动力流动的主要吸纳地区。而劳动力向东部地区流动反过来也推动了该地区的经济增长，改善了劳动力资源配置效率（cai等，2002）。表1显示了人口迁移空间分布状况的长期变化。1987～2000年，人口迁移的空间分布特征是：地区内部迁移（其中主要是省内迁移）比例始终高于地区间的迁移比例。但地区内部和地区之间的迁移比例则随着时间不断发生变化。东部地区内部迁移比例提高，东部地区流向中西部地区的比例下降。而中西部正好与此相反，中部和西部地区内部迁移比例趋于下降，中部向西部、西部向中部的迁移比例也在下降，而中西部向东部地区流入比例不断上升。

注：（1）从统计口径上看，1987年迁移数量包括迁入时间在半年以上的市、镇和县之间的迁移人口；1990年迁移数量包括迁入时间在1年以上的市、县之间的迁移人口；1995年迁移数量包括迁入时间在半年以上的市，区、县之间的迁移人口；2000年迁移数量包括迁入时间在半年以上的乡、镇、街道之间的迁移人口。（2）全部迁移人口包括地区内部和地区之间的人口迁移，不同年份在迁移时间规定和迁移范围上的差别对地区之间分布会带来一定影响。尽管如此，我们仍可以比较不同年份之间迁移流向的变化。

资料来源：《1987年全国1%人口抽样调查资料》、《1995年全国1%人口抽样调查资料》、《中国1990年人口普查资料》、《中国2000年人口普查资料》。

根据2000年第五次人口普查的10%资料显示，全部迁移人口数量为1246万，占总人口的10.6%，其中省内迁移为7.7%、跨省迁移为2.9%.在总迁移人口中，省内迁移的比重始终很高，为73.4%.当我们描述跨省迁移的流向时，其主要以东部地区为迁移目的地的倾向更加明显。表2给出了三类地区跨省迁移比例的空间交叉分布。2000年，东部地区跨省迁移近65%集中在东部其他各省（市），中部地区跨省迁移超过84%集中在东部地区，西部地区跨省迁移超过68%集中在东部地区。从时间趋势上看，1987～2000年，东部地区内部跨省迁移比例上升了近15%，而中西部地区向东部地区迁移比例上升将近24%，后者比前者高出9个百分点。

从流动的出发地和目的地看，迁移可以被划分为城市到城市的迁移、城市到农村的迁移、农村到农村的迁移和农村到城市的迁移四种主要类型。从这种类型划分来观察地区间迁移的流向，也有助于我们理解转轨时期中国人口迁移的特点。从全国来看，城市到城市的迁移和农村到城市的迁移是目前迁移的主要形式。2000年，两者合计占总迁移人口的77.9%，而且农村到城市迁移的比重（40.7%）大于城市到城市的迁移（37.2%）。农村到农村的迁移比重较低，仅占全部迁移的18.2%.而城市到农村的迁移比例最低，不到总迁移人口的1/25.从时间趋势看，城市到城市的迁移所占比重，在东部、中部和西部三类地区都呈现上升趋势，而农村到城市的迁移比重略呈下降趋势。

三、迁移的决定因素：计量分析

在迁移决定因素的实证分析中，早期的迁移模型将重力迁移模型和就业为目的的迁移模型合二为一，假定迁移数量不仅与迁入地和迁出地的人口和迁移距离有关，而且取决于两个地区之间的工资和失业率的比较。通常，采用下列双对数模型来分析这些因素对迁移流向的影响（lowry，1966；greenwood，1969；fields，1979）。即：。式中，m为迁移率，x为影响迁移流向的各种因素，d为迁移距离，i，j分别为迁出地和迁入地。

舒尔茨（schultz，1982）认为，人口变量反映的是其他影响迁移而没有在模型出现的社会经济变量的作用，它没有行为学上的意义。由于迁移是人口增长的一部分，在迁移实证模型中引入人口规模会带来计量上的共同偏差（fields，1979）。而且，由于迁移存量实际上是人口规模的一部分，如果在实证模型中同时引入这两个变量，将带来严重的多重共线问题，大大降低回归参数估计的效率。因此，通常做法是在实证模型中不引入人口变量。

在回归方程的函数形式选择上，费尔茨（fields，1979）认为，迁移决策本质上是在相互排斥的替代方案之间的一种选择，非对称模型比对称模型对人口迁移具有更强的解释能力。此外，双对数线性回归方程还能够消除奇异值和异方差对估计效率的影响，满足理论上就业机会与工资之间的乘积要求，以及提高回归方程的拟合程度等。他选择了滞后解释变量办法来消除解释变量的内生性问题。我们也采用了所有解释变量数据均为1995年数据的办法来解决迁移模型的内生性问题。

本文数据来自2000年第五次全国人口普查长表资料（10%样本）和微观数据（长表1%样本），1995年全国1%人口抽样调查资料及国家统计局《中国统计年鉴（1996）》。在数据处理上，正式出版的第五次人口普查长表资料没有农村向城市跨省迁移劳动力数量及其失业率数据，我们利用第五次全国人口普查的微观数据计算了这些数据。用于回归分析变量的统计值见表3.

表3用于回归分析变量的统计值

注：*根据微观数据计算。

迁移率的计算，我们采用格林伍得（greenwood，1969）的定义，用1995年11月1日至2000年10月30日从省迁到省的人口数，除以1995年11月1日以前住在省的人口数。根据长表计算得到的迁移率，包括了所有年龄段跨省农村到城市、城市到城市、农村到农村、城市到农村的四种类型迁移人口；用微观数据计算15～64岁农村劳动力向城市的迁移率。按照这种方法计算得到的两个迁移率的平均值都不高（见表3）。

迁移距离为省会之间铁路公里数。中国地域辽阔，铁路是中国跨省迁移的主要交通方式。这点可以从每年春节农民工返乡造成的铁路拥挤状况中得到印证。迁移距离不仅反应了用于直接交通费用的高低，而且在一定程度上代表了迁移所带来的心理成本大小。随着迁移距离增加，迁移带来的不确定性和迁移风险也会上升，迁移成本随之增加（schultz，1982；greenwood，1975）。这在劳动力市场不发达的情况下尤其如此。

直接用城市工工资收入和农村人均纯收入来作为工资率的变量显然不合适。随着收入多元化，相当于实际收入的部分并没有反映到名义收入之中，城乡收入在可比性上也存在一定问题（solinger，1995；jefferson，1992）。奥尼尔（o''''neill，1970）建议采用消费指标来克服收入指标作为工资率变量上的不足。我们利用各省城乡人口作为权重，对城乡居民人均消费支出进行加权平均，作为各省的工资率变量，预期工资率对迁移流向存在两种不同的效应。其中，迁入地为正向效应，而迁出地为负向效应。

1995年全国1%抽样调查和第五次人口普查都对城乡劳动力的就业状况进行了统计。1995年调查问卷中有三项指标用来测度劳动力在调查前一周是否处于失业状态：第一项是从未工作正在找工作，第二项是失去工作正在找工作，第三项是企业停产等待安置的劳动力。2000年人口普查只包括前两项。据此可以计算得到1995年和2000年城乡劳动力的失业率，分别为2.2%和3.6%.由于城乡劳动力的失业率包括了农村劳动力，这低估了城市劳动力市场的就业状况。《中国2000年人口普查资料》公布了分城市、镇和农村的经济活动人口资料，据此计算的城市、镇和农村的失业率分别为9.4%、6.2%、1.2%.利用2000年微观数据计算的城市本地劳动力、城市向城市迁移劳动力、农村向城市迁移劳动力的失业率，分别为9.1%、7.9%和3.6%.如果在迁移模型中忽略了迁移存量，将导致高估其他解释变量对迁移的影响（greenwood，1969）。按照格林伍得的方法，迁移存量应该是以1995年为时点，计算出生在省且居住在省的所有人口。由于中国人口普查资料只提供了出生后一直住在本地和1995年11月1日之前迁入本地等资料，因此，我们采用1995年11月1日之前迁入本地人口指标作为迁移存量的变量。本文中长表的迁移存量包括所有人口，微观数据的迁移存量只包括15～64岁的人口。我们预期迁移存量对人口迁移有正向效应。

在分析地区人均收入差异和经济增长中，贸易开放程度通常被看做是影响地区收入增长的重要因素（barro和sala-i-martin，1995；cai等，2002）。贸易开放程度越高，参与国际市场一体化程度也越高。但是，扭曲的贸易和发展战略也同样起到扩大出口，提高gdp中的贸易份额比重。相比之下，外商直接投资是国外投资者的选择。从长期来看，为了获得最大利润和规避风险，国外企业在其投资过程中要对各地的产品和要素市场发育情况、体制与政策的透明度等因素进行综合考虑，并最终做出投资选择。外资企业进入之后，它利用劳动力市场来解决用人需求，这与国有企业的人事制度形成鲜明对比。因此，我们选择了外商直接投资作为市场化程度的变量，来分析它们对人口迁移的影响。改革以来，虽然所有省份的外商直接投资数量都在增加，但东部地区与中西部地区之间的差异在不断扩大。中国人口迁移流向分布主要集中在东部地区，这与东部地区对市场化改革程度较高是分不开的。四、回归结果与讨论

方程1～3是利用第五次人口普查长表资料得到的回归结果，方程4、5是利用第五次全国人口普查微观数据得到的回归结果。由于海南、重庆、与其他省会之间距离未能得到，在回归中剔除了这3个地区，长表资料中实际用于回归的样本数量为756个。在微观数据中，由于有些省份的迁移率或农村向城市迁移劳动力数量为零，取对数后，这些数据变成缺省值，所以用于回归的样本数量为506个。

从表4回归结果看，利用长表资料得到的回归方程，解释了大约60%的所有人口跨省迁移的行为；用微观数据得到的回归方程，解释了大约30%的跨省农村劳动力向城市迁移的行为。表4的非对称双对数迁移模型估计结果也表明，迁入地社会经济变量对人口迁移的影响大于迁出地这些变量所发挥的作用。

回归方程1～5中大多数解释变量的回归系数t值，如迁移距离、人均消费水平、失业率、迁移存量等，都达到了1%或5%的显著性水平，并且作用方向上与前面的理论预期结果也基本一致。

表4中回归方程1和2的区别是采用了不同的失业率数据，前者是1995年的失业率，后者是2000年的失业率。使用1995年失业率数据虽然有助于克服内生性问题，但方程1中迁出地失业率回归系数的绝对值大于迁入地失业率回归系数的绝对值，这个结果可能与现实情况并不吻合。

1995～2000年，中国城市就业环境发生了急剧变化。伴随着国有企业改革和城市社会福利体制改革，企业大量富余人员被释放出来，城市失业率迅速上升。为了解决本地城市职工就业问题，不少地方政府采取了城市就业保护政策，这势必对以就业为目的的劳动力流动产生较大影响。迁移者是理性的，如果目的地的就业机会较小，迁移者将选择不流动，以减少迁移风险和成本。这样，迁入地的就业机会就显得更为重要。

表4迁移决定因素回归结果

注：（1）采用异方差检验方法（breusch-pagan/cook-weisberg）发现，表中回归方程的依次为：7.85、1.54、1.38、2.80、4.85.我们对回归方程1、5采用robust估计来消除异方差的影响。（2）方程1和5的括号内为robustt值，方程2～4括号内为t值，*代表5%显著性水平，**代表1%显著性水平。

考虑到2000年失业率真实地反映了就业环境的变化，我们以回归方程2为基准，分析不同因素对迁移的影响，并进行比较。在其他条件不变的情况下，迁移距离上升1%，迁移率下降1.08%.受迁移距离的影响，2000年跨省迁移人口比例不到30%，绝大多数迁移人口选择了省内流动。迁移距离在空间位置上是固定的，但改善交通运输条件和制定合理的交通价格有利于减少迁移者的迁移成本，促进劳动力流动。

在做迁移决策时，潜在的迁移者不仅要考虑两地之间直接的收入差距，而且还要考虑到就业机会大小。在回归方程2中，迁入地人均消费水平回归系数在绝对值上是迁出地的近4倍，但迁入地失业率回归系数在绝对值上是迁出地的3倍以上。迁入地失业率对迁移决策较大的边际影响与迁移者面临的选择有关。本地劳动力市场状况是既定的，迁移者对它别无选择。相反，迁移者对迁入地劳动力市场是可以进行选择的，失业率越高的地区，迁入数量就会下降。

目的地的就业信息提供和帮助，对迁移决策有重要作用。迁移存量的回归系数也证实了这一点。社会网络等非正规信息渠道虽然在迁移中发挥着重要作用，但随着人口流动规模扩大，加快劳动力市场信息体系建设就显得非常重要。

将外商直接投资变量引入回归方程2，就得到回归方程3.引入这个变量之后，迁移距离和失业率等解释变量的回归系数及其显著性变化不大，而人均消费水平的回归系数及其显著性发生较大改变。从绝对值来看，方程3中的人均消费水平回归系数小于回归方程2中的回归系数估计值，迁出地人均消费水平的回归系数显著性有所下降，主要是人均消费水平与外商直接投资之间存在较高相关关系导致的结果（注：人均消费水平与外商直接投资的相关系数为0.56.）。跨省人口迁移比例主要分布在东部地区，它与外商直接投资之间存在较强的相关关系（注：外商直接投资与迁移存量之间的相关系数为0.76.），引入外商直接投资变量之后，迁移存量的回归系数数值下降约50%.为了观察城市劳动力市场对农村劳动力迁移决策的影响，我们利用微观数据做进一步分析。回归方程4引入了农村迁移劳动力的失业率，回归结果进一步支持上述发现，即迁入地的就业机会对迁移者来说更为重要。回归方程5引入了城市劳动力失业率。结果表明，城市失业率对于农村劳动力跨省迁移率有显著性影响，其回归系数在绝对值上不仅大于回归方程4中失业率的回归系数，而且大于回归方程2中的回归系数，这说明城市劳动力市场就业形势确实对农村劳动力的迁移决策有重要作用。改善城市就业环境将有利于促进农村劳动力流向城市，起到加速城市化的作用。

五、结论

20世纪80年代以来在中国出现的大规模人口迁移现象，不仅具有发展中国家从落后的农业经济向工业经济转变的一般特征，还具有从计划经济向市场经济转变的特殊性。将二者结合在一起，既有助于考察中国独特的制度特征对人口迁移的影响，又能够通过对中国案例研究来拓展迁移理论。

经济发展水平和市场发育程度在地区之间的不平衡，决定了人口迁移的基本方向不仅是从农村向城市的迁移，而且是从中西部地区向东部地区的迁移。既然中国经济的进一步增长仍然有赖于从生产要素市场发育从而劳动力流动中获得资源重新配置效率（注：约翰森（johnson，1999）认为，在今后30年，如果迁移障碍被逐渐拆除，同时城乡收入水平在人力资本可比的条件下达到几乎相等的话，劳动力部门间转移可以对年经济增长率贡献2～3个百分点。），加快中西部地区市场制度的建设，特别是清除阻碍劳动力市场发育的各种制度，可以引导和规范人口迁移，使其不仅具有微观理性，而且具有更加理性的宏观后果。市场化改革措施（如扩大外商直接投资和对外贸易等）所带来的经济发展将有助于获得“一石二鸟”的功效，也就是讲，它为劳动力流动不断营造同样的发展环境，并在创造就业机会的同时，推进城乡户籍制度改革。

「作者简介蔡昉中国社会科学院人口与劳动经济研究所所长、研究员；王德文中国社会科学院人口与劳动经济研究所，副研究员。

「参考文献

1.中国社会科学院人口研究所（1988）：《中国74城镇迁移抽样调查（1986）》，《中国人口科学》编辑部。

2.国家统计局（1988）：《1987年全国1%人口抽样调查资料》，中国统计出版社。

3.国家统计局（1997）：《1995年全国1%人口抽样调查资料》，中国统计出版社。

4.国务院人口普查办公室（1993）：《中国1990年人口普查资料》，中国统计出版社。

5.国务院人口普查办公室（2002）：《中国2000年人口普查资料》，中国统计出版社。

6.barro，r.&x.sala-i-martin（1995），economicgrowth.newyork：mcgrawhi，inc.

7.cai，fang（1999），spatialpatternsofmigrationunderchina''''sreformperiod，asianandpacificmigrationjournal，vol.8，no.3.

8.cai，fanganddewenwang（1999），sustainabilityofeconomicgrowthandlabourcontributioninchina，journalofeconomicresearch，no.10.

9.cai，fang，dewenwangandyangdu（2002），regionaldisparityandeconomicgrowthinchina：theimpactoflabormarketdistortions，chinaeconomicreview，13，197-212.

10.cook，sarah（1999），surpluslaborandproductivityinchineseagriculture：evidencefromhouseholdsurveydata，thejournalofdevelopmentstudies，vol.35，no.3：16-44.

11.fields，g.s.（1974），rural-urbanmigration，urbanunemploymentandunderemployment，andjob-searchactivityinldcs，journalofdevelopmenteconomics2，165-187.

12.fields，g.s.（1979），placetoplacemigration：somenewevidence，reviewofeconomicsandstatistics，vol.61，issue1，21-32.

13.greenwood，j.michael（1969），ananalysisofthedeterminantsofgeographiclabormobilityintheunitedstates，reviewofeconomicsandstatistics，vol.51，issue2，189-194.

14.greenwoodj.michad（1975），researchoninternalmigrationintheunitedstates：asurvey，journalofeconomicliterature，vol.13，issue2，397-433.

15.harris，j.，andm.todaro（1970），migration，unemploymentanddevelopment：atwosectoranalysis，americaeconomicreview40，126-142.

16.jefferson，g.h.andt.g.rawski（1992），unemployment，underemploymentandemploymentpolicyinchina''''scities，modernchina，18（1），42-71.

17.johnson，d.gale（1999），agriculturaladjustmentinchina：thetaiwanexperienceanditsimplications，officeofagriculturaleconomicsresearch，theuniversityofchicago.

18.leweis，w.a.（1954），economicdevelopmentwithunlimitedsuppliesoflabor，themanchesterschoolofeconomicandsocialstudies22，139-191，reprintedina.n.agarwalaands.p.singh（eds.），theeconomicsofunderdevelopment.bombay：oxforduniversitypress，1958.

19.lin，j.yifu，fangcai，andzhouli（1996），thechinamiracle：developmentstrategyandeconomicreform，hongkong：chineseuniversitypress.

20.lowry，i.s.（1966），migrationandmetropolitangrowth：twoanalyticalmodels.sanfrancisco：chandlerpublishing.

21.meng，xin（2000），labormarketreforminchina，cambridge，uk：cambridgeuniversitypress.

22.o''''neill，j.a.（1970），theeffectofincomeandeducationoninter-regionalmigration，unpublishedph.d.dissertation，columbiauniversity.

23.schultz，t.paul（1982），lifeiimemigrationwithineducationalstratainvenezuela：estimatesofalogisticmodel，economicdevelopmentandculturalchange，30（3），559-594.

24.solinger，d.（1995），thechineseworkunitandtransientlaborinthetransitionfromsocialism，modernchina，21（2），155-183.

25.solinger，d.（1999），citizenshipissuesinchina''''sinternalmigration：comparisonswithgermanyandjapan，politicalsciencequarterly，vol.114，no.3，455-478.

数据分析论文篇（4）

1引言

本课题来源于中央广播电视大学教务管理系统的后续开发。随着中央电大在开放式教育思想指导下的教学改革的展开，系统业务量急剧猛增，原有的教学管理系统已经逐渐的满足不了应用需求。所以新一代教学管理系统正在开发中，同时由于教育业务本身的连贯性，导致了新旧系统并行的局面出现。但是由于新旧系统间缺少关联和通信以及必要的规范，导致信息“孤岛”现象严重，而旧系统又恰恰是电大不可放弃的重要投资。同时由于各个系统集成度不足，运行业务的数据库和应用程序也是在不同时期部署的，它们来自不同的供应商，使用各不相同的定制技术。从而面临着如何构建一个强壮的、可靠的，将新旧系统中的分散功能组织成可共用的标准服务来满足业务要求的平台，成为我们需要研究的难点。

通过实践我们可以发现，应用程序始终都与数据有关，企业级的服务程序更是如此。今天，企业应用程序开发中有高达70％的时间都是用于访问不同的数据。因此，对企业信息和数据按业务逻辑进行梳理和抽取，形成企业数据的统一表现实体，该实体可以在全企业范围内得到一致性的使用，是迈向面向服务的体系架构的第一步。因此我们提出了主题数据平台的概念。

2主题数据平台结构

主题数据平台结构见图1。主题数据平台由：主题数据服务层、数据处理构件、数据处理管道、适配器构件组成。

图1数据主题平台的设计构架

主题数据服务层：是底层接口与上层应用的中间层，用于屏蔽底层接口，向上提供统一的服务。有两种角色：一种角色是数据中转站，用于保存临时数据，并等数据传输完整之后，进一步对数据进行分析和处理；另一种角色是主题数据服务层角色，用于保存数据处理的最终结果：主题数据。

数据处理构件：是数据处理的基础构件，每一个数据处理构件都封装了一部分相对独立的数据处理逻辑，包括删除不需要的数据、补充缺少的数据、对数据进行简单的四则运算、代码转换和按主题建立新的数据结构等功能。

数据处理管道：是由多个数据处理构件组成，它合理的组合和安排这些数据处理构件，从而完成复杂的数据处理逻辑。

适配器构件：用于实现异构数据库与数据处理管道的无缝连接，从而能够方便的从异构数据库中抽取或插入数据。

3基于局域网的主题数据平台的实现方案

基于局域网的主题数据平台的实现方案见图2。

图2基于局域网的数据主题平台的实现方案

由于局域网有着：网络传输速度快、网络故障率低、即时性强、服务器固定等优点。所以我们采用：DTS技术、Nmake技术、临时库等技术来解决基于局域网的主题数据平台的实现问题。

3.1DTS技术的应用

采用DTS技术可以实现在局域网中从异构的数据库中提取或插入数据，并能对数据进行简单的逻辑操作。它可以把相对独立的数据处理逻辑封装在对应的DTS包中，从而把公用的数据处理逻辑从数据处理业务中提炼了出来，以备复用。并提供了工作流支持，保证了DTS包中数据处理业务的事务性和完整性。

⑴适配器构件

适配器构件只是一个数据处理通道和异构数据源的连接器，它负责从异构数据源中抽取或者插入数据并将数据转移到数据处理通道中。每一个数据源对应一个或多个适配器构件，每个适配器构件包含在对应的DTS包中。整个DTS包中包含一个原数据源、一个目标数据源和一个数据对应转换任务。将整个数据转换逻辑封装为一个构件，有利于适配器构件的复用。

⑵数据处理构件

数据处理构件封装了数据处理逻辑，这些处理逻辑由数据业务驱动，包括删除不需要的数据、从不同的数据来源补齐缺少的数据、对数据进行简单的四则运算、不同信息系统之间的代码转换等功能。数据处理逻辑按其独立性和公用性被封装在不同的DTS包中，增强了数据处理构件的可变性和复用性。DTS包提供了验证机制这既可以保证数据处理逻辑的正确性，又可以保证数据处理逻辑的事务性。DTS包内包含工作流，可以针对不同的情况做出不同的处理，极大地提高了数据处理构件的复用性，并可对业务性错误做出必要的处理。

3.2Nmake技术的应用

Microsoft程序维护实用工具Nmake是一个32位基于说明文件中包含的命令生成项目的工具。NMake具有丰富的选项，可以完成复杂的处理操作，并有树状文件任务处理结构，并且易于编写，结构清晰，对于实现复杂的数据处理业务提供了很大的方便。采用Nmake技术可以有效的将结构松散的、相对独立的数据处理构件聚合起来，从而能够处理复杂的数据处理业务。

数据处理管道

数据处理管道是将数据处理构件有机的组合起来并封装好，对主题数据服务层提供统一的访问接口，从而把数据服务逻辑与数据处理逻辑分割开来。数据处理管道可以极大地提高数据处理构件的复用率，并把复杂的数据处理逻辑从数据处理构件中抽离了出来，当数据处理业务变动的时候不需要修改构件只要按着业务需求，重新组织构件即可解决问题。Nmake可以按着业务需求轻松地把数据处理构件组合起来形成带有业务逻辑关系的数据处理管道，并且Nmake提供了业务流功能，针对不同的业务需求可以提供不同的业务流支持，从而极大的提高业务本身的灵活性。当业务需求变动时，Nmake可以通过重新组合数据处理构件来完成业务，而不需修改或者重新编写数据处理构件，从而提高数据处理构件的可复用性。

4基于互联网的主题数据平台的解决方案

基于互联网的主题数据平台面临的主要问题是如何通过远程数据传输将互联网的异地、异构的数据源中的数据传输到主题数据服务层中。数据一旦进入主题数据平台的主题数据服务层，就可以使用和基于局域网的解决方案相同的技术对数据进行整理。通过远程数据传输将互联网的异构数据传输到主题数据服务层之后的功能与基于局域网的数据转换接口的功能相同。

中央广播电视大学远程开放教育的教务管理系统是一个跨越44个省面向全国的开放式教育体系结构。该系统包含四级平台、五种角色，由于其独特性中央电大教务管理系统基于互联网的主题数据平台的搭建有如下4方面需求：

1）中央电大各个系统之间、中央电大教务管理系统各级平台之间需要能进行灵活的数据交换。

2）每次交换数据的数据量可能达到GB级。

3）部分数据交换有实时性要求，在规定时间内客户端必须收到响应，不能因为数据传输而推迟业务进度。

4）需要在网络状况不稳定的情况下完成数据交换，因为中央电大教务系统是跨越44个省的开放式教育系统，所以中央电大需要同44所省电大交换数据，在这种情况下网络状况不可预知、稳定性难以保证，但传输仍然需要进行。

4.1SOAP协议与Hessian协议的比较

目前，Web服务技术是解决异构平台系统的集成及互操作问题的主流技术[1]。它所基于的XML已经是Internet上交换数据的实际标准，基于通用的进程间通信协议和网络传输协议屏蔽平台的差异，可以将各种异构环境下的通信及调用请求均统一为标准的Web服务格式[3]。

但是由于SOAP协议的结构问题会使封装的数据膨胀数倍。当传输数据量比较小时，问题不是那么明显，但是当进行大数据量传输时就会导致Web服务的传输性能在实际运用中降低了很多。这对于经常有大数据量数据交换的应用系统来说是不适用的。

CauchoTechnology公司制定的HBWSP（HessianBinaryWebServiceProtocol）[2]在这方面的有所突破。Hessian协议和webservice常用的SOAP协议类似，也是将协议报文封装在HTTP封包中，通过HTTP信道进行传输的。因此Hessian协议具有与SOAP协议同样的优点，即传输不受防火墙的限制（防火墙通常不限制HTTP信道）。Hessian协议的优势在于：它把本地格式的数据编码为二进制数据，仅用一个字符作为结构化标记，HBWSP封装后的数据增量明显小于SOAP封装后的数据增量。并且相对于SOAP，Hessian协议的外部数据表示有3个显著的优势：

1）采用简单的结构化标记。简单的结构化标记减少了编码、解码操作对内存的占用量。编码时，只需写少量的数据，就可以标记结构；解码时，只需读少量的数据就可以确定结构。而且，简单的结构化标记减少了编码后的数据增量。

2）采用定长的字节记录值。用定长的字节记录值，解码时，就可以使用位操作从固定长度的位获得值。这样不仅操作简单，而且可以获得较高的性能。

3）采用引用取代重复遇到的对象。使用引用取代重复遇到的对象可以避免对重复对象的编码，而且也减少了编码后的数据量。

因此使用Hessian协议传输数据量比SOAP协议要小得多。实践证明，传输同样的对象Hessian协议传输的数据量比SOAP协议低一个数量级。因此Hessian协议比SOAP协议更适用于分布式应用系统间大数据量的数据交换。

4.2Hessian协议的实现构架

Hessian协议的实现构架如图3所示：为了实现Hessian构架，设计了下列组件：编码组件、解码组件、通信组件、报告故障组件、组件、调用服务过程组件。

图3Hessian协议的实现构架

首先客户端发出本地请求，组件响应请求依据服务接口，生成客户端存根，并调用编码组件对本地请求进行基于HessianBinaryWebServiceProtocol标准的二进制编码。然后调用通信组件将请求发送给服务器端。服务器端通信组件接收到请求后把请求转发给调用服务过程组件，调用服务过程组件会首先调用解码组件，得到过程标识，将过程标识转给服务器端存根，并依据部署文件和客户端的请求加载服务过程的实现类。然后根据过程标识、过程参数调用服务过程。最后调用编码组件将响应结果进行编码并通过通信组件返回给客户端。

当数据传输、通信发生错误的时候就需要启用报告故障组件，它可以以异常的形式，报告发送端、接收端、或者网络连接发生的故障，并把错误记录以日志的方式记录下来保存在文件中，以备日后查阅。

4.3实现结构

针对教务管理系统互联网传输存在的一系列问题，基于互联网的主体数据平台采用基于HBWSP的轻量级跨平台通信技术实现数据交换，如图4所示。在客户端，应用服务器从主题数据服务层中抽取数据，并按着HBWSP的外部数据表示对本地格式数据进行编码。然后通过internet网进行传输，在服务器端，数据交换的服务负责按照HBWSP的外部数据表示对接收到的数据进行解码，然后再对数据进行分析、处理后把数据插入到服务器端的主题数据服务层中。

图4非持久同步方式的数据交换解决方案

该解决方案的主要特点包括：

1）采用了HBWSP的二进制编码方式解决了异地、异构平台系统的通信问题，并使数据交互具有了一定的实时性。

2）由于HBWSP简洁的编码方式以及编码、解码性能高等特点使数据交换具有交换GB级数据的能力。

3）采用了HBWSP的二进制编码方式有助于缩短整个数据交换所需要的时间。其编码性能高的特点，有助于提高编码速度，减少发送方编码本地数据的时间。其解码性能高的特点，可以减少接收方解码、重构本地数据的时间。从而减少了数据交换的响应时间。

4）采用了HBWSP的二进制编码方式和数据分批传送技术有助于充分利用网络状况良好的时段。可以在网络状况良好的时段尽可能多的完成数据交换。

5）采用了断点续传技术，保证了当网络断连或响应超时导致正在进行的数据交换被中断，在故障修复后仍然可以从中断处开始，继续完成上次没有完成的数据交换的能力。断点的粒度可以调节，可以是一条数据，也可以是多条数据。

6）采用了事务保护机制，把每批要传输的数据定义为一个事务，本批要传输的数据的事务完整性不依赖于已经完成的各批数据，本批数据传输发生错误也不会对已经完成的各批数据造成影响。采用这种方法，可以在数据交换过程被中断的情况下保证数据交换事务的完整性。

5总结和展望

本文在SOA理论的基础上提出了一个主题数据平台的概念，力图把异地、异构的数据综合起来，组成一个强壮的、高可靠性的、可共用的标准数据服务平台。从而解决中央电大新旧教学管理系统数据“孤岛”的问题。我们再进一步针对现实环境：局域网和互联网两种情况进行了分析，并给出了实现框架和技术细节。

但是如何在信息暴露的基础上，对业务应用进行进一步的梳理、划分、整合，从而封装成用户可以随意组合、使用的标准服务，从而实现真正的SOA，是需要我们进一步研究的内容。

参考文献

数据分析论文篇（5）

（一）项目数据分析

1、什么是项目数据分析工作

项目数据分析就是研究将经济学理论用数学模型表示，并应用于项目投资分析的方法论。项目数据分析过程是：提出项目（研究机会）、初步可行性研究（市场、技术、资源、环境研究、效益、风险分析评价）、测算经济效益、评估和决策、可行性研究（市场、技术、资源、环境研究、效益、风险分析评价）、评估和决策、项目实施。

2、项目数据分析工作的内容、特点

（1）项目分析工作的内容

一般来说，项目数据分析的内容包括项目的经济效益评价、项目的风险分析和项目的比较选择。

项目的经济效益评价主要是在假设项目没有风险情况下的经济效益，主要针对非贴现指标（会计收益率和投资回收期）和贴现指标（净现值、内部收益率、获利指数和动态投资回收期）。

项目的风险分析，主要是进行盈亏平衡分析、敏感性分析和概率分析。

项目的比较选择，主要是独立方案、互斥方案和不完全互斥方案的设计、评估等选择。

（2）项目分析工作的特点

项目数据分析工作是一门边缘科学，其特点是以定量分析为主要分析手段，通过分析翔实的数据进行项目的论证得出定性结论，并以定量数据进行说明。显然，项目数据分析，必须通过建立数学模型的方法进行分析涉及经济学、数学、统计学和预测学。

（二）什么是投融资

1、项目投融资的概念。

投资是指 “为了在获得预期的收益而作出的确定的垫支或牺牲的各种经济行为” 。因此，投资并不局限于与基础建设相关的经济活动，还包括证劵投资、信贷投资和信托投资。

2、项目投资的特点

项目投资的特点是现在投入资金进行经济效益的博弈，通过对该项目的管理进行长期或者未来的收益，不仅具有时间性，而且具有较强的风险性，其本质就是获得预期的收益。

一些大型的投资项目，通常都由一家专业的财务顾问公司担任其项目的财务顾问，财务顾问公司做为资本市场中介于筹资者与投资者之间的中介机构凭借其对市场的了解以及专门的财务分析人才优势，为项目制定严格的，科学的，技术的财务计划以及形成最小的资本结构，并在资产的规划和投入过程中做出理性的投资决策。

（三）项目数据分析工作对投融资具有重要的意义

1、数据分析工作提高了工作效率，增强了管理的科学性。无论是国家政府部门、企事业单位还是个人，数据分析工作都是进行决策和做出工作决定之前的重要环节，数据分析工作的质量高低直接决定着决策的成败和效果的好坏。

2、越来越多的企业将选择拥有中国项目数据分析师资质的专业人士为他们的项目做出科学、合理的分析，以便正确决策项目；越来越多的风险投资机构把中国项目数据分析师所出具的项目数据分析报告作为其判断项目是否可行及是否值得投资的重要依据；越来越多的企业把中国项目数据分析师课程作为其中高管理层及决策层培训计划的重要内容；越来越多的有志之士把中国项目数据分析师培训内容作为其职业生涯发展中必备的知识体系。

二、从事项目数据分析工作的感受

（一）从数据分析师的角度，项目数据工作需要做到以下几个方面的服务，才可以为被服务对象提供优质的有价值的投融资报告。

1、真诚服务

所谓真诚服务，主要是因为投融资报告的价值来自于数据分析师精湛的业务能力，细致的数据搜集能力、阅读能力、分析能力和预测能力。无论是竞争性项目、还是基础性项目，由于数据分析工作时一门边缘科学，需要对真实和翔实的数据进行定量或者是定性分析，需要对国家或者国际政策进行审读，需要对经济形势进行判断，需要对项目所属的行业进行科学的宏观把握，因此，项目数据分析师在搜集相关数据，在分析相关数据时，在阅读国家或者国及政策时，在斟酌行业趋势时，都需要真诚的付出，否则，闭门造车或者移花接木式的投融资报告，只能是危害客户，只能给客户带来更大的风险，而不是丰厚的收益。

2、真心服务

所谓真心服务，主要是指项目数据分析师在服务客户时，需要站在客户的角度思考问题。由于项目数据分析师，是从属于某公司，因此从公司利益出发，需要为公司赚取一定的利润，这部分利润就来自于数据分析师所服务的客户。从客户角度思考，实际上客户委托数据分析师针对企业的项目意向而进行的数据分析，实际是希望数据分析师提供的项目方案，不仅是可行的，能够为公司获得预期利益，而且是风险较小的，可以操作实施的投融资报告。

3、真实服务

所谓真实服务，就是指数据分析师在进行项目数据分析，通过建立数学模型的方法进行分析并提出具有科学性的、前瞻性的、科学性的、可操作性的投融资项目预测报告时，需要是真实服务。一般来说，客户在提出项目设想时，是充满了憧憬，也具有天真的幻想，那么数据分析师提出的可行性报告如果是刻意逢迎客户的主张，那么对客户来说将是灾难性的打击。

4、真情服务

所谓真情服务，主要侧重于项目付诸于实践中，项目数据分析师跟踪调查项目实施的禁毒，以及修正项目风险分析和比较选择。

（二）从数据分析师所服务的客户角度来看，客户也需要做到以下几个方面的工作：

1、信赖数据分析师的服务

对数据分析师服务的企业来说，信赖数据分析师是必要的。一方面，投融资项目报告，制定严格，具有科学性，是理性的投资决策；另一方面，

2、忠诚数据分析师的服务

3、诚挚和数据分析师的合作

数据分析师在进行投融资项目分析时，一方面，客户的意项是否描述清晰、完整、完全，是非常重要的，它决定了投融资项目报告的起点和方向；另一方面，企业的真实经营状况，也对项目报告具有决定性的意义。因此，企业需要同数据分析师进行诚挚的、真诚的合作，否则，项目数据报告就存在不可预知的、本可避免的巨大风险。

三、为项目方和投资方案例分析

支持创新不忘避险—“倍爱康”生物科技项目作为股东类项目，“中投信保”为“倍爱康”提供4笔贷款担保，累计担保余额1900万元，实现保费收入28.5万元。

数据分析论文篇（6）

统计数据质量问题是衡量统计工作的核心指标。尤其是我国加入WTO，与世界经济接轨的今天，社会各界对统计信息的需求量越来越大，对统计信息质量的要求也越来越高。统计信息质量的高低直接影响和决定着统计信息的可利用性。统计数据质量低下将会直接导致错误的决策。因此，努力提高统计数据的质量，实现统计信息的准确、有效、全面、有着重要的意义。

一、统计数据质量的含义

传统的统计数据质量仅仅指其准确性,通常用统计估计中的误差来衡量。但如今“质量”的概念被拓宽了，“统计数据质量”的概念也有必要拓宽。目前各国统计机构和有关国际组织对统计数据质量含义的解释和理解仍存在一定的分歧，对统计数据质量应涵盖哪几个方面，还没有统一的标准。各国从本国的实际情况以及对数据质量含义的理解出发，确定了不同的数据质量标准。如英国政府统计数据质量标准是准确性、时效性、有效性、客观性；韩国的质量标准则是适用性、准确性、时效性、可索取性、可比性、有效性。在我国，统计数据质量主要包括统计数据的核心质量、形式质量及延伸质量三大方面。

二、我国统计数据质量管理现状及存在问题

改革开放以来，我国统计人员大胆探索，辛勤实践，在指标体系、调查方法、统计标准、技术手段、数据报送与处理方式等方面进行改革，较好地满足了社会各界对统计信息的需求，推动了统计事业的发展。但是，浮夸风以及片面追求假、大、空现象仍然存在，这些都违背了统计工作的基本要求，阻碍了统计工作的发展。目前我国统计数据质量管理上存在的问题主要有：

1.统计数据失真。统计制度不够完善是造成统计数据失真的内在因素，表现在：统计部门内部各专业在统计方法、指标涵义、口径上还存在一定程度上的不统一；专业间统计方法改革不同步；统计范围、口径的理论值与实际值出入有时还比较大；统计与财会在核算周期上还存在一些差异，并且在统计数据质量管理上各级统计管理部门在统计执法过程中力度不够，对统计过程缺少制约与监督，对统计数据缺乏校验与复查的有力措施。

2.设计时需求不明确，缺乏远见。数据库与文件管理系统的重要区别之一在于不仅存放数据，而且存放数据之间的相关性。相关性不仅表现在数据依存的时间、地点、类型和名称等原始属性上，还会在数据的转移过程中产生再生的相关性。搜集数据阶段使用的方法不正确，应用需求不明确等都会影响数据完整性和准确性。

3.数据处理手段发展不平衡。数据处理手段出现从基层的手工操作到省、国家一级政府统计数据处理的高度信息化。就地域而言，占全国70%以上的地方统计数据处理是手工操作或半手工操作，速度慢、效率底，可靠性差，这与统计的及时性要求不相符合。统计所反映的当前经济现象的真实性难以确定。

4.质量管理监督措施不够健全。由于多数检索系统没有进入实际应用阶段，数据质量的控制和监督往往被人们忽视。绝大多数单位在数据准备、录入阶段缺乏审核等质量控制、监督措施，著录标引的检查，一般采取自己审核或互相审核的方法。缺少科学的统计数据质量评估和监控造成统计数据不同层次脱离实际的偏差，给决策带来极大的不便。

5.统计人员队伍素质不高。基层统计工作薄弱，统计手段落后，统计人员素质比较低，基层统计队伍不稳定都影响了统计数据质量。

三、我国统计数据质量管理问题的原因分析

在目前我国统计数据质量管理中，以单项数据质量管理为主，缺乏综合的、全面的质量管理体系；对数据质量内涵的理解相对来说仍较为狭隘，在实践中主要围绕着数据准确性进行评估，对数据质量的其他方面重视不够；在评估过程中，没有让社会公众和用户充分参与进来，评估机制缺乏必要的透明和有效性，未能取得社会各界对数据资料的充分理解和认可；对于多种经济成分的数据质量评估方法不够明澈；缺乏明确的数据质量管理要求和目标。

从数据质量管理的角度来看，我国统计数据质量管理存在诸多问题的原因在于：

1.统计数据质量理论及其控制技术与政府统计实践脱节。各种统计数据质量控制技术在我国的实际统计工作中的研究和应用不多，对于经常性统计数据质量控制，实际上还主要是采用事后的分析评估和挤水分的方法，而事前的分类预防控制不多，建立误差模型进行分析的也不多，所应用的仅有的一些事后质量控制技术和统计数据质量管理的组织活动没有实现很好的结合，虽然指定了主要统计数据质量的评估方法，但具体方法的应用、由哪些部门负责以及这些部门的质量责任、职权和义务并不明确。

2.统计数据质量管理中的全面质量管理并不全面。全程性上，只重视调查环节，不重视统计设计环节对数据需求的研究，从而影响数据相关性、及时性的提高；全域性上，所实行并取得很大成功的统计数据全面质量管理的措施及经验，主要集中于几个专项的普查，应用范围较窄；全员性上，只重视统计系统内部的人员控制，而对统计系统外部的，占统计工作人员2/3的基层统计人员却无从控制。

3.缺乏明确的质量管理目标和统一的质量管理规范。对统计数据质量管理缺乏明确的质量方针和质量目标，缺乏相对统一的统计数据质量管理标准和规范，导致了统计数据质量的混乱。

4.控制措施与事后评估结果及发现的问题没有很好结合。统计是一项循环往复的过程，因此每一次新的修订统计设计都应反映出上一次数据质量评估的结论以及质量改进的要求。但是从公布实施的统计调查制度上看，事先的控制措施，如填表要求中的平衡关系，逻辑审核关系用于质量控制的设计内容较少。

四、提高我国统计数据质量管理的对策和建议

多年来，国家统计局一直把统计数据放在首要地位，通过不断努力与实践的，摸索出一套方法，即一靠科技，二靠法制，对统计数据实行全面质量管理。在此，结合专家学者对统计数据质量管理的研究，笔者提出一些自己的看法。

1.搞好统计调查方法的改革是提高统计数据质量的前提。国家统计局在《国家统计制度的总体方案》中提出了我国统计调查方法改革的长远目标，即“建立以必要的周期性普查为基础，以经常性的抽样调查为主体，同时辅之以重点调查、科学推算和少量的全面报表综合运用的统计调查方案体系”指明了抽样调查作为新统计调查体系的主题，精简全面统计报表。要提高统计数据质量，必须推广抽样调查方法的应用，它避免了对总体单位的逐一调查和较多的中间环节，在较大程度上减少了各方面对统计数据在调查过程中的干扰，因而使得调查的数据较符合客观实际。它具有事先计算及控制抽样平均误差和便于对样本指标进行检查，避免调查工作中间环节的弄虚作假的特点。大大提高了统计数据的准确性和及时性。

2.强化统计基础工作是提高统计数据质量的保证。首先要搞好统计调查表的设计。企业综合统计部门应根据上级部门和本企业生产经营管理的需要，会同会计等部门统一设计企业内部套表，在设计中应体现新的国民经济核算体系，各指标之间应相互联系，相互配套，统计指标的涵义、范围、计算口径应一致。统计表的设计，统计分类标准和各种编码应当统一，以适应计算机整理、汇总、分析的需要。新的统计报表的采用，可以克服企业统计工作中存在的杂乱、重复、矛盾等弊端，也有利于报表的规范化、系统化，更有利于统计数据的准确性。其次，实现原始记录、统计台账的标准化。我们知道，原始记录是业务核算、会计核算、统计核算的共同基础，只有这样才能使三种核算结果相互衔接，口径一致，而要保证核算数字的准确性，要求核算的数字来源，都有真实的原始记录为依据。从原始记录开始一直到整理、场内报表及三种核算，数字来源通过逐级加工，都是有据可查的。只有这样核算，数字的准确性才有确切的保证。

3.加强统计法制法规建设是提高统计数据质量的法律保障。在企业统计工作中，主观随意性是影响统计数据质量的重要因素。领导者的法制观念和对统计数据质量的重视程度以及统计人员的综合素质，对统计数据质量有着直接的影响。只有具有强烈的事业心和责任感，具有高度的统计法制观念，具有基本的工艺技术知识和统计技能的统计人员，才具有做好统计工作的前提和基础。因此，要加强统计法制建设，健全统计法规，防止某些企业领导和统计人员对统计数据弄虚作假，要确定统计犯罪的界限，作出良性的具体规定，以强化统计法规的法律效力和约束力。应通过典型案件的查处和暴光宣传《统计法》，引起全社会的关注，提高社会公众的法制观念和执法自觉性，使《统计法》真正成为提高统计数据质量的法律保障。

4.提高统计人员的业务素质是提高统计数据质量的关键所在。统计数据质量与统计人员的业务素质和队伍稳定有直接的关系，企业统计人员是提高统计信息最基础、最原始数据的源泉，因此，为了提高统计人员的业务素质，必须搞好他们的上岗和在岗培训，要实行“统计员资格”考试制度，达到合格标准并取得上岗合格证方可上岗。要提高统计人员的统计分析能力，掌握多种使用统计分析方法，例如聚类分析法、判别分析法、回归分析法、相关分析法、主成分分析法等。其次还要提高统计人员对现代统计分析软件的应用能力做到“一专多能”。依靠科技手段快速提供高质量的统计数据。企业还应按规模大小、统计业务的难易程度，配备有一定统计职称的综合统计人员，以提高统计工作质量，保证统计数据的准确性。

5.用科学的统计分析方法对数据质量评估是提高统计数据质量的方法保证。首先，可运用抽样调查法推断总量指标的准确性，它是对全面报表、普查、重点调查的基层统计数据或汇总统计数据进行可靠性检验或误差判断的科学方法。其次，运用回归分析法检测统计数据的可信度。例如，在对汇总数据的评价中，可利用回归分析，发现矛盾，提高数据的可靠性，并可用计算机建立模型，对各类数据纵横比较，以确定其质量。另外，还可用主次因素排列分析图、因果分析图来分析各种统计数据质量。在多种经济成分的统计数据中，要寻求一种能够多因素同时考虑的方法，不能只局限与一些单一因素的评估方法。例如运用模糊评价法等。要加快成立相对独立的专门从事统计数据质量评估的社会终结组织结构，确保统计数据评估的独立性和公正性。

6.加大新的统计技术的应用是提高统计数据质量的必要途径。计算机技术不仅可以实现数据处理高速化、数据传输网络化、数据贮存资源化，从而降低统计数据在人工处理、传输、贮存等环节上的技术性误差和逻辑性差错，而且有利于从机制上形成强有力的统计质量管理体系，维护统计数据管理相对独立性并有效地遏止随意虚报、瞒报以及统计数据质量的其他腐败行为。

总之，提高统计数据质量是统计工作的永恒主题，要在明确什么是统计数据质量的基础上，抓住影响统计数据质量的关键，采取切实有效措施，最大限度地保证提高数据的质量，确保统计三大职能的发挥。

五、结语

统计信息是社会经济信息的主要组成部分，在社会经济生活中发挥着越来越重要的作用。作为其表现形式的统计数据的质量也受到越来越多人的关注。而目前我国的统计数据质量管理，不论是与社会各界的需求相比，还是与相关国际准则的运作要求相比，均存在一定差距。完善我国统计制度是一项长远的任务，这需要统计人员与社会各界的共同努力。

【参考文献】

[1]李金昌．论什么是统计数据质量[J]．统计与决策，1998，（9）．（下转第22页）

（上接第50页）

[2]唐修亭，韩鹏．试论新时期统计数据质量问题[J]．统计与咨询，2000，(6)．

[3]贾维洁．统计数据质量之我见[J]．统计科学与实践，2002，(1)．

[4]田静．关于统计数据质量问题的思考[J]．统计与决策，2005，(11).

[5]陈郁．弄虚作假统计数字现象透视[J]．中国统计，2002，(2)．

[6]史象奎．陈鹏程．当前统计制度报表存在的问题与改革探讨[J]．北京统计，2002，(7)．

[7]刘建平．我国工业抽样调查研究[J]．山西财大报，2002，(2)．

[8]陆蓉．运用抽样调查方法提高统计数据质量[J]．上海财经大学学报，2004，(4)．

[9]余芳东．国外统计数据质量评价和管理办法及经验[J]．北京统计，2003，(7)．

[10]李群．统计数据质量评估方法之我见[J]．上海统计，2004，(8)．

数据分析论文篇（7）

2.物流管理信息检索的问题

目前我国企业多数采用的物流管理信息检索模型查询过程花费时间较长，占用数据库资源比较多，具体原因如下：

2.1数据库记录数据量问题

随着企业的发展，越来越多的企业数据被录入到数据库中，数据库也随着每天的物流业务增加而急剧膨胀。一些大的企业，由于业务繁忙，每天物流信息非常大，单位的物流管理系统中信息的数据甚至超过了上千万条，可谓海量存储。因此，信息查询系统很难实现货物信息的快速查询。因此实现快速地从这些超大容量的数据库中提取数据（查询）、分析、统计以及提取数据后进行数据显示已成为企业物流管理系统管理员和数据库管理员亟待解决的难题。

2.2每个企业使用的检索方式不同

由于各个数据库数字资源描述和表达方式的不同，导致了检索途径和方法的不同，再加上使用不同的检索软件而造成的数据库检索接口不同，风格迥异，同样的查询题目，职工需要频繁登录与退出各个数据库，在不同的数据系统中重复输入检索词，重复查找。在这过程中，职工查找货物的信息时，涵盖该主题的数据库，选择了数据库以后，还要逐个熟悉各个数据库的检索规则和用户界面等。这些无疑都会增加读者检索的时间，降低了其检索效率。读者数量比较多的时候，还可能造成系统端口的堵塞，降低数据库的访问效率。

3.基于数据前端分析的信息检索模型

数据前端分析检索，是指对在软件界面中输入的数据信息进行先期处理，便于后期在数据库查询时进行不必要的资源占用。本文通过对企业物流管理系统进行信息查询深入调查时，发现检索的内容多为货物的运送状况，例如，现在所处位置，对方是否发货，对方是否收货等信息，因此，我们可以根据货物发送货物的出发地和目的地范围，对检索信息进行分类。例如某批货物是在省内进行运输，那么通过前台信息的输入确认，可以在数据库中查询时，将检索的货物名称在省内数据区域进行查询。

4.检索系统的实现

数据前端分析的物流管理信息检索模型设计采用JAVA语言进行设计，JAVA语言是一种安全的、稳定的、简单的、由C和C++衍生出来的面向对象的编程语言，通过它的强大功能和兼容性，对物流管理信息系统进行开发。后台数据库服务器采用ORACLE10g，ORACLE全名ORACLEDataBase，是甲骨文公司的一款关系数据库，目前在软件开发市场占据主要份额。通过功能强大的JAVA语言和功能丰富的ORACLE10g数据库，研发出一款专业的关于物流管理系统信息系统的检索模型。

数据分析论文篇（8）

一、目前我国统计工作现存的不足之处

领导的重视程度不够，或者说，一些领导干部在如何正确看待统计工作的问题上存在有一定的误区，从而出现了“拍脑袋、凑数字、瞎估计”的现象，统计工作，由于统计方法、手段等的不合理、不完善，造成了统计性误差的存在;统计数据的真伪，由于缺乏有效的监管措施，在一定程度上，存在着人为地虚报或瞒报的成份。

二、存在于统计工作中的“数据误差”产生的主要原因

第一，行政部门领导干部的干预，领导干预对统计信息的准确性的影响非常大，多年以来，由于受到领导干部业绩考核指标的影响，许多基层干部出于无奈，不得不故意虚报统计数据，来为自己的“政绩”增光添彩。同时，其主管部门对此也处于无奈的窘境。第二，统计数据采集不准确。数据采集是统计数据的源头，力求统计信息准确就必须保证所采集的数据是真实的。现在的现状是:(1)报表人责任心不强，报表随意性大。(2)报表人员素质不高，对报表不理解。(3)很多的企业不重视统计，有的则是会计人员兼职。(4)某些地区、部门、行业，出于对自身利益的考虑，故意瞒报统计数据，以达到少缴、甚至不缴国家规定必须缴的一些规费、税金，从而导致了国家的相关规费、税费的大量流失。而这些地区、部门、行业，却因此而得到了大量的不当收益。第三，虽然我国的统计工作已经与国际接轨，但由于我国正在建设有中国特色的社会主义市场经济，现阶段仍处于发展中国家的阶段。统计工作中的统计方法、手段，还需要进一步的规范和完善。因此在数据采用及事理分析中，就容易产生错误，造成统计数据质量下降，影响统计工作。

三、针对我国目前统计工作中存在的“数据误差”应对的策略

1.加大对统计工作的宣传力度。力争使每一位统计参与者，特别是党政领导干部都要了解统计工作对我国国民经济建设起的巨大作用，努力提高他们对统计工作的正确认识，得到他们对统计工作的支持。开展统计法制教育，以法治统。通过多种多样的形式进行普及《统计法》的教育，从思想上提高他们对提高统计数据质量的认识，促使他们在实际工作中坚持原则，敢于同影响统计数字真实性的违法行为作斗争，真正做到以法治统。其次，还可对统计人员进行《统计法》的理论考试，让法深入人心，以便他们理直气壮地按法办事。再次，对大中专学校经济类专业应加设一门《统计法》基本知识课，以便学生将来走上统计工作岗位后能够依法办事，知法工作，把保证统计数据质量放在首要地位，为党政领导及企业管理和决策提供可靠的依据。

2.对目前干部考核中一些片面强调GDP增长的业绩考核制度进行改革。长期以来，统计工作中存在着“以数字论英雄”的局面，从而出现了“官出数字、数字出官”的怪现象。淡化统计数字的政绩观，建立科学的干部考核制度。这是走出“官出数字、数字出官”怪圈，让统计数据不受个人意志左右的治本之策。首先应当在调查研究的基础上，制定切实可行的考核目标，防止因考核目标不切实际而引发的虚报浮夸的歪风蔓延。其次，应完善干部实绩考核统计制度，将定量考核与定性考核有机结合起来，改进目标考核实绩的统计方法，确保目标考核实绩数据的准确性;最后，应建立干部政绩公议制度，扩大干部政绩考核的民主。实施领导干部政绩公议制度可改变过去那种干部只“对上负责、不对下负责”的弊端，提高干部工作的公开化、民主化程度，不断增强干部政绩考核准确性。增强他们工作的责任感和为民服务意识。

3.完善统计工作中的统计考核指标体系，以及与此相适应的统计方法，从而在源头上来遏制问题产生的基本动因。必须对我国统计工作现状进行深入的分析，总结出统计工作中的行之有效的方法。在现实工作中，政府已经相应成立了国家统计局直属调查队，其隶属关系不在当地，因而可以免受许多人为因素的干扰，为我国宏观经济决策提供重要的参考依据。

4.努力提高我们统计从业工作者的自身素质。统计工作者自身素质的提高，是做好统计工作的首要的、基本的条件。试想，如果一个统计工作者对统计工作不太了解，统计手段落后，基层统计队伍不稳定，我国统计工作的质量的提高又从何谈起?

5.综合使用行政手段、法律手段和经济手段，提高统计违法成本。可以从以下三方面着手:一是对违法的统计工作人员除依法处理外，一律清除出统计队伍。二是对参与违法的领导，一经查实，必须依照有关法规从重从快处罚，决不手软，达到以儆效尤的目的。三是将处罚费用与统计违法行为责任人挂钩，从经济上处罚责任人。这样，就可以把行政手段、法律手段和经济手段有机结合起来进行综合处罚，让违法者得不偿失。

四、结论

统计工作必须还要强调“以人为本”，以人的全面发展来带动统计工作的正确发展;并通过统计工作的正确发展，反过来推进人的全面发展。此外，充分运用现有的科技成果，使政府各职能部门数据共享，使得虚报、瞒报者无处藏身。与此同时，还可以利用网络资源，在查出虚报、瞒报的同时，去引起、带动职能部门对其进行专项调查，从而使统计工作能真正地服务于国家建设，同时服务于党风廉政建设，服务于人民的需要。但这是一个漫长的过程，需要一步一步地去努力。我相信统计工作在国家宏观调控和微观管理下，在广大统计工作者的努力下，其可靠性、真实性和权威性会逐步提高，统计数据失真的现象会得到有效的控制。统计工作会随着大家的共同努力会不断提高。

参考文献:

[1]杨伟胜，魏宏.统计在企业管理中的应用[J].统计月报，2002，(7).

数据分析论文篇（9）

【摘要】数据挖掘是从海量数据中发现和提取知识和信息的过程。在管理会计领域中运用数据挖掘技术，寻求和发现更多的企业顾客、供应商、市场以及内部流程优化的信息，将为企业决策者提供更为广泛而有效的决策依据，提高企业战略竞争能力。本文简要介绍了数据挖掘的基本概念和方法，在此基础上重点分析了数据挖掘技术在作用成本和价值链分析，产品、市场和顾客分析以及财务风险防范等方面的应用。【关键词】数据挖掘信息管理会计应用引言近年来，数据挖掘技术引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的知识和信息。根据美国GAO（GeneralAccountingOffice）的报告，联邦政府利用数据挖掘技术在提高政府服务水平、分析科学数据、管理人力资源、侦察犯罪和恐怖活动等方面发挥了巨大的作用。尤其是在9·11以后，美国的反恐活动需要从大量的数据中搜寻有用的信息，数据挖掘技术功不可没。除此以外，数据挖掘也被广泛用于商业活动。根据ThomasG,JohnJ和Il-woonKim对财富500强企业的CFO的调查，在收到的有效反馈中，65％的企业正在使用数据挖掘技术。支持使用数据挖掘技术的企业称数据挖掘技术的有效使用能够为企业创造2000到2400万的净利润。而在对数据挖掘使用领域的调查中发现：24％用在会计领域，42％用在金融领域，用在信息系统和市场领域分别占19％和5％。目前数据挖掘技术的应用多集中在金融保险、医疗保健、零售部门和电信部门。而对数据挖掘在提高企业内部经营管理、构筑企业竞争优势方面的应用鲜有提及。一、数据挖掘技术的含义数据挖掘是从数据当中发现趋势和模式的过程，它融合了现代统计学、知识信息系统、机器学习、决策理论和数据库管理等多学科的知识。它能有效地从大量的、不完全的、模糊的实际应用数据中，提取隐含在其中的潜在有用的信息和知识，揭示出大量数据中复杂的和隐藏的关系，为决策提供有用的参考。二、数据挖掘的方法和基本步骤（一）数据挖掘的主要方法常用的数据挖掘方法主要有决策树（DecisionTree）、遗传算法（GeneticAlgorithms）、关联分析（AssociationAnalysis）、聚类分析（ClusterAnalysis）、序列模式分析（SequentialPattern）以及神经网络（NeuralNetworks）等。（二）数据挖掘的基本步骤SAS研究所提出的SEMMA方法是目前最受欢迎的一种数据挖掘方法，其描述的数据挖掘的大致过程包括取样（Sample）、探索（Explore）、修改（Modify）、模型（Model）和评价（Assess）。1.数据取样在进行数据挖掘之前，首先要根据数据挖掘的目标选定相关的数据库。通过创建一个或多个数据表进行抽样。所抽取的样本数据量既要大到足以包含有实际意义的信息，同时又不至于大到无法处理。2.数据探索数据探索就是对数据进行深入调查的过程，通过对数据进行深入探察以发现隐藏在数据中预期的或未被预期的关系和异常，从而获取对事物的理解和概念。3.数据调整在上述两个步骤的基础上对数据进行增删、修改，使之更明确、更有效。4.建模使用人工神经网络、回归分析、决策树、时间序列分析等分析工具来建立模型，从数据中发现那些能够对预测结果进行可靠预测的模型。5.评价就是对从数据挖掘过程中发现的信息的实用性和可靠性进行评估。[1][2][][]三、数据挖掘在管理会计中的运用（一）数据挖掘在管理会计中运用的重要意义1.提供有力的决策支持面对日益激烈的竞争环境，企业管理者对决策信息的需求也越来越高。管理会计作为企业决策支持系统的重要组成部分，提供更多、更有效的有用信息责无旁贷。因此，从海量数据中挖掘和寻求知识和信息，为决策提供有力支持成为管理会计师使用数据挖掘的强大动力。例如，数据挖掘可以帮助企业加强成本管理，改进产品和服务质量，提高货品销量比率，设计更好的货品运输与分销策略，减少商业成本。2.赢得战略竞争优势的有力武器实践证明数据挖掘不仅能明显改善企业内部流程，而且能够从战略的高度对企业的竞争环境、市场、顾客和供应商进行分析，以获得有价值的商业情报，保持和提高企业持续竞争优势。如，对顾客价值分析能够将为企业创造80％价值的20％的顾客区分出来，对其提供更优质的服务，以保持这部分顾客。>3.预防和控制财务风险利用数据挖掘技术可以建立企业财务风险预警模型。企业财务风险的发生并非一蹴而就，而是一个积累的、渐进的过程，通过建立财务风险预警模型，可以随时监控企业财务状况，防范财务危机的发生。另外，也可以利用数据挖掘技术，对企业筹资和投资过程中的行为进行监控，防止恶意的商业欺诈行为，维护企业利益。尤其是在金融企业，通过数据挖掘，可以解决银行业面临的如信用卡的恶意透支及可疑的信用卡交易等欺诈行为。根据SEC的报告，美国银行、美国第一银行、联邦住房贷款抵押公司等数家银行已采用了数据挖掘技术。（二）数据挖掘在管理会计中的应用1.作业成本和价值链分析作业成本法以其对成本的精确计算和对资源的充分利用引起了人们的极大兴趣，但其复杂的操作使得很多管理者望而却步。利用数据挖掘中的回归分析、分类分析等方法能帮助管理会计师确定成本动因，更加准确计算成本。同时，也可以通过分析作业与价值之间的关系，确定增值作业和非增值作业，持续改进和优化企业价值链。在ThomasG,JohnJ和Il-woonKim的调查中，数据挖掘被用在作业成本管理中仅占3％。2.预测分析管理会计师在很多情况下需要对未来进行预测，而预测是建立在大量的历史数据和适当的模型基础上的。数据挖掘自动在大型数据库中寻找预测性信息，利用趋势分析、时间序列分析等方法，建立对如销售、成本、资金等的预测模型，科学准确的预测企业各项指标，作为决策的依据。例如对市场调查数据的分析可以帮助预测销售；根据历史资料建立销售预测模型等。3.投资决策分析投资决策分析本身就是一个非常复杂的过程，往往要借助一些工具和模型。数据挖掘技术提供了有效的工具。从公司的财务报告、宏观的经济环境以及行业基本状况等大量的数据资料中挖掘出与决策相关的实质性的信息，保证投资决策的正确性和有效性。如利用时间序列分析模型预测股票价格进行投资；用联机分析处理技术分析公司的信用等级，以预防投资风险等。4.顾客关系管理顾客关系管理是提升企业竞争优势的有力武器。首先，要对顾客群体进行分类。通过对数据仓库的分类和聚类分析，可发现群体顾客的行为规律，从而对顾客进行分组，实行差别化服务；其次，对顾客的价值进行分析，根据帕累托定律，20％的客户创造了企业80％的价值。针对这种情况，公司可以从客户数据库中挖掘出这部分顾客，对这部分顾客的行为、需求以及偏好进行动态跟踪和监控，并根据不同的顾客群的不同特点提供相应的产品和服务，从而与顾客建立长期的合作关系，提高顾客保持力。如在电信部门，对电信数据进行多维分析有助于识别和比较不同顾客对于产品的不同需求，从而使企业提供更有特色的产品，为顾客提供更优质的服务。5.产品和市场分析品种优化是选择适当的产品组合以实现最大的利益的过程，这些利益可以是短期利润，也可以是长期市场占有率，还可以是构建长期客户群及其综合体。为了达到这些目标，管理会计师不仅仅需要价格和成本数据，有时还需要知道替代品的情况，以及在某一市场段位上它们与原产品竞争的状况。另外企业也需要了解一个产品是如何刺激另一些产品的销量的等等。例如，非盈利性产品本身是没有利润可言的，但是，如果它带来了可观的客户流量，并刺激了高利润产品的销售，那么，这种产品就非常有利可图，就应该包括在产品清单中。这些信息可根据实际数据，通过关联分析等技术来得到。6.财务风险分析管理会计师可以利用数据挖掘工具来评价企业的财务风险，建立企业财务危机预警模型，进行破产预测。破产预测或称财务危机预警模型能够帮助管理者及时了解企业的财务风险，提前采取风险防范措施，避免破产。另外，破产预测模型还能帮助分析破产原因，对企业管理者意义重大。在20世纪30年代，Smith和Winakor率先进行了破产预测的尝试。随后到了20世纪60年代，Altman利用多维判别式分析（MultivariateDiscriminantAnalysis）方法提出的Z-score破产预测模型取得了很大的成功，预测准确率高达90％以上。此后，数据挖掘技术包括多维判别式分析（MultivariateDiscriminantAnalysis）、逻辑回归分析（LogisticRegressionAnalysis）、遗传算法、神经网络以及决策树等方法在企业破产预测中得到了广泛的应用。四、结束语随着我国加入WTO，企业面临的竞争压力也越来越大。充分利用信息技术的最新成果，挖掘企业自身潜力，加强企业内部管理，提升企业竞争力刻不容缓。数据挖掘技术的推广应用虽然受到成本和技术的限制，但是如果能取得企业高层管理者的支持，数据挖掘的应用将会有很大的发展前景。

数据分析论文篇（10）

基层统计工作是获取经济运行的客观数据，进而分析和认识经济发展的客观态势，即是发现宏观经济发展趋势的重要手段，又是政府进行宏观经济管理，制定正确地宏观决策的重要依据。从这一意义上说，就要求我们掌握真实而准确的、详实的基础统计资料。可以说，统计数据和统计资料真实、详细与否直接关系到能否正确认识经济运行的基本态势，对切准经济发展及其未来趋势的脉搏具有十分重要的意义。数据质量是统计工作的生命线，提高基层统计数据质量是做好统计工作的基础和前提。在当前统计工作中，基层统计工作出现的一些新情况、新问题，影响统计数据质量，制约统计工作水平的提升。因此提高基层统计数据质量问题是当前和今后一段时期统计工作的重要任务，必须引起高度重视。笔者结合县级统计部门基层工作的实践，就影响基层统计数据质量的因素做一些分析，并就如何提高基层统计数据质量进行粗浅的探讨。

一、影响基层统计数据质量的主要因素

统计基层基础工作薄弱。主要表现在：一是部分基层统计单位统计岗位落实不到位，统计人员多数为兼职，而且变动频繁，稳定性差。调查表明，大中型的企事业单位统计工作相对比较规范，有专门的统计机构与专职的统计人员，而一些小型单位，特别是私营、个体企业对统计工作重视不够，多数统计人员身兼数职，统计工作只是附带性的工作，而且经常变动，稳定性差，统计数据质量得不到保障；二是部分基层统计单位原始记录不全，未建立规范的统计台帐和统计制度，一些私营、个体企业，对统计工作不完全配合，填报的统计数据不能真实反映企业的实际情况，统计数据的质量存在较大偏差；三是基层开展统计工作所必须的经费和保障条件不能得到保障；四是部分基层单位分管统计的领导对统计工作不重视，对统计数据审核不严把不好关。统计方法制度不够完善，统计指标体系与指标设置不够科学。统计调查方法相对滞后。全面调查和抽样调查在实际工作中存在一定的局限性。全面调查在基层工作中有时难免存在调查者与被调查者之间，在搜集资料单位的上下左右之间，往往容易引起矛盾，在层层上报过程中，容易受人的主观因素影响，所以全面统计的结果有时并不全面。对基层的统计抽样工作来说：如规模以下工业企业、限额以下批发零售贸易企业、私营、个体经济等抽样工作，基层统计人员由于对抽样调查认识不到位，往往凭自己的主观臆断来确定抽样的样本点，抽样调查缺乏科学性导致调查样本的随机性、代表性难以保证，影响了调查样本数据的准确性，扩大了抽样误差。现有统计指标体系存在第一、二产业品种繁多，而满足国民经济核算需要的第三产业报表资料相对较少，影响统计数据质量；在指标设置上存在专业之间个别指标重复上报的现象，同时个别指标的设置没有充分考虑基层的实际，存在指标理解上的偏差。统计数据评审制度还不够健全。虽然一些主要经济指标如GDP已经建立数据联审评估制度，但统计数据评审制度还存在与GDP相关主要数据评估不够配套、同时数据评估制度还存在操作性不强等问题。基层统计人员工作积极性不高，对统计数据来源把关不严。首先，由于统计体制不科学、统计工作地位和待遇不高，基层统计人员积极性不高，责任心不强加之身兼数职，任务重，对日常的统计工作基本上是疲于应付，统计数据质量难以得到保证；其次，县级统计人员存在对统计数据的来源把关不严。由于统计部门长期受一无权二无钱、求人的事情多、自己说了算的时候少的认识的影响，对基层上报数据缺乏严格要求，加上评估论证不完全到位，有的专业存在下面报多少是多少、怎么报怎么算的问题，同时基层统计工作存在统计执法不严的问题，使少数企业多存侥幸心理，这在一定程度上影响统计数据质量；第三，基层统计人员的工作能力和水平影响统计数据的质量。基层统计人员缺乏系统的学习培训，其思想观念、工作思路滞后于新形势下统计工作的要求，是影响基层统计数据的质量不可忽略的重要因素。

二、提高基层统计数据质量的对策

提供高质量统计数据是统计工作的中心任务和根本职责，是统计事业改革和建设的出发点和归宿点，亦是新时期和新形势下对统计工作提出的基本要求。提高统计数据质量，是统计工作永恒的主题。统计数据质量不仅受统计工作各环节的影响，而且受到相关领导、统计人员素质以及数据采集处理技术条件等多种因素的制约，统计数据质量实际上是多方面工作水平的综合反映。针对基层统计数据质量存在的问题，提出提高基层统计数据质量的主要方法和途径。

加强统计基层基础工作建设，提高基层统计人员素质。各级统计部门要严格按照上级统计部门关于加强统计“双基”工作的要求，督促和帮助调查单位加强统计基础工作建立健全机构，原始记录、统计台帐及各项统计管理制度，促进统计基础工作进一步规范。要建立健全和严格实施分级负责的统计数据质量管理责任制度。同时加强业务培训，提高基层统计人员的综合业务能力。要真正提高基层人员的综合素质，就必须认真做好在职人员的的培训工作，使培训工作目标化、制度化，最大限度地提高基层统计人员的业务能力、理论水平、职业道德。针对基层统计人员在实际工作中部分统计人员存在对统计指标的理解不到位、大多数统计人员的知识结构与层次不能满足新形势下统计工作的新要求，培训时应注意：培训对象上向县乡两级及基层调查单位倾斜；培训内容上主要是开拓视野，改善知识结构，提高专业知识和操作技能等方面知识，特别是现代统计调查、统计整理、统计分析技能和计算机应用技术；培训效果上注重可操作性与实用性，使基层统计人员能够学以致用，达到预期的培训效果。只有加大培训的力度，县乡及基层单位的统计人员才能克服专业范围与自身水平的限制，真正做好基层统计工作。

进一步完善统计调查体系。坚持全面调查和抽样调查相结合的原则，凡适合抽样调查的，一律用抽样调查方法。对统计指标体系的设置应本着“准确、简化、系统、高效”的方针，本着减轻基层负担的原则，对现行的统计指标体系进行科学调整。完善统计调查体系要以经济普查制度为基础，进一步完善第一、二产业的调查体系，加强完善服务业的调查制度。其次不断推广抽样调查在工业、批发另售贸易餐饮业、劳动、社会、信息、服务等范围。再次在完善统计指标体系的基础上，完善统计制度。在指标设置上，淡化经济指标，强化社会指标，以方便基层填写为原则。对现有统计指标的使用价值(适用性)进行甄别，坚决清除过时的或使用价值不大的统计指标，可以通过加工整理或推算以及本该由统计部门核算的指标也从报表中删去，适当增加和经济与社会协调发展、全面建设小康社会、和谐社会、文化产业、新兴产业等相关的统计指标。加强统计法制宣传，依法开展统计工作。加强统计法制建设，既是统计工作自身建设的本质需要，更是社会经济发展和政治文明建设的客观要求。着眼于推动统计工作不断走上规范化、科学化、法制化轨道，实现依法治统、依法统计，要坚持把普法、执法、队伍建设和优化执法氛围四个轮子并驾齐驱，强化统计法制建设，促进统计事业的全面发展。加大普法宣传力度，广泛宣传新的统计法，使各级领导和统计调查对象增强统计法制观念，深刻认识按时、如实地报送统计报表与统计资料是每个统计调查应尽的义务，虚报、瞒报、拒报、迟报乃至伪造、篡改统计资料均属违法行为。使每个统计调查单位对统计工作的支持、配合落到实处。同时建立经常性的统计数据质量检查制度。统计数据质量的检查要与统计执法有机结合起来，不断加大频率、加大力度。建立科学有效的数据质量评估体系。统计数据质量的监控与评估是一项复杂的、长期的系统工程，可在政府统计部门内建立权威的数据质量监控和评估中心，建立健全完善的统计数据产品质量管理体系，对统计数据生产全过程实行全面质量管理，提高统计数据的完整性和透明度。完善数据质量评估体系时要围绕党政领导关注的主要经济考核指标加大审核、评估的力度，多角度、全方位的进行审核评估。对与相关部门统计有联系的指标，加强与部门的联合审核力度，其他指标要加大与主要经济指标相关联的指标的审核力度，使统计数据真实反映客观经济的运行情况。

参考文献：

张秀丽.提高基层统计数据质量的思考[J].辽宁经济统计，2009，(3)27.

上一篇: 课堂教学方式下一篇: 经济学实证论文