计算机研究与发展杂志-2015年第02期-学术点评

计算机研究与发展 2015年第02期杂志文档列表

计算机研究与发展杂志大数据管理专题

前言

摘要：已故的Jim Gray在其《事务处理》一书中提到：6000年以前，苏美尔人（Sumerians）就使用了数据记录的方法，已知最早的数据是写在土块上，上面记录着皇家税收、土地、谷物、牲畜、奴隶和黄金等情况．随着社会的进步和生产力的提高，类似土块的处理系统演变了数千年，经历了殷墟甲骨文、古埃及纸莎草纸、羊皮纸等．19世纪后期，打孔卡片出现，用于1890年美国人口普查，用卡片取代土块，使得系统可以每秒查找或更新一个“土块”（卡片）．可见，用数据记录社会由来已久，而数据的多少和系统的能力是与当时的社会结构的复杂程度和生产力水平密切相关的。

261-264

计算机研究与发展杂志大数据管理理论与方法

大数据隐私管理

摘要：信息化和网络化的高速发展使得大数据成为当前学术界和工业界的研究热点，是IT业正在发生的深刻技术变革．但它在提高经济和社会效益的同时，也为个人和团体的隐私保护以及数据安全带来极大风险与挑战．当前，隐私成为大数据应用领域亟待突破的重要问题，其紧迫性已不容忽视．描述了大数据的分类、隐私特征与隐私类别，分析了大数据管理中存在的隐私风险和隐私管理关键技术；提出大数据隐私主动式管理建议框架以及该框架下关于隐私管理技术的主要研究内容，并指出相应的技术挑战．

265-281

分布式大数据函数依赖发现

摘要：在关系数据库中，函数依赖发现是一种十分重要的数据库分析技术，在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用．现有的函数依赖发现算法主要针对集中式数据，通常仅适用于数据规模比较小的情况．在大数据背景下，分布式环境函数依赖发现更富有挑战性．提出了一种分布式环境下大数据的函数依赖发现算法，其基本思想是首先在各个节点利用本地数据并行进行函数依赖发现，基于以上发现的结果对函数依赖候选集进行剪枝，然后进一步利用函数依赖的左部（1eft hand side，LHS）的特征，对函数依赖候选集进行分组，针对每一组候选函数依赖并行执行分布式环境发现算法，最终得到所有函数依赖．对不同分组情况下所能检测的候选函数依赖数量进行了分析，在算法的执行过程中，综合考虑了数据迁移量和负载均衡的问题．在真实的大数据集上的实验表明，提出的检测算法在检测效率方面与已有方法相比有明显的提升．

282-294

Web大数据环境下的不一致跨源数据发现

摘要：Web中不同数据源之间的数据不一致是一个普遍存在的问题，严重影响了互联网的可信度和质量．目前数据不一致的研究主要集中在传统数据库应用中，对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少．针对跨源Web数据的多源异构特性和Web大数据的5v特征，将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和web对象数据模型；研究不同类型的web数据不一致特征，建立不一致分类模型、一致性约束机制和不一致推理代数运算系统；从而在跨源Web数据一致性理论体系的基础上，实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法，并结合这两种方法的特点，基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法．该框架在Hadoop平台上对多个B2C电子商务大数据进行实验，并与传统架构和其他方法进行了比较，实验结果证明该方法具有良好的精确性和高效性．

295-308

计算机研究与发展杂志大数据管理系统与技术

大数据群体计算中用户主题感知的任务分配

摘要：大数据问题所固有的规模繁杂性、高速增长性、形式多样性、价值密度低等特点为传统计算处理方法带来了严峻的挑战．一方面，大数据的规模繁杂性和高速增长性带来了海量计算分析的需求；另一方面，形式多样性和价值密度低等特点使得大数据计算任务高度依赖复杂认知推理技术．针对大数据计算中海量计算分析和复杂认知推理需求并存的技术挑战，传统的基于计算机的算法已经无法满足日益苛刻的数据处理要求，而基于人机协作的群体计算是有效的解决途径．在大数据群体计算中，最基础的就是任务的分配方式．考虑到大量网络用户不同的专业背景、诚信程度，因此不能简单随机地将要处理的任务交给大众来完成．针对此问题，提出了一种基于用户主题感知的迭代式任务分配算法．利用已知答案的测试问题迭代地检测不同人群的专业背景和完成任务的准确率．在充分了解用户真实主题和准确率的情况下为他们分配合适的问题．通过和随机任务分配算法在模拟数据和真实数据上的对比，有效显示了基于主题感知任务分配算法的准确性．

309-317

分布式流处理技术综述

摘要：随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富，在越来越多的领域出现了对海量、高速数据进行实时处理的需求．由于此类需求往往超出传统数据处理技术的能力，分布式流处理模式应运而生．首先回顾分布式流处理技术产生的背景以及技术演进过程，然后将其与其他相关大数据处理技术进行对比，以界定分布式流数据处理的外延．进而对分布式流处理所需要考虑的数据模型、系统模型、存储管理、语义保障、负载控制、系统容错等主要问题进行深入分析，指出现有解决方案的优势和不足．随后，介绍S4，Storm，Spark Streaming等几种具有代表性的分布式流处理系统，并对它们进行系统地对比．最后，给出分布式流处理在社交媒体处理等领域的几种典型应用，并探讨分布式流处理领域进一步的研究方向．

318-332

大数据分析与高速数据更新

摘要：大数据对于数据管理系统平台的主要挑战可以归纳为volume（数据量大）、velocity（数据的产生、获取和更新速度快）和variety（数据种类繁多）3个方面．针对大数据分析系统，尝试解读velocity的重要性和探讨如何应对velocity的挑战．首先比较事物处理、数据流、与数据分析系统对velocity的不同要求．然后从数据更新与大数据分析系统相互关系的角度出发，讨论两项近期的研究工作：1）MaSM，在数据仓库系统中支持在线数据更新；2）LogKV，在日志处理系统中支持高速流入的日志数据和高效的基于时间窗1：2的连接操作．通过分析比较发现，存储数据更新只是最基本的要求，更重要的是应该把大数据的从更新到分析作为数据的整个生命周期，进行综合考虑和优化，根据大数据分析的特点，优化高速数据更新的数据组织和数据分布方式，从而保证甚至提高数据分析运算的效率．

333-342

计算机研究与发展杂志面向新硬件的大数据管理

基于PCM的大数据存储与管理研究综述

摘要：大数据已经成为当前学术界和工业界的一个研究热点．但由于计算机系统架构的限制，大数据存储与管理在性能、能耗等方面均面临着巨大的挑战．近年来，一种新型存储介质——相变存储器（phase Change Memory，PCM）——凭着其非易失、字节可寻址、读取速度快、低能耗等诸多优点，为计算机存储体系结构和数据管理设计带来了新的技术变革前景，也为大数据存储和管理带来了新的契机．PCM既是一种非易失存储介质，同时又具备了内存的字节可寻址和高速随机访问特性，模糊了主存和外存的界限，有望突破原有的存储体系架构，实现更高性能的存储与数据管理．概述了PCM存储器的发展现状；总结了目前基于PCM的持久存储技术和基于PCM的主存系统等方面的研究进展；并讨论了PCM在多个领域的应用现状．最后，给出了基于PCM的大数据存储与管理研究的若干未来发展方向，从而为构建新型存储架构下的大数据存储与管理技术提供有价值的参考．

343-361

基于GPU加速的超精简型编码数据库系统

摘要：在数据爆发式增长的今天，特别是通信、金融、互联网等领域产生的大规模数据，在存储和查询方面给业界带来了前所未有的压力．在这种背景下，当前的数据库和数据仓库系统通过对数据进行压缩编码，在节约空间的同时减少了数据表查询时所需的I／O，获得性能上的提升，但大部分系统在面对实际大规模企业数据应用时依然无法在压缩比、导入时间或查询性能上完全满足企业需求．通过基于一定的规则对数据重新进行编码和精简，实现了一种新型超精简型编码的数据库系统HEGA—STORE．采用行列混合存储的架构；提出基于列内和列间规则挖掘和编码的数据导入存储计划；同时在规则挖掘和编码中使用GPU作为协处理器并行处理算法从而提高效率．通过开发编解码原型系统，对大规模网易易信通信记录数据和网易后台日志数据的导入和查询分别进行了测试，并与其他压缩编码算法和数据库、数据仓库产品进行比较．对比实验结果表明，相比同类数据库和数据仓库产品，原型系统拥有极高的压缩比，并且在导入速度和全表扫描查询速度也处于领先地位，同时使用GPU和CPU协作进行数据处理时也能进一步提高系统性能，验证了提出的超精简型编码数据库系统的实际应用价值．

362-376

一种异构集群中能量高效的大数据处理算法

摘要：集群的能量消耗已经超过了其本身的硬件购置费用，而大数据处理需要大规模的集群耗费大量时间，因此如何进行能量高效的大数据处理是数据拥有者和使用者亟待解决的问题，也是对能源和环境的一个巨大挑战．现有的研究一般通过关闭部分节点以减少能量消耗，或者设计新的数据存储策略以便实施能量高效的数据处理．通过分析发现即便使用最少的节点也存在很大的能源浪费，而新的数据存储策略对于已经部署好的集群会造成大规模的数据迁移，消耗额外的能量．针对异构集群下I／O密集型的大数据处理任务，提出一种新的能量高效算法MinBalance，将问题分为节点选择和负载均衡两个步骤．在节点选择阶段采用4种不同的贪心策略，充分考虑到节点的异构性，尽量选择最合适的节点进行任务处理；在负载均衡阶段对选择的节点进行负载均衡，以减少各个节点因为等待而造成的能量浪费．该方法具有通用性，不受数据存储策略的影响．实验表明MinBalance方法在数据集较大的情况下相对于传统关闭部分节点的方法可以减少超过60％的能量消耗．

377-390

2013年《计算机研究与发展》高被引论文TOP10

摘要：孟小峰，慈祥．大数据管理：概念、技术与挑战[J]．计算机研究与发展，2013，50（1）：146—1691Meng Xiao feng and Ci Xiang．Big Data Management：Concepts，Techniques and Challenges[J]．Journal of Computer Research and Development，2013，50（1）：146—169，

390-390

计算机研究与发展杂志网络大数据管理

大规模图数据匹配技术综述

摘要：在大数据时代海量的多源异构数据间存在着紧密的关联性，图作为表示数据之间关系的基本结构在社交网络分析、社会安全分析、生物数据分析等领域有着广泛应用．在大规模图数据上进行高效地查询、匹配是大数据分析处理的基础问题．从应用角度对用于图查询的图数据匹配技术的研究进展进行综述，根据图数据的不同特征以及应用的不同需求对图匹配问题分类进行介绍．同时，将重点介绍精确图匹配，包括无索引的匹配和基于索引的匹配，以及相关的关键技术、主要算法、性能评价等进行了介绍、测试和分析．最后对图匹配技术的应用现状和面临的问题进行了总结，并对该技术的未来发展趋势进行了展望．

391-409

2015年起《计算机研究与发展》双月将固定领域专题

摘要：致广大读者和作者：本刊从2015年起将双数期约1／2版面固定为某个领域，每年将策划该领域的一个热点主题进行集中报道．具体的征文通知将在专题发表前6个月，请关注期刊网站!此外，本刊依然欢迎自由来稿．谢谢!具体领域分布及执行领域编委如下。

409-409

符号社会网络中正负关系预测算法研究综述

摘要：一些网络中的边根据其潜在涵义可分为正关系和负关系，若用正号和负号来标记网络中的边，则形成一个符号网络．符号网络的应用场景非常丰富，在社会学、信息学、生物学等多个领域广泛存在，逐渐成为当前研究的热点之一．对符号社会网络中链接的正负预测问题进行研究，其成果对社会网络的个性化推荐、网络中异常节点的识别、用户聚类等都具有非常重要的应用价值．主要介绍符号社会网络中正负关系预测问题在国内外的研究现状和最新进展．首先介绍了社会结构平衡理论和地位理论，并将目前主要的预测算法按照设计思路分成两类：基于矩阵的符号预测算法和基于分类的符号预测算法，详细介绍各类算法的基本思路，并从算法效率、准确性和可伸缩性等角度进行详细的对比和分析，总结了符号社会网络预测问题具有的一些特点以及所面临的挑战，同时指出未来可能的发展方向，为相关研究人员提供有价值的参考．

410-422

基于低秩和稀疏矩阵分解的多源融合链接预测算法

摘要：近年来，链接预测成为社会网络和其他复杂网络链接挖掘中的热门研究领域．在链接预测问题中，经常会存在用来提高预测效果的附加数据信息源，这些数据可以用干预测网络中的链接是否存在．在所有的数据源中，最主要的数据源在链接预测中起到最重要的作用．因此，设计具备健壮性的算法用于充分利用所有数据源的信息来进行链接预测十分重要，算法还需要平衡主数据源和附加数据源的关系，使得链接预测能够获得更好的效果．同时，传统基于拓扑结构计算的无监督算法大多数通过计算网络中节点间的评分值来解决预测链接存在可能性的问题，这些方法能够获得有效的结果．在链接预测方法中，最关键的一步是构建准确的输入矩阵数据．由于许多真实世界数据集存在噪声，这导致降低了大多数链接预测模型的效果．提出了一种新的链接预测方法，通过多个数据源的融合，兼顾地利用了主数据源的信息和其他附加数据源的信息．接着，主数据源和其他附加数据源被用于构建一个低噪声且更准确的矩阵，而新的矩阵被用于作为传统无监督拓扑链接预测算法的输入．根据在多个真实世界数据上的测试结果，在多源数据集上进行对比实验，提出的基于低秩和稀疏矩阵分解的多源融合链接预测算法相对于基准算法能够获得更好的效果．

423-436

基于微博的事件传播分析

摘要：事件的传播分析是社交网络分析中一个重要的研究点．网络热点事件的爆发通过社交网络迅速传播，从而在短时间内造成很大的影响．而在社交网络中制造舆论热点进行传播的代价相对于传统媒介较低，因此很容易被不法分子利用，对社会安全以及人们财产造成损失．传统的影响传播分析仅能对单条博文进行影响传播分析，这使社交网络中的事件传播分析受到限制．在已有的独立级联模型的基础上，提出了一种结合用户去重、垃圾用户滤除和概率阅读的传播模型，其基本思想是对多条热点博文构成的事件进行用户去重，构建事件传播网络拓扑图，然后对其中的垃圾用户节点进行滤除，最后利用概率阅读模型进行影响传播分析．这为事件传播分析提供了思路．通过一系列实验来验证方法及模型，通过与传统的博文分析进行对比，验证了方法的正确性与有效性．

437-444

计算机研究与发展杂志数据挖掘

不产生候选项集的TOP-K高效用模式挖掘算法

摘要：目前TOP—K高效用模式挖掘算法需要产生候选项集，特别是当数据集比较大或者数据集中包含较多长事务项集时，算法的时间和空间效率会受到更大的影响．针对此问题，通过将事务项集和项集效用信息有效地保存到树结构HUP—Tree，给出一个不需要候选项集的挖掘算法TOPKHUP；HUP—Tree树能保证从中计算到每个模式的效用值，不需要再扫描数据集来计算模式的效用值，从而使挖掘算法的时空效率得到较大的提高．采用7个典型数据集对算法的性能进行测试，实验结果证明TOPKHUP的时间和空间效率都优于已有算法，并对K值的变化保持平稳．

445-455

计算机研究与发展杂志社会网络

基于开放网络知识的信息检索与数据挖掘

摘要：网络大数据是指“人、机、物”三元世界在网络空间（cyberspace）中交互、融合所产生并在互联网上可获得的大数据．这些数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点，不但非结构化数据多，而且数据的实时性强．网络大数据背后蕴含着丰富的、复杂关联的知识．建立面向开放网络的知识库是获取网络大数据中的丰富知识的有效手段．对当前国内外主要的开放网络库进行了比较，分析了相应的构建方法、多源知识的融合以及知识库的更新等关键技术．进一步从用户意图理解、查询扩展、语义问答、线索挖据、关系推理以及关系和属性预测等方面出发，总结了基于开放网络知识库的信息检索、数据挖掘与系统应用的研究现状和主要问题．最后，对开放网络知识库的发展趋势和面临的主要挑战进行了展望．

456-474

计算机研究与发展杂志

期刊咨询

期刊推荐

文秘服务

计算机研究与发展 2015年第02期杂志文档列表

计算机研究与发展杂志

期刊咨询

期刊推荐

文秘服务

计算机研究与发展 2015年第02期杂志 文档列表

计算机研究与发展 2015年第02期杂志文档列表