计算机研究与发展杂志-2014年第S2期-学术点评

计算机研究与发展 2014年第S2期杂志文档列表

面向大数据的分布式流处理技术综述

摘要：随着大数据的到来,数据流处理技术又成为了新的研究热点.回顾了近期提出的面向大数据的流处理技术现状,并且从流处理模型上对这些技术进行了划分,重点分析了面向大数据的并行分布式的流处理模型的设计目标和架构,同时,重点讨论了并行分布式流处理模型的关键技术以及未来技术的展望.

1-9

前言

摘要：<正>近年来,大数据已经成为全球关注的热点,成为国内外学术界、产业界和应用行业普遍关注的热点研究领域,在国内外掀起了一个空前的研究热潮.为了促进大数据技术的研究与发展,推动大数据的学术研究和交流、大数据应用以及大数据的信息共享,继2013年成功召开了第1届CCF大数据学术会议后,受中国计算机学会委托、由中国计算机学会大数据专家委员会承办了2014年第2届CCF大数据学术会议.经过近一年时间的会议筹备、论文征集和评审以及相关的会务组织工作,第2届CCF大数据学术会议(CCF BigData2014)于2014年12月12—13日在北京新云南皇冠假日酒店举行.本

6-6

一种大规模时空数据处理与可视化平台

摘要：当前大多数时空数据处理与可视化工具在数据规模增大时不能够对数据进行快速地处理与可视化.为解决该问题,通过对任务模型、数据模型及可视映射策略的重新定义,给出一种大规模时空数据处理与可视化平台.平台能够支持多种不同类型的时空数据,通过分布式的数据存储、数据重新组织、分布式检索、空间索引、分段预取等技术,能够实现大规模数据的快速处理与可视化.

10-17

Hadoop环境下三维模型的存储及形状分布特征提取

摘要：随着三维模型数量爆炸式的增长,如何有效地存储和管理海量的三维模型文件并对其进行高效的处理,是三维模型检索领域亟待解决的问题.首先基于模型文件名的概念相似度对模型文件分类合并,存入Hadoop集群的分布式文件系统(Hadoop distributed file system,HDFS);然后通过引入拓扑结构一致性因子,设计了三维模型完整性函数,实现了Hadoop环境下对三维模型形状分布的MapReduce处理,并根据分布式计算的特点进行了性能优化.以中国台湾大学的三维模型数据库作为测试集在Hadoop集群上进行实验,验证了算法的有效性.

18-29

基于数据位图的滑动分块算法

摘要：网络中相似的数据文件进行同步与存储的过程中,对数据进行分块是检测数据重复的重要步骤之一,在有效地对数据分块的基础上才能更准确地定位数据间的差异部分.就数据分块方法予以分析总结,在滑动分块算法的基础上,重新将数据文件组织成类似位图的排列形式,对数据位图以列向读取数据信息,形成新的数据分块,并计算列向读取数据的分块指纹信息,以列向数据指纹作为补充校正滑动分块算法定位差异数据能力的不足之处,从而获得更精确的数据差异信息.经实验证明,本方法在同源文件的数据重复检测中效果好于相同条件下的滑动分块方法.

30-38

基于浓密树和改进McCHyp算法的Impala查询优化

摘要：针对Impala大数据实时查询系统在查询优化上存在的问题,提出基于浓密树和改进的MinCutConservative Hypergraph(McCHyp)算法的Impala查询优化方法.首先,修改Impala使其支持浓密树的查询计划;接着,使用剪枝策略对McCHyp算法进行改进,减少查询优化的时间;最后,提出一种适用于Impala的代价模型,并将改进的McCHyp算法集成到Impala中,根据用户的SQL语句生成较优的查询计划.在Impala系统上实现了本文提出的查询优化方法并在TPC-H数据集上进行了实验,结果表明改进的McCHyp算法与McCHyp算法对连接超图的优化结果一致,且前者的运行时间减少了43.82%~62.55%.同时,使用改进的McCHyp算法及新的代价模型对查询语句优化后,查询响应时间较原始的Impala系统减少了79.60%.

39-47

基于内存的分布式隐私流查询系统

摘要：随着大数据时代的到来,隐私问题备受关注,用户一方面希望获得新鲜和低延迟的查询结果,另一方面又希望对查询信息进行隐私保护,为此提出了一种基于内存的分布式隐私流查询系统.其中,查询可以通过Paillier密码系统进行加密.该系统在shared-nothing架构下支持水平扩展,实现了在内存中对流数据进行分片的并行查询以及基于位图索引的压缩存储.实验证明了该系统的有效性.

48-56

基于信息熵加权的三维模型特征融合算法

摘要：特征融合是提高三维模型检索有效性的一种重要手段,越来越受到广泛关注.为解决融合特征权重的自适应问题,提出了一种基于信息熵加权的三维模型多特征融合算法,以提升检索效果.算法的主要贡献有:1)为了精确地刻画形状分布直方图,针对传统形状分布算法提出了三次样条插值形状分布特征提取算法,同时由于形状分布算法本身缺少描述模型形状的层次分布信息,设计了简化的形状上下文特征提取算法;2)采用衡量不确定性的信息熵来自适应计算上述两个欲融合特征的权值,进而得到融合后的相似距离用于三维模型检索.在SHREC2014的综合模型库上实验,结果表明:所提特征融合算法的通用和加权的6种评价指标(PR/NN/FT/ST/E/DCG)优于采用单一特征的检索算法,且运行效率较高.

57-68

一种融合异构信息网络和评分矩阵的推荐新算法

摘要：在当今的大数据时代,推荐系统是解决信息超载的有效手段.传统的协同过滤推荐系统仅仅使用用户-项目评分矩阵,而异构信息网络的出现为推荐系统更多地融合用户与项目信息提供了机遇,为了结合二者的优点,提出了一个融合它们的新的解决方案.在对推荐系统中的用户属性和项目属性建立异构信息网络之后,首先使用基于元路径的相似度计算方法分别计算用户与项目的相似度矩阵;其次使用提出的3种将相似度矩阵与用户-项目评分矩阵进行融合的方法;然后采用传统的基于矩阵分解的推荐技术进行预测及最后的结果合并.在MovieLens 100K这一国际标准数据集上以及通过IMDb对电影属性进行扩展后,通过实验验证了使用异构信息网络更多地引入用户与项目属性信息以及融合评分矩阵可以有效地提高推荐精度.

69-75

基于增量时空轨迹大数据的群体挖掘方法

摘要：针对时空轨迹大数据广域网分布存储条件下的群体行为模式挖掘问题,基于MapReduce和ACO(ant colony optimization)算法提出可在广域网环境分布并行增量执行的DPIA(distributed¶llel&incremental ACO)聚类方法.该方法聚类过程分为历史全量阶段和若干周期增量阶段分段持续执行,通过每个周期的增量数据聚类持续修正已有聚类结果,通过MapReduce实现每个阶段聚类运算的广域网分布并行执行,避免时空轨迹大数据的重复聚类运算和拷贝迁移,大大提升运算效率,保持聚类结果准确性.通过江苏道路交通监控系统的实际数据将该方法与已有基于MapReduce的并行ACO方法进行比较,结果表明DPIA方法具有更好的聚类特性.

76-85

大数据环境下的动态知识网络模型及构建方法

摘要：针对语义知识库构建方式和语义表达模型研究中的不足,在已有工作的基础上,提出一种新的语义知识模型:动态知识网络,在详细阐述模型组成要素的基础上,进一步研究了该模型的知识表示方法.在语义知识模型的指导下,面向开放的网络数据资源,研究了动态知识网络的半自动构建方法,并且以360百科和新闻网页数据为基础进行了实验验证,结果表明所提模型和方法能够有效支持动态知识网络的构建.

86-93

SFEN-Inf:一种微博信息传播网络推理算法

摘要：在线社交网络的特点之一是信息的快速传播和频繁交互.为了更好地研究社交网络的特性,我们需要知道信息传播网络的结构.然而,信息传播网络通常是潜在的.我们能观察到信息包含的时间戳和文本等内容,却难以直接观测到信息传播网络.因此,如何根据观测到的数据准确地推理出潜在的传播网络结构,即信息传播网络的推理问题,具有重要的研究意义.我们对该问题进行研究,根据信息的时间和文本内容的相似性,建立了信息传播的概率模型,提出了信息传播网络推理算法SFEN-Inf.我们针对典型的微博事件对SFEN-Inf算法进行实验分析,并将SFEN-Inf算法与著名的NetInf算法进行比较.实验结果表明,SFEN-Inf算法在传播网络推理效果上提高约2倍,并且算法的时间效率有较明显的提高.

94-101

一种基于高斯混合模型的不确定数据流聚类方法

摘要：传感器的广泛应用产生了大量的不确定数据流,在聚类应用中,当输入数据为连续型随机变量时,现有基于离散型随机变量的聚类方法无法满足数据流应用在效率和精度上的要求.使用高斯混合模型作为不确定数据的基本表示形式,仅需要保存不同组件的描述信息即可,可以更好地利用存储空间,完成对真实情况的逼近,在此基础上提出了一种可以发现时间维度上的不确定数据流聚类方法cumicro,该算法将时间直接作为数据属性,可直接查询某个时间维度的聚簇,避免了传统基于划分的聚类中较难发现非球状聚簇的问题.通过实验与经典算法umicro进行比较,证明了本文算法的有效性,并分析了不同K值、τ值下的聚类结果.最后得出结论,原始数据较密集时,相较原有基于离散模型的聚类,该算法具有准确度上的优势.

102-109

基于Hadoop的局部支持向量机

摘要：随着物联网、云计算等技术的不断发展,产生的数据也以爆炸式的速度不断增长.如何在大数据中进行挖掘和分析成为了当前学术界研究的热点,Hadoop分布式计算也因此逐渐成为了大数据挖掘和分析的主要技术.支持向量机则是一种应用比较广泛的数据挖掘方法,局部支持向量机是在支持向量机的基础上引入局部学习算法的一种有效的分类算法.但是,局部支持向量机需要为每个测试样本分别构造分类器,在大数据上进行分类的时间复杂度较高,分类效率比较低.针对上述问题,结合Hadoop并行计算平台,提出了基于Hadoop的局部支持向量机算法.本文对局部支持向量机进行了两方面的改进:1)将计算测试样本的k近邻并行化;2)将训练模型并行化.测试实验结果表明:基于Hadoop的局部支持向量机能够有效降低分类时间,且在分类精度上与局部支持向量机基本保持一致.

116-121

基于TCBF_LRU的高速网络大流检测算法

摘要：在高速主干网络中,随着网络链路速率的不断提高和网络流数量的急速增加,同时受到硬件计算和存储资源的限制,如何及时、准确地在海量数据中,有效地检测出其中的大流信息,成为目前大规模高速网络流测量的热点问题.根据传统的LRU算法容易淘汰大流和频繁更新给系统带来巨大压力的缺陷,提出一种新的大流检测算法——TCBF_LRU算法,用于高速网络大流信息识别.算法通过时间超时和大流报文预保护策略,过滤大部分的小流报文,极大减少LRU算法小流置换大流的概率,提高算法的准确性.分析了算法的误判率和复杂度,并通过实际主干网trace数据,实验分析了算法参数配置对于大流检测准确性的影响.理论分析和仿真结果表明,与标准LRU算法和BF_LRU算法相比,在使用相同的缓存空间下,TCBF_LRU算法具有更高的测量准确性和实用性.

122-128

观澜交通数据处理平台

摘要：近些年,城市中在主要路段和路口设置的交通卡口点及高清摄像头的数目呈增长趋势.对于大中型城市来说,这些摄像头将会产生海量包含通行记录和图像在内的数据.现有的基于传统关系数据库的解决方案已经无法有效地管理如此大规模的数据,也无法为数据的离线分析和实时处理提供具有高效及可伸缩性的保障.为了解决这一系列问题,我们开发了观澜交通数据处理平台(观澜平台).该平台可以为交通数据提供分布式、具有良好可伸缩性的处理支持.它集成了Apache Hadoop和S4开源框架,可以同时运行批处理任务和实时处理任务.观澜平台已经在国内某城市的生产环境中成功运行近两年,将会给出平台的架构说明以及在设计和开发过程中的一些收获.

129-133

基于Hadoop的电网数据质量校验方法与验证系统

摘要：在诸多电网数据处理应用中,电网数据质量监测是电网大数据处理业务中最重要的一个环节.随着电网数据规模和数据质量校验规则数量和复杂度的不断增大,目前现有的基于传统数据库系统和计算平台的数据质量校验系统的处理能力已经出现严重的瓶颈,难以快速完成数据质量的监测和校验,且系统难以扩展,越来越难以满足日常的生产管理和经营决策的需求.大数据技术为解决电网大数据处理提供了良好的技术手段和支撑平台.为此,提出了一种基于大数据的电网数据质量校验解决方案,研究设计了基于Hadoop平台的分布式数据存储管理和并行化校验规则执行技术,选择批量和增量数据质量校验典型场景,进行了验证性研究,设计实现了针对数据校验的索引存储机制,对校验规则相关的属性建立快速索引,并进一步设计实现了基于HBase和MapReduce的并行化校验规则执行算法,使得数据质量校验的处理性能得到显著提升.在此基础上,基于验证性数据集和校验规则实现了一个验证性系统,实验结果表明,所提出的技术方法可以有效地提升数据质量校验处理性能,可满足实时/准实时电网数据数据校验需求,并且提供了一种具有良好可扩展性的系统解决方案.

134-144

利用AQL的逐批海洋大数据质量检验模型

摘要：海洋数据的质量是数据处理和应用的基础,如何准确高效地评价海洋数据的质量是制约其精确有效应用的关键问题之一.质量检验方案主要涉及3个参数,即批量、样本量和接收数,而现有的质量检验方案大多集中于样本量与接收数之间的关系推导,忽略了数据批量对于质量检验方案的影响.此类方案不适用于批量大小不固定的海洋大数据的质量检验.针对该问题,通过基于接收质量限(acceptance quality limit,AQL)提出了符合超几何分布的海洋大数据优化质量检验模型,建立了批量和样本量之间的联系,平衡了数据生产方和使用方对于数据精确度的需求.最后,通过与传统质量检验模型的比较,验证了其对海洋大数据质量检验的有效性.

145-151

计算机研究与发展杂志

期刊咨询

期刊推荐

文秘服务

计算机研究与发展 2014年第S2期杂志文档列表

计算机研究与发展杂志

期刊咨询

期刊推荐

文秘服务

计算机研究与发展 2014年第S2期杂志 文档列表

计算机研究与发展 2014年第S2期杂志文档列表