软件学报杂志-2014年第09期-学术点评

软件学报 2014年第09期杂志文档列表

软件学报杂志大数据分析专刊

大数据分析专刊前言

摘要：自2008年《Nature》杂志发表大数据专辑以来，大数据得到越来越多的关注.2012年，美国和中国分别将大数据提升到国家战略高度.大数据技术是一个典型的跨领域研究方向，在数据的采集、存储、传输、管理、安全和分析等诸多方面均面临着挑战.在大数据分析方面，我国已经有国家自然科学基金重点项目、国家重点基础研究发展计划（973）在内的多个立项支持，并在学术界和工业界取得了一些有影响的研究与应用成果.然而，作为一个新兴的研究方向，大数据分析依然面临诸多挑战.本专刊收录的21篇论文反映了我国学者在大数据分析领域的部分近期研究成果。

1887-1888

大数据系统和分析技术综述

摘要：首先根据处理形式的不同，介绍了不同形式数据的特征和各自的典型应用场景以及相应的代表性处理系统，总结了大数据处理系统的三大发展趋势；随后，对系统支撑下的大数据分析技术和应用（包括深度学习、知识计算、社会计算与可视化等）进行了简要综述，总结了各种技术在大数据分析理解过程中的关键作用；最后梳理了大数据处理和分析面临的数据复杂性、计算复杂性和系统复杂性挑战，并逐一提出了可能的应对之策。

1889-1908

大数据可视分析综述

摘要：可视分析是大数据分析的重要方法。大数据可视分析旨在利用计算机自动化分析能力的同时，充分挖掘人对于可视化信息的认知能力优势，将人、机的各自强项进行有机融合，借助人机交互式分析方法和交互技术，辅助人们更为直观和高效地洞悉大数据背后的信息、知识与智慧。主要从可视分析领域所强调的认知、可视化、人机交互的综合视角出发，分析了支持大数据可视分析的基础理论，包括支持分析过程的认知理论、信息可视化理论、人机交互与用户界面理论。在此基础上，讨论了面向大数据主流应用的信息可视化技术--面向文本、网络（图）、时空、多维的可视化技术。同时探讨了支持可视分析的人机交互技术，包括支持可视分析过程的界面隐喻与交互组件、多尺度/多焦点/多侧面交互技术、面向 Post-WIMP 的自然交互技术。最后，指出了大数据可视分析领域面临的瓶颈问题与技术挑战。

1909-1936

图数据表示与压缩技术综述

摘要：对包含亿万个节点和边的图数据进行高效、紧凑的表示和压缩，是大规模图数据分析处理的基础。图数据压缩技术可以有效地降低图数据的存储空间，同时支持在压缩形式的图数据上进行快速访问。通过深入分析该技术的发展现状，将该技术分为基于传统存储结构的压缩技术、网页图压缩技术、社交网络图压缩技术、面向特定查询的图压缩技术4类。分别对每类技术详细分析了其代表方法并比较了它们之间的性能差异。最后对该技术进行了总结和展望。

1937-1952

基于大规模隐式反馈的个性化推荐

摘要：对如何利用大规模隐式反馈数据进行个性化推荐进行了研究,提出了潜在要素模型 IFRM.该模型通过将推荐任务转化为选择行为发生概率的优化问题,克服了在隐式反馈推荐场景下只有正反馈而缺乏负反馈导致的困难.在此基础上,为了进一步提高效率和可扩展性,提出了并行化的隐式反馈推荐模型 p-IFRM.该模型通过将用户及产品随机分桶并重构优化更新序列,达到了并行优化的目的.通过概率推导,所提出的模型有坚实的理论基础.通过在 MapReduce 并行计算框架下实现 p-IFRM,并在大规模真实数据集上进行实验,可以证明所提出的模型能够有效提高推荐质量并且有良好的可扩展性.

1953-1966

多标记分类和标记相关性的联合学习

摘要：提出了多标记分类和标记相关性的联合学习（JMLLC）,在 JMLLC 中,构建了基于类别标记变量的有向条件依赖网络,这样不仅使得标记分类器之间可以联合学习,从而增强各个标记分类器的学习效果,而且标记分类器和标记相关性可以联合学习,从而使得学习得到的标记相关性更为准确.通过采用两种不同的损失函数：logistic 回归和最小二乘,分别提出了JMLLC-LR（JMLLC with logistic regression）和JMLLC-LS（JMLLC with least squares）,并都拓展到再生核希尔伯特空间中.最后采用交替求解的方法求解JMLLC-LR和JMLLC-LS.在20个基准数据集上基于5种不同的评价准则的实验结果表明,JMLLC优于已提出的多标记学习算法.

1967-1981

基于代价敏感多标记学习的开源软件分类

摘要：随着开源软件数量的增多，从开源软件社区中有效检索到所需的开源软件是具有挑战性的工作.现有方法通常是：首先，人工给每个软件赋予多个描述其功能、用途的标注；然后，通过关键词匹配寻找用户所需的软件.由于其简单、方便，基于标注进行软件检索得到了广泛的应用.然而，用户通常不愿意主动为其上载的开源软件提供标注，这使得根据用户上载软件的文字描述信息，从众多备选软件标注中为其自动选择能够表征其功能、用途的标注，成为了有效检索该软件的关键.把开源软件自动标注形式化为一个代价敏感多标记学习问题，并提出了一种新型代价敏感多标记学习方法 ML-CKNN.该方法通过在多标记学习中引入代价信息，有效缓解了对每一个标注而言具有该标注的示例与不具有该标注的示例分布非均衡性给多标记学习造成的影响.在3个开源软件社区上的实验结果表明：所提出的ML-CKNN方法能够为新上载的开源软件提供高质量的标注，其标注性能显著优于现有方法.

1982-1991

基于类属属性的多标记学习算法

摘要：在多标记学习框架中,每个对象由一个示例（属性向量）描述,却同时具有多个类别标记.在已有的多标记学习算法中,一种常用的策略是将相同的属性集合应用于所有类别标记的预测中.然而,该策略并不一定是最优选择,原因在于每个标记可能具有其自身独有的特征.基于这个假设,目前已经出现了基于标记的类属属性进行建模的多标记学习算法LIFT.LIFT包含两个步骤：属属性构建与分类模型训练.LIFT首先通过在标记的正类与负类示例上进行聚类分析,构建该标记的类属属性；然后,使用每个标记的类属属性训练对应的二类分类模型.在保留LIFT分类模型训练方法的同时,考察了另外3种多标记类属属性构造机制,从而实现 LIFT 算法的3种变体--LIFT-MDDM,LIFT-INSDIF以及LIFT-MLF.在12个数据集上进行了两组实验,验证了类属属性对多标记学习系统性能的影响以及LIFT采用的类属属性构造方法的有效性.

1992-2001

时序数据曲线排齐的相关性分析方法

摘要：时序数据是数据挖掘的一类重要对象。在做时序数据分析时，若不考虑数据的时差，则会造成相关性的误判。所以，时序数据存在相关性和时差相互制约的问题。通过对时序数据的相关性和协同性进行研究，给出了双序列的相关性判定方法和曲线排齐方法。首先，从时间弯曲的角度分析了两类相关性错误产生的原因及其特点；然后，根据相关系数的渐近分布得到相关系数在一定显著性水平上的界，将两者综合得到基于时移序列相关系数特征的相关性判定方法；最后，提出一种基于相关系数最大化的曲线排齐模型，其适用范围比AISE准则更广。模型采用光滑广义期望最大化（S-GEM）算法求解时间弯曲函数。在构造数据和真实数据上的数值实验结果表明：该相关性判别方法在伪回归识别中，比常规的3种相关系数以及Granger因果检验更有效；提出的S-GEM算法在大多数情况下明显优于连续单调排齐法（CMRM）、自模型排齐法（SMR）和极大似然排齐法（MLR）。该文考虑的是双序列的线性相关问题和函数型曲线排齐方法，这些结果可为回归分析的相关性判定和时间对齐提供理论基础，并为多序列相关性分析和曲线排齐提供参考方向。

2002-2017

有序判别典型相关分析

摘要：多视图学习方法通过视图间互补信息的融合,达到增强单一视图方法的鲁棒性并提升学习性能的目的。典型相关分析（canonical correlation analysis,简称CCA）是一种重要的多视图信息融合技术。其研究的是针对同一组目标两组不同观测数据间的相关性,目标是得到一组相关性最大的投影向量。但当面对标号有序的分类任务时,CCA因没有利用类信息和类间有序信息,造成了对分类性能的制约。为此,通过将有序类信息嵌入 CCA 进行扩展,发展出有序判别典型相关分析（ordinal discriminative canonical correlation analysis,简称 OR-DisCCA）。实验结果表明, OR-DisCCA的性能比相关方法更优。

2018-2025

海量信息融合方法及其在状态评价中的应用

摘要：针对证据理论无法有效处理海量信息融合的不足，提出一种结合聚类和凸函数证据理论的海量信息融合方法，旨在解决状态评价等普遍而重要的应用问题。该方法首先基于聚类算法 BIRCH 对采集的海量信息进行预处理，形成多个簇；然后，针对状态评估类问题所用数据大多为数值数据和序数数据这一特点，计算每个簇的质心，并将其作为该簇的代表信息，基于广义三角模糊隶属函数对每个质心信息进行基本概率指派形成证据；最后，基于凸函数证据理论完成各证据的组合，从而完成了海量信息的融合。仿真实验结果表明：该方法既高效又合理地融合了海量信息，为海量信息融合技术的发展提供了一条探索途径。

2026-2036

基于自适应Nystrom采样的大数据谱聚类算法

摘要：面对结构复杂的数据集，谱聚类是一种灵活而有效的聚类方法，它基于谱图理论，通过将数据点映射到一个由特征向量构成的低维空间，优化数据的结构，得到令人满意的聚类结果.但在谱聚类的过程中，特征分解的计算复杂度通常为O（n^3），限制了谱聚类算法在大数据中的应用.Nystrom扩展方法利用数据集中的部分抽样点，进行近似计算，逼近真实的特征空间，可以有效降低计算复杂度，为大数据谱聚类算法提供了新思路.抽样策略的选择对Nystrom扩展技术至关重要，设计了一种自适应的 Nystrom 采样方法，每个数据点的抽样概率都会在一次采样完成后及时更新，而且从理论上证明了抽样误差会随着采样次数的增加呈指数下降.基于自适应的Nystrom采样方法，提出一种适用于大数据的谱聚类算法，并对该算法的可行性和有效性进行了实验验证.

2037-2049

基于统计相关性与K-means的区分基因子集选择算法

摘要：针对高维小样本癌症基因数据集的有效区分基因子集选择难题,提出基于统计相关性和K-means的新颖混合基因选择算法实现有效区分基因子集选择。算法首先采用Pearson相关系数和Wilcoxon秩和检验计算各基因与类标的相关性,根据统计相关性原则选取与类标相关性较大的若干基因构成预选择基因子集；然后,采用K-means算法将预选择基因子集中高度相关的基因聚集到同一类簇,训练 SVM 分类模型,计算每一个基因的权重,从每一类簇选择一个权重最大或者采用赌思想从每一类簇选择一个得票数最多的基因作为本类簇的代表基因,各类簇的代表基因构成有效区分基因子集。将该算法与采用随机策略选择各类簇代表基因的随机基因选择算法 Random, Guyon的经典基因选择算法SVM-RFE、采用顺序前向搜索策略的基因选择算法SVM-SFS进行实验比较,几个经典基因数据集上的200次重复实验的平均实验结果表明：所提出的混合基因选择算法能够选择到区分性能非常好的基因子集,建立在该区分基因子集上的分类器具有非常好的分类性能。

2050-2075

一种基于概率主题模型的命名实体链接方法

摘要：命名实体链接（named entity linking,简称NEL）是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等。该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力。然而,实体数量的激增给实体消歧等带来了巨大挑战,使得当前的命名实体链接技术越来越难以满足人们对链接准确率的要求。考虑到文档中的词和实体往往具有不同的语义主题（如“苹果”既能表示水果又可以是某电子品牌）,而同一文档中的词与实体应当具有相似的主题,因此提出在语义层面对文档进行建模和实体消歧的思想。基于此设计一种完整的、基于概率主题模型的命名实体链接方法。首先,利用维基百科（Wikipedia）构建知识库；然后,利用概率主题模型将词和命名实体映射到同一个主题空间,并根据实体在主题空间中的位置向量,把给定文本中的命名实体链接到知识库中一个无歧义的命名实体；最后,在真实的数据集上进行大量实验,并与标准方法进行对比。实验结果表明：所提出的框架能够较好地解决了实体歧义问题,取得了更高的实体链接准确度。

2076-2087

关系抽取中基于本体的远监督样本扩充

摘要：远监督学习是适合大数据下关系抽取任务的一种学习算法。它通过对齐知识库中的关系实例和文本集中的自然语句，为学习算法提供大规模样本数据。利用本体进行关系实例的自动扩充，用于解决基于远监督学习的关系抽取任务中部分待抽取关系的实例匮乏问题。该方法首先通过定义关系覆盖率和公理容积率，来寻找与关系抽取任务关联性大的本体；然后，借助本体推理中的实例查询增加待抽取关系下的关系实例；最后，通过对齐新增关系实例和文本集中的自然语句，达到扩充样本的效果。实验结果表明：基于本体的远监督学习样本扩充方法能够有效完成样本匮乏的关系抽取任务，进一步提升远监督学习方法在大数据环境下的关系抽取能力。

2088-2101

基于图像分解的人脸特征表示

摘要：提出一种基于图像分解的人脸特征表示方法（FRID），首先通过多方向操作，把一幅图像分解成一系列方向子图像；然后，通过欧拉映射操作，把每幅方向子图像分解成实部和虚部图像，针对每幅实部和虚部图像，分别划分出多个不重叠的局部图像块，通过统计图像块上不同数值的个数生成相应的实部和虚部直方图，一幅图像的所有实部和虚部直方图被串联成一个超级特征向量；最后，利用线性判别分析方法对超级特征向量进行维数约简，以获得每幅图像的低维表示。实验显示该方法在多个人脸数据库上获得了优于时新算法的识别结果，并且表现得更为稳定。

2102-2118

大数据环境下多决策表的区间值全局近似约简

摘要：在电力大数据中，很多具体的应用如负荷预测、故障诊断都需要依据一段时间内的数据变化来判断所属类别，对某一条数据进行类别判定是毫无意义的。基于此，将区间值粗糙集引入到大数据分类问题中，分别从代数观和信息观提出了基于属性依赖度和基于互信息的区间值启发式约简相关定义和性质证明，并给出相应算法，丰富和发展了区间值粗糙集理论，同时为大数据的分析研究提供了思路。针对大数据的分布式存储架构，又提出了多决策表的区间值全局约简概念和性质证明，进一步给出多决策表的区间值全局约简算法。为了使得算法在实际应用中取得更好的效果，将近似约简概念引入所提的3种算法中，通过对2012上半年某电厂一台600MW的机组运行数据进行稳态判定，验证所提算法的有效性。实验结果表明，所提的3种算法均能在保持较高分类准确率的条件下从对象和属性个数两方面对数据集进行大幅度缩减，从而为大数据的进一步分析处理提供支撑。

2119-2135

大数据下基于异步累积更新的高效P-Rank计算方法

摘要：P-Rank是SimRank的扩展形式,也是一种相似度度量方法,被用来计算网络中任意两个结点的相似性。不同于SimRank只考虑结点的入度信息,P-Rank还加入了结点的出度信息,从而更加客观准确地评价结点间的相似程度。随着大数据时代的到来,P-Rank需要处理的数据日益增大。使用MapReduce等分布式模型实现大规模P-Rank迭代计算的方法,本质上是一种同步迭代方法,不可避免地具有同步迭代方法的缺点：迭代时间（尤其是迭代过程中处理器等待的时间）长,计算速度慢,因此效率低下。为了解决这一问题,采用了一种迭代计算方法--异步累积更新算法。这个算法实现了异步计算,减少了计算过程处理器结点的等待时间,提高了计算速度,节省了时间开销。从异步的角度实现了P-Rank算法,将异步累积更新算法应用在了P-Rank上,并进行了对比实验。实验结果表明该算法有效地提高了计算收敛速度。

2136-2148

软件学报杂志

期刊咨询

期刊推荐

文秘服务

软件学报 2014年第09期杂志文档列表

软件学报杂志

期刊咨询

期刊推荐

文秘服务

软件学报 2014年第09期杂志 文档列表

软件学报 2014年第09期杂志文档列表