计算机研究与发展杂志-2015年第07期-学术点评

计算机研究与发展 2015年第07期杂志文档列表

计算机研究与发展杂志人工智能

混合概率典型相关性分析

摘要：典型相关性分析（canonical correlation analysis,CCA）是一种用来分析2组随机变量之间相关性的统计分析工具,但作为一种线性数学模型,CCA不足以揭示真实世界中大量存在的非线性相关现象.采用局部化的方法,在概率典型相关性分析（probabilistic CCA,PCCA）的基础上,使用概率混合模型框架,提出了混合概率典型相关性分析模型（mixture of probabilistic CCA,MixPCCA）以及估计模型参数的2阶段期望最大化（expectation maximization,EM）算法,并给出了使用聚类融合确定局部线性模型数量的方法和MixPCCA模型应用于模式识别的理论框架.在手写体数据集USPS和MNIST上的实验证明,MixPCCA模型通过混合多个局部线性PCCA模型不仅提供了一种捕捉复杂的全局非线性相关性的解决方案,而且还具备检测只在局部区域才存在的相关性的能力.

1463-1476

二阶Newton法训练径向基函数神经网络的算法研究

摘要：提出了一种混合加权距离测量（weighted distance measure,weighted DM）参数的构建和训练RBF（radial basis function）神经网络的两步批处理算法.该算法在引进了DM系数参数的基础上,采用Newton法分别对径向基函数的覆盖参数、均值向量参数、加权距离测度系数以及输出权值进行了优化,并在优化过程中利用OLS（orthogonal least squares）法来求解Newton法的方程组.通过实验数据,不仅分析了Newton法优化的各个参数向量对RBF网络训练的影响,而且比较了混合优化加权DM与RLS-RBF（recursive least square RBF neural network）网络训练算法的收敛性和计算成本.所得到的结论表明整合了优化参数的加权DM-RBF网络训练算法收敛速度比RLS-RBF网络训练算法更快,而且具有比LM-RBF（Levenberg-Marquardt RBF）训练算法更小的计算成本,从而说明OLS求解的Newton法对优化RBF网络参数具有重要应用价值.

1477-1486

计算机研究与发展杂志读者专栏

2016年《计算机研究与发展》专题（正刊）征文通知——数据融合与知识融合

摘要：随着大数据时代的到来,如何从海量异构的数据源中抽取知识,并进行知识的融合,从而构建大规模的知识图谱,是目前数据管理和信息抽取领域的一个重要学术课题.相比于传统的数据集成,在面向大规模的数据和知识融合过程中的,融合算法的效率、多源数据的数据质量评估和基于语义的数据与知识融合等都给现有的数据集成技术带来了巨大的挑战.

1486-1486

计算机研究与发展杂志人工智能

针对动态非平衡数据集鲁棒的在线极端学习机

摘要：动态数据存在数据量动态改变,数据类别分布非平衡、不稳定等问题,这些问题成为分类的难点.针对该问题,通过对在线极端学习机模型进行拓展,提出鲁棒的权值在线极端学习机算法.为解决动态数据非平衡性,该算法借助代价敏感学习理论生成局部动态权值矩阵,从而优化分类模型产生的经验风险.同时,算法进一步考虑动态数据由于时序性质改变造成的数据分布变化,而引入遗忘因子增强分类器对数据分布变更的敏感性.算法在不同数据分布的24个非平衡动态数据集上测试,取得了较好的效果.

1487-1498

基于朴素贝叶斯模型的单词语义相似度度量

摘要：单词语义相似度度量是自然语言处理领域的经典和热点问题.通过结合朴素贝叶斯模型和知识库,提出一个新颖的度量单词语义相似度度量途径.首先借助通用本体WordNet获取属性变量,然后使用统计和分段线性插值生成条件概率分布列,继而通过贝叶斯推理实现信息融合获得后验概率,并在此基础上量化单词语义相似度.主要贡献是定义了单词对距离和深度,并将朴素贝叶斯模型用于单词语义相似度度量.在基准数据集R＆G（65）上,对比算法评判结果与人类评判结果的相关度,采用5折交叉验证对算法进行分析,样本Pearson相关度达到0.912,比当前最优方法高出0.4%,比经典算法高出7%~13%;Spearman相关度达到0.873,比经典算法高出10%~20%;且算法的运行效率和经典算法相当.实验结果显示将朴素贝叶斯模型和知识库相结合解决单词语义相似度问题是合理有效的.

1499-1509

基于局部语义聚类的语义重叠社区发现算法

摘要：语义社会网络是一种包含信息节点及社会关系构成的新型复杂网络,因此以节点邻接关系为挖掘对象的传统社会网络社区发现算法无法有效处理语义社会网络重叠社区发现问题.针对这一问题,提出基于局部语义聚类的语义社会网络重叠社区发现算法,该算法：1）以LDA（latent Dirichlet allocation）模型为语义信息模型,利用Gibbs取样法建立节点语义信息到语义空间的量化映射;2）以节点间语义坐标的相对熵作为节点语义相似度的度量,建立节点相似度矩阵;3）根据社会网络的局部小世界特性,提出语义社会网络的局部社区结构S-fitness模型,并根据S-fitness模型建立了局部语义聚类算法（local semantic clusterm,LSC）;4）提出可度量语义社区发现结果的语义模块度模型,并通过实验分析,验证了算法及语义模块度模型的有效性及可行性.

1510-1521

计算机研究与发展杂志高性能计算

一种面向大规模数据密集计算的缓存方法

摘要：随着高性能计算机逐步应用在大规模数据处理领域,存储系统将成为制约数据处理效率的主要瓶颈.在分析了影响数据密集型计算I/O性能若干关键因素的基础上,提出使用计算结点本地存储构建协作式非易失缓存、以分布式存储架构加速集中式存储架构的方法.该方法基于应用层协同使用分布化的本地存储资源,使用非易失存储介质构成大缓存空间,存放大规模数据分析的中间过程结果,以此实现高缓存命中率,并利用并发度约束控制等手段避免I/O竞争,充分利用本地存储的特定性能优势保证缓存加速效果,从而有效地提高了大规模数据处理过程的I/O效率.基于多平台多种I/O模式的测试结果证实了该方法的有效性,聚合I/O带宽具有高扩展性,典型数据密集应用的整体性能最大可提升6倍.

1522-1530

基于并发跳表的云数据处理双层索引架构研究

摘要：云数据处理在云计算基础设施中占有极其关键的地位.然而,当前的云存储系统绝大部分都采用基于分布式Hash的健-值对模式来组织数据,在范围查询方面支持不理想、且动态实时性差,有必要构建云环境下辅助动态索引.通过总结、分析云环境中辅助双层索引机制,提出一种基于并发跳表的云数据处理双层索引架构.该架构采用两层体系结构,突破单台机器内存和硬盘的限制,从而扩展系统整体的索引范围.通过动态分裂算法解决局部服务器中的热点问题,保证索引结构整体的负载均衡.通过并发跳表来提高全局索引的承载性能,改善了全局索引的并发性,提高整体索引的吞吐率.实验结果表明,基于并发跳表的云数据处理双层索引架构能够有效支持单键查询和范围查询,具有较强的可扩展性和并发性,是一种高效的云存储辅助索引.

1531-1545

基于对象的OpenXML复合文件去重方法研究

摘要：现有的重复数据删除技术大部分是基于变长分块（content defined chunking,CDC）算法的,不考虑不同文件类型的内容特征.这种方法以一种随机的方式确定分块边界并应用于所有文件类型,已经证明其非常适合于文本和简单内容,而不适合非结构化数据构成的复合文件.分析了OpenXML标准的复合文件属性,给出了对象提取的基本方法,并提出基于对象分布和对象结构的去重粒度确定算法.目的是对于非结构化数据构成的复合文件,有效地检测不同文件中和同一文件不同位置的相同对象,在文件物理布局改变时也能够有效去重.通过对典型的非结构化数据集合的模拟实验表明,在综合情况下,对象重复数据删除比CDC方法提高了10%左右的非结构化数据的去重率.

1546-1557

面向新型非易失存储器的文件级磨损均衡机制

摘要：自旋转移力矩磁存储器（spin transfer torque random access memory,STTRAM）和磁阻式随机存储器（magnetic random access memory,MRAM）等新型存储器具有接近于DRAM的访问速度,是构建高性能外存系统和提高计算机系统性能的重要手段,但有限的写次数是其重要局限之一.设计了文件系统级磨损均衡机制,使用Hash函数分散文件在外存中的存储,避免在创建和删除文件时反复分配某些存储块,通过分配文件空间时选择写次数较低的存储块,避免写操作的集中;使用主动迁移策略,在外存系统I/O负载较低时主动迁移写次数较高的数据块,减少磨损均衡机制对I/O性能的影响.最后在开源的基于对象存储设备Open-osd上实现了面向新型存储器文件系统级磨损均衡机制的原型,使用存储系统通用测试工具filebench和postmark的多个通用数据集进行了测试与分析,验证了基于新型存储器的文件系统级磨损均衡机制能稳定地将存储块写次数差减少到原来的1/20左右,同时最高仅损失了6%的I/O性能和增加了0.5%的额外写操作,具有高效和稳定的特性.

1558-1566

计算机研究与发展杂志读者专栏

2015年《计算机研究与发展》专题（正刊）征文通知——面向“互联网＋”的应用技术

摘要：＂互联网＋＂通过发挥互联网、计算机技术在生产要素配置中的优化和集成作用,提升实体经济的创新力和生产力.以MOOC为代表的互联网教育、以工业4.0为代表的智能制造、以互联网金融为代表的现代服务业等,都展示出＂互联网＋＂的巨大潜力.＂互联网＋＂是计算机与其他学科交叉而成的新型技术.

1566-1566

计算机研究与发展杂志高性能计算

Asyn-SimRank：一种可异步执行的大规模SimRank算法

摘要：SimRank算法利用网络结构来评估网络中任意2点的相似性,它被广泛应用于社交网络和链接预测等诸多领域中.近年来,随着大数据技术的发展,SimRank算法处理的数据不断增大,人们利用MapReduce等分布式计算模型设计实现分布式的大规模SimRank算法来适应大数据处理的需求.但是,由于SimRank算法包含开销较大的迭代过程,每次迭代之后都需要一个全局同步,且每次迭代的计算复杂度高、通信量大,SimRank算法不能在分布式环境下高效地实现.1）提出Asyn-SimRank算法,该算法采用迭代-累积的方式完成迭代计算,异步执行SimRank的核心迭代过程,避免了大规模分布式计算中的大量同步开销,同时有效降低计算量并减少通信开销;2）提出关键点优先调度计算,提升了AsynSimRank算法的全局收敛速度;3）证明了Asyn-SimRank算法的正确性和收敛性以及关键点优先调度计算的有效性;4）支持异步迭代的分布式框架Maiter上实现了Asyn-SimRank算法.实验结果显示,相比较于Hadoop,Spark上实现的SimRank算法和Delta-SimRank算法,Asyn-SimRank算法大大提升了算法的计算效率,加速了算法收敛.

1567-1579

计算机研究与发展杂志软件技术

软件模型检测中的抽象模型研究综述

摘要：抽象是解决模型检测中状态爆炸问题的一个基本方法.对近年来软件模型检测研究中所提出的一系列抽象模型进行综述.首先以抽象解释为理论框架阐述了抽象软件模型检测的各组成部分.然后根据模型的结构和功能特征,将抽象模型分为3类：1）传统的用于支持自上逼近或者自下逼近的布尔Kripke结构;2）分别对应于3值和4值Kripke结构的Kripke模态迁移系统（Kripke modal transition systems,KMTS）和混合迁移系统（mixed transition system,MixTS）,可同时支持自上逼近和自下逼近的抽象;3）具有超迁移关系的广义Kripke模态迁移系统（generalized Kripke modal transition system,GKMTS）和超迁移系统（hyper transition system,HTS）,可提供更精确的抽象模型检测;重点分析这些模型的提出原因、相应的逼近关系、最优模型及其局限性以及抽象模型完备性的研究结果.最后,分析了目前关于抽象模型的理论和应用研究中存在的问题,给出进一步研究的方向.

1580-1603

分布式软件系统交互行为建模、验证与测试

摘要：为了确保分析与设计阶段分布式软件系统中模块之间交互行为的正确性,提出了一种分布式软件系统模块交互的抽象方法,分别通过系统状态机图和对象状态机图对各模块状态变迁进行建模,使用UML2.0序列图对模块之间交互行为进行描述.采用基于命题投影时序逻辑的模型检测技术,将对象状态机图转换为Promela模型,系统交互性质转换为命题投影时序逻辑公式,通过模型检测器验证交互模型是否满足于系统的性质,若不满足于该性质,则能够获得反例执行的路径.给出了一个分布式软件系统测试框架,在验证后的序列图模型基础上,使用基于模型的测试用例自动生成方法得到测试用例集合,该集合能够实现对交互行为的有效测试.实例结果表明,该方法可以提高分布式软件系统中模块交互行为的有效性和可靠性.

1604-1619

流敏感按需指针别名分析算法

摘要：为了提高交互环境下指针别名查询的响应效率,近期研究提出通过只分析与目标相关指针的按需分析策略来降低浪费在与目标无关的指针分析的额外开销.典型的代表是基于上下文无关文法的按需别名分析算法.但是,该算法的精度只局限于控制流不敏感.控制流不敏感的别名关系将约束上层分析的精度.针对该不足,提出了具有流敏感精度的按需别名分析算法.首先采用不完全静态单赋值语句形式来区分指针变量赋值实例,然后通过层次线性化编码方法来表达控制流图中的流敏感信息以构建赋值流图,最后将别名关系查询问题转换为在赋值流图上搜索目标结点间在控制流可达条件下赋值路径的可达性问题,进而实现流敏感的按需别名分析.实验表明,与流不敏感的按需别名分析相比,该方法可以在保证查询效率的前提下,有效提高按需别名分析的精度.

1620-1630

基于接口精化的广义无干扰性研究

摘要：在复杂构件化软件的设计和实现过程中,由于安全属性的可组合性难以实现,使得系统整体的安全需求难以得到有效保证,因而安全属性的规约和验证问题是构件化软件开发过程中关注的关键问题.针对当前构件化软件设计过程中,信息流安全属性仅局限于二元安全级格模型的问题,在现有安全接口结构基础上提出广义安全接口结构,在广义安全接口结构上定义精化关系,并利用这一精化关系定义了能够支持任意有限格模型的基于安全多执行的无干扰属性,首次将安全多执行的思想应用于构件化系统的信息流安全属性验证.使用Coq定理证明工具实现了接口自动机程序库以及对精化关系的判定过程,并用实例验证说明了无干扰属性定义的特点及判定方法的有效性.

1631-1641

计算机研究与发展杂志网络与信息安全

基于威胁传播采样的复杂信息系统风险评估

摘要：互联网时代的信息安全已成为全社会关注的问题之一.信息系统是信息的载体,为有效评估大规模分布式复杂信息系统的风险,构建了一种基于威胁传播采样的复杂信息系统风险评估方法.该方法考虑到威胁在复杂信息系统中传播时,对资产结点的转移状态以及资产结点发出的威胁传播边进行采样来生成威胁传播树（threat propagation trees,TPT）,然后通过计算威胁传播树中各资产结点的期望损失以及威胁传播树的概率来对整个复杂信息系统进行风险评估.实验分析表明,基于威胁传播采样的复杂信息系统风险评估方法,在生成威胁传播树时具有高效的时间效率,能够对复杂信息系统进行客观准确的风险评估,且在对复杂信息系统资产结点制定安全防护策略时,能够为安全风险管理者提供较为合理的安全指导建议.

1642-1659

计算机研究与发展杂志读者专栏

2015年起《计算机研究与发展》双月将固定领域专题

摘要：致广大读者和作者：本刊从2015年起将双数期约1/2版面固定为某个领域,每年将策划该领域的一个热点主题进行集中报道.具体的征文通知将在专题发表前6个月,请关注期刊网站!

1659-1659

计算机研究与发展杂志

期刊咨询

期刊推荐

文秘服务

计算机研究与发展 2015年第07期杂志文档列表

计算机研究与发展杂志

期刊咨询

期刊推荐

文秘服务

计算机研究与发展 2015年第07期杂志 文档列表

计算机研究与发展 2015年第07期杂志文档列表