计算机研究与发展杂志-2015年第11期-学术点评

计算机研究与发展 2015年第11期杂志文档列表

计算机研究与发展杂志人工智能

一种层次化的联合识别模型

摘要：目标检测与姿态估计在当前视觉研究中分属不同的任务,但两者在研究方法和现实应用上具有较强的互补性.提出了一种混合的层次树模型,该模型包含3类结点,分别描述整体目标、判别部件和组件（即语义部件）.中间层的判别部件兼顾承上（目标）与启下（组件）的功能,一方面刻画整体目标的局部特征,另一方面隐含多组件的共现信息.相比当前最新的联合模型,层次树模型能够并行化处理检测与估计,避免串联化联合引发的错误传播.采用基于隐变量的结构化支持向量机训练模型,同时提出了一种新的部件学习方法以自动地初始化和优化判别部件.实验设计了多任务识别和单任务识别2种评估场景,对比了本文模型与当前主流的联合识别模型,实验结果说明层次化模型具有更强的识别性能以及更高的时效性.

2431-2440

动态增量式子主题事件演化分析

摘要：事件发展的持续性和相互影响性使人们对事件的后续进展越来越感兴趣,而传统的事件分析大多是针对基于句子的事件.针对专题事件,结合single-pass聚类方法、兼类思想以及动态增量思想,提出了一种增量式子主题动态演化分析模型.该模型基于专题事件的时序特征提出,包括动态阈值的设定、相似度平滑、子主题动态增量策略等过程,以及运用χ2统计的思想来综合评价模型性能的方法.该模型可以有效地对专题事件进行子主题分析,进而使人们能够更直接和快速地了解主题事件的进展.实验结果表明提出的方法使子主题演化分析的性能有了显著的提高.

2441-2450

基于深度神经网络的有色金属领域实体识别

摘要：针对有色金属领域实体识别问题,提出一种基于深度神经网络（deep neural network,DNN）架构的有色金属领域实体识别方法.为能有效获取有色金属领域实体中字符间的紧密结合特征,并回避专业领域中文分词问题,使用神经网络的方法自动学习中文字符embeddings向量化表示作为模型输入.基于降噪自动编码器（denoising autoencoder,DAE）对深度神经网络的每个隐层进行逐层预训练获取用于有色金属领域实体识别的最优特征向量组合,并详细介绍了基于神经语言模型的文本窗口降噪自动编码器预训练及有色金属实体识别的深层网络构建过程.为验证方法的有效性,对有色金属领域产品名、矿产名、地名、组织机构4类实体识别进行实验.实验结果表明,提出的方法对于专业领域的实体识别具有较好的效果.

2451-2459

省略识别及恢复联合模型研究

摘要：省略现象在对话中十分普遍,它的存在导致了语句成分的缺失.问答系统往往不能正确理解这些缺省的表述,这样就会产生错误的问答结果,所以,省略恢复在问答系统中是十分必要的.省略恢复通常分为零代词类别恢复、零代词指代消解2个步骤,已有工作主要是将二者顺序执行,因此会造成错误的累加.为了克服上述问题,提出了1种零代词类别恢复和零代词指代消解联合模型（joint model）的方法,旨在通过联合模型融合省略恢复的2个步骤,进而提高恢复效果.实验结果表明,相比较已有的方法,引入联合模型后,省略恢复的性能得到了显著的提升.

2460-2467

并行折叠计数器状态向量选择生成

摘要：测试模式生成对集成电路内建自测试（built-in self-test,BIST）的效率具有重要影响.现有的并行折叠计数器（parallel folding counter,PFC）只能实现状态向量（state vector,SV）的顺序折叠计算,导致大量冗余模式产生而限制了其在BIST中的应用.提出一种支持状态向量选择生成的并行折叠计数器,采用固定的初始翻转控制向量（flip control vector,FCV）,建立折叠距离与翻转控制向量的内在逻辑关系.通过位替换控制逻辑对折叠距离（folding distance,FD）的译码输出,控制折叠距离最低位对初始翻转控制向量的位替换,产生翻转控制向量;然后与种子向量执行＂异或＂运算,生成选择的状态向量,其中位替换控制电路可以进行逐级递推设计。理论分析与实验结果表明,与现有方案比较,建议的折叠计数器可以实现n位种子对应的n＋1个状态向量的选择生成,显著降低BIST确定性测试生成时间,而硬件开销与现有的并行折叠计数器相当.

2468-2475

基于外联关系的隐式篇章关系推理

摘要：针对隐式篇章关系（implicit discourse relation）分类性能较低的问题,提出一种基于＂外联＂关系的无监督隐式篇章关系推理方法.该方法继承＂显式指导隐式＂的关系推理模式,针对每个待测＂论元对＂,在大规模外部数据资源中挖掘与其内容近似的显式＂参考对＂,借助＂参考对＂的显式关系推理隐式关系.特别地,该方法侧重挖掘2个论元中能够协同触发篇章关系的文字片段（即＂外联＂成分）,以＂外联＂成分间的关系为参考,推理＂论元对＂整体的篇章关系.利用宾州篇章树库（Penn discourse treebank,PDTB）对这一推理方法进行评测.实验结果显示,该方法在隐式篇章关系推理性能上获得显著提升,识别精确率达到54.12%,与现有主流推理方法性能对比,识别精确率提升11.82%.

2476-2487

一种基于社会化标注的查询扩展研究

摘要：采用社会化标签可以提高检索质量,但真实的标注系统往往比较稀疏,并且标签存在无序性、不规范性和低效性等特点,因此单纯使用传统的SimRank等相似度算法难以奏效.为此,在SimRank算法基础上融入Jaccard系数计算,提出一种改进的社会化标签的相似度计算方法,称作Jaccard SimRank（JSR）算法,更加直观地描述社会化标签之间的相似度,在用户标注网络资源时自动对标签集进行扩展,增加标注密度,并在检索时对标签集进行扩展,因而能够更充分利用社会化标注系统的信息实现有效检索.实验结果表明,与传统的相似度算法相比,JSR方法有效提高了查询扩展系统的性能.

2488-2495

带外部存档的正交交叉布谷鸟搜索算法

摘要：布谷鸟搜索算法是一种新兴的仿生优化技术,其迭代使用Lévy flights随机走动和Biased随机走动搜索新的个体.在Biased随机走动中,随机交叉搜索方式具有一定的盲目或无效率,这将可能削弱布谷鸟搜索算法的搜索能力.为了改善布谷鸟搜索算法的搜索能力,提出带外部存档的正交交叉布谷鸟搜索算法（orthogonal crossover cuckoo search algorithm with external archive,OXCS）.正交交叉被嵌入于Biased随机走动中以提高交叉搜索的效率.外部存档维护一定时期内的种群历史信息,并为正交交叉操作提供一个父本.实验结果说明提出的策略能够有效地改善布谷鸟搜索算法的搜索能力,并提高求解连续函数优化问题的收敛速度和解的质量.

2496-2507

基于事务日志的社会网络抽取

摘要：社会网络分析（social network analysis,SNA）是数据挖掘领域的一个重要研究方向,社会网络数据的质量和规模对研究十分重要.在当前的社会网络分析研究中,大多数是基于社交网站生成的社会网络,社交网站生成的在线社会网络只是对真实社会网络近似模拟,其现象、结论无法代表真实社会网络;少数基于真实社会网络的研究中,由于数据采集难度较大,往往只能使用规模有限的社会网络,从而降低了分析结果的可信程度.现代软件系统产生大量的事务日志让构建基于真实环境的社会网络成为可能.以高校学生卡管理系统产生的事务日志为例,探索如何从海量事务日志中抽取社会网络.根据事务日志的特征,建立以共现（co-occurrence）特征为基础的网络抽取模型,抽取出所有可能构成这个社会网络的边;定义了一个基于边的权重和Jaccard相关性系数的边存在系数,识别网络中的噪音边,筛选噪音边;最后,通过同班级比率分析和网络拓扑结构分析,对抽取的网络进行验证.实验结果表明,所抽取的网络具有很高的同班级比率,该抽取模型具有较好效果,同时该网络具有小世界网络（small-world）特征和满足无标度（scale-free）度分布,符合常见社会网络特征.

2508-2516

EMTM：微博中与主题相关的专家挖掘方法

摘要：目前,微博已成为人们获取信息、分享信息的最流行平台之一.经过长期的发展积累,微博中聚集了很多具有权威专业知识背景的专家,挖掘微博中与主题相关的专家有利于进一步地用户推荐、微博舆情分析等工作.在微博中,与某个主题相关的专家是指因具有可靠的与此主题相关的专业知识或技能而在此主题下具有高影响力的用户.挖掘高影响力的用户可以通过分析微博的转发数据来进行,然而由于微博中用户的转发行为分为＂主题相关转发＂和＂跟随转发＂2种,因此,因被转发概率高而具有高影响力的用户不一定是专家.EMTM（experts mining topic model）是一种基于主题模型的概率生成模型,通过区分微博用户的不同转发行为来挖掘微博中与主题相关的专家.模型采用Gibbs采样进行推理求解.在真实的新浪微博数据集上的对比实验表明EMTM能够有效地挖掘微博中与主题相关的专家.

2517-2526

微博自媒体账号识别研究

摘要：随着Web 2.0时代的发展,微博作为新兴的社交网络媒体在人们的日常生活中扮演着愈发重要的角色.它不仅是用户交流与分享信息的桥梁,也是获取信息的重要方式.微博同时具有社交网络与信息媒体双重性,其生态环境中仅具有媒体属性,用于信息给公众的自媒体账号（we media account）发展迅速.首次提出微博自媒体账号识别这一研究问题,阐述了自媒体账号识别对分析微博生态环境、用户兴趣建模、优质内容挖掘的重要意义,提出了结合个人信息、账号行为及微博内容3类特征的有监督识别方法.研究结果表明：1）自媒体账号与普通的微博账号有着较明显的不同,主要体现在微博行为的规律性以及话题分布特性之上.2）提出的3类特征能够有效识别自媒体账号,不同类别的特征也能够相互补充,预测准确率高达96.71%.

2527-2534

2016年《计算机研究与发展》专题征文（正刊）——面向“互联网＋”的未来网络理论、体系结构与应用

摘要：＂互联网＋＂用互联互通的办法提高社会运行效率,以互联网为纽带、以网络思维为基础,结合生产、生活等社会运行的各个方面.＂互联网＋＂已经获得了初步的成功,新的应用如神州出行、微银行等正在改变人们的生活.＂互联网＋＂未来潜力不可限量.在这个背景下,不但我们需要新的＂互联网＋＂的应用,而且也需要思考新的互联网理论、互联网体系结构.特别地,＂互联网＋＂以互联网为基础,但是更强调互联网和其他网络、应用之间的关系,以及其他网络、应用在以互联网为纽带下之间的关系.

2534-2534

社会网络上支持任务分组的团队形成方法

摘要：社会网络的团队形成问题已经逐渐成为社会网络分析以及数据挖掘领域的研究热点,现有团队形成问题的目标集中在查询一个成员间沟通代价最小的团队.在实际应用中,对于大规模任务通常需要按照模块进行任务划分,例如大型软件开发、大型科研项目等,因此完成任务的团队也需要进行分组.基于此需求,提出了社会网络上支持任务分组的团队形成问题,即从专家社会网络中查询出满足复杂任务分组且沟通代价最小的专家团队.该问题的查询输入不再是传统团队形成问题中的技能集合,而是输入一个分组任务图,证明了该问题是NP难问题.依据组织行为学中的团队沟通模型,定义了任务分组的团队沟通代价度量,并提出了基于不同贪心搜索策略的算法.采用真实数据集对所提出的算法进行了实验评估,实验结果表明依据不同的贪心策略实现的算法能够适用于不同的沟通代价度量方法,证明了算法的有效性.

2535-2544

面向大数据流的多任务加速在线学习算法

摘要：多任务在线学习框架采用直接数据处理的流式计算模式,是大数据流分析很有前途的一种工具.然而目前的多任务在线学习算法收敛率低,仅为O（1/T1/2）,T为算法迭代次数.提出一种新颖的多任务加速在线学习算法ADA-MTL（accelerated dual averaging method for multi-task learning）,在保持多任务在线学习快捷计算优势的基础上,达到最优收敛率O（1/T2）.对多任务权重学习矩阵Wt的迭代闭式解表达式进行了推导,对提出算法的收敛性进行了详细的理论分析.实验表明,提出的多任务加速在线学习算法能够更好地保障大数据流处理的实时性和可伸缩性,有较广泛的实际应用价值.

2545-2554

CPU-GPU异构计算环境下的并行T近邻谱聚类算法

摘要：谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH（parallel spectral clustering for hybrids）算法是专为CPU-GPU异构计算环境设计的并行T近邻（T-nearest-neighbors,TNN）谱聚类算法,通过分块计算相似性矩阵打破了GPU设备内存的限制,所能处理的数据集规模仅受限于CPU主存的容量.PSCH算法中使用CUDA设计实现双缓冲轮转4段流水机制,通过重叠计算与传输在打破存储瓶颈的同时保证了高计算性能.PSCH算法采用隐式重启动Lanczos方法（implicitly restarted Lanczos method,IRIM）在异构硬件上计算稀疏特征矩阵的特征分解,减轻了特征分解步骤的计算瓶颈.PSCH算法在配有一块GTX 480GPU的单节点上能够对百万以上规模的数据集进行聚类,并对实验中的4个数据集取得了相对于使用16进程的MPI并行谱聚类PSC算法2.0~4.5倍的性能.

2555-2567

计算机研究与发展杂志体系结构

网络分簇BWRAID：更快的扩展、恢复和读写性能

摘要：存储区域网（storage area network,SAN）是重要的网络存储方法.使用商用硬件BWRAID在SAN上实现了分布式RAID.初始版本的BWRAID使用全对称结构,然而其存在3个问题：1）扩展时要读取数据重新计算校验,IO负载高、扩展时间长;2）将数据集中恢复到单个存储节点,没有分布的并发恢复;3）数据布局不合理,导致内部RAID4有大量同步更新.为解决上述问题,提出了＂网络分簇BWRAID＂.新系统采用＂分簇RAID＂（declustering RAID）的非对称结构,分簇对象是相等大小的小虚拟盘而不是数据块;在扩展时,它在节点之间仅迁移虚拟卷,不需计算校验.由于一个恢复需要的节点数量小于节点总数,多个恢复就能并行.为优化IO使用新的数据布局,按内部RAID4条带组织用户的存储空间,并给出了搜索虚拟盘的算法,用于在系统分配、扩展、恢复时,搜索合适的虚拟盘.实验表明网络分簇BWRAID更好：在系统扩展时无需重新计算校验,加速扩展5~8倍;并行恢复成倍加速;新数据布局提高了IO性能.

2568-2576

一种缓解多线程访存干扰的VRB内存机制

摘要：目前处理器通过持续增加核数和同时执行的线程数来提高系统性能.但是,增加共享内存的处理器核数和线程数会使得存储器中的行缓存（row-buffer,RB）命中率下降,造成存储器访问功耗增加和访存延迟增加.设计并开发了一种细粒度的victim row-buffer（VRB）内存机制系统来解决此问题.VRB机制提供附加的行缓存（VRB）,暂时缓存由于行缓存（RB）冲突而从行缓存（RB）逐出的数据,以备后续可能的访问.这种机制缓解了多线程冲突,增加了DRAM中行缓存数据的重用率,避免了不必要的内存数据阵列的访问、行激活和预充电、数据传输等电路动作,可以通过少量的硬件代价提高内存系统的性能,并节约系统的功耗消耗.通过时序精确的全系统模拟器实验,对比8核的Intel Xeon处理器,所提出的VRB机制可以达到最高17.6%（平均8.7%）的系统级吞吐率改善、最高142.9%（平均51.4%）的行缓存命中率改善以及最高17.6%（平均9.2%）的系统功耗改善.

2577-2588

基于异步时钟的SoC功耗约束测试调度优化

摘要：测试调度是一种能有效减少片上系统（system-on-chip,SoC）测试耗时（test application time,TAT）以降低测试成本的经典技术.然而,随着功耗问题的日益加剧,功耗约束成为测试调度中必须考虑的重要问题.可以调节各测试周期长度的异步时钟测试在对单个电路进行测试用时优化时效果显著,但直接将其应用于SoC测试调度并非总能获得最优的调度结果,使用传统测试调度模型往往会产生明显非最优的结果.在结合图论中团（clique）的概念,并分析异步时钟机制的特点后,提出一种将异步时钟特性应用于功耗约束SoC测试调度的方案.使用测试兼容图（test compatibility graph,TCG）和混合整型线性规划（mixed integer linear programming,MILP）建立相对应数学模型,理论分析和在ITC02基准SoC集上的模拟实验结果表明,该方案能有效地减少测试耗时.

2589-2598

计算机研究与发展杂志

期刊咨询

期刊推荐

文秘服务

计算机研究与发展 2015年第11期杂志文档列表

计算机研究与发展杂志

期刊咨询

期刊推荐

文秘服务

计算机研究与发展 2015年第11期杂志 文档列表

计算机研究与发展 2015年第11期杂志文档列表