计算机学报杂志-2018年第01期-学术点评

计算机学报 2018年第01期杂志文档列表

计算机学报杂志人工智能

深度强化学习综述1-27

摘要：深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提出以来,在许多需要感知高维度原始输入数据和决策控制的任务中,深度强化学习方法已经取得了实质性的突破.该文首先阐述了三类主要的深度强化学习方法,包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习;其次对深度强化学习领域的一些前沿研究方向进行了综述,包括分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等.最后总结了深度强化学习在若干领域的成功应用和未来发展趋势.

交互式动态影响图研究及其最优K模型解法28-46

摘要：不确定性多智能体序贯决策是人工智能研究领域一个重要的研究问题,主要求解智能体如何在与其他智能体的交互中优化本身的决策.特别在部分可观测的随机博弈设置下,智能体不能探测到真实的外部环境状态,必须依靠所接收的观察来推断可能的状态;同时,智能体的动作也具有相当的随机性,直接影响到其他智能体的决策.智能体的交互主要通过对共同环境状态的影响决定它们各自决策的报酬.因此,如何对多智能体之间的交互进行建模是求解该问题的核心任务.目前大部分的研究主要通过对整个智能体系统进行建模,采取集中规划、分散控制的求解机制：首先,统一计算所有智能体的联合决策;然后,各个智能体执行分配得到的局部决策.该求解技术往往要求所有的智能体必须对全局环境有一个共同的知识假设,因此该研究工作一般只适用于合作型的多智能体系统.相比之下,交互式动态影响图是从个体决策者的角度研究不确定性多智能体序贯决策问题的一种普遍适用的建模方法,克服了传统的博弈论方法求解多智能体决策问题的局限性.求解交互式动态影响图模型的主要困难在于复杂的智能体相互建模过程.特别是在竞争的环境下,由于智能体缺少相互交流的机会,也不能预知其他智能体的真实模型,必须通过预测和推理其他智能体的行为来决定本身的动作.主要求解思路是首先假设其他智能体的可能模型,然后通过求解这些可能的模型来预测智能体的行为.由于其他智能体的备选模型往往有很多,而且随着决策时间的推移,模型的不确定性增强,导致可能的模型呈指数增长,这给求解交互式动态影响图带来了极大的困难.基于目前大量的交互式动态影响图研究工作,文中旨在总结归纳模型的具体表达方式和求解方法,并在此基础上提出一种新的模型求解方法.针�

基于手牌预测的多人无限注德州扑克博弈方法47-64

摘要：作为非完备信息博弈的典型代表,德州扑克一直是人工智能领域内的难题.尤其在多人无限注德州扑克中,博弈策略的制定需要考虑诸多复杂因素,加上其解空间巨大,使问题极具挑战.一般有两种思路解决之：第一种是基于博弈论的方法,通过搜索博弈树、寻找纳什均衡点得到最佳策略;第二种是基于知识的方法,通过学习人类玩家的行动来制定博弈策略.该文的方法属于后者：提出了一种基于牌型预测的德州扑克博弈方法.该方法的基本思想是模拟人类玩家的“读牌”能力.读牌是德州扑克对抗中的重要部分,即根据对手表现出的即时信息及过往的行为习惯,判断对手手牌的大致分布甚至精确牌型.读牌之所以可行,是因为随着牌局发展,对手会进行多次行动,而这些行动往往体现了其手牌信息.文章从非完备信息博弈的角度出发,提出了一套完整的博弈框架,并讨论框架的适用性.随后,将该框架具体应用于德州扑克,将研究重点放在未知信息集的预测上,并采用蒙特卡洛方法计算胜率、得出决策.文章详细地阐述了该方法的设计思想和实现细节,为多人无限注德州扑克程序的设计提供了宝贵的参考.该文是首篇全面论述并设计实现了基于对手手牌预测的多人（超过三人）无限注德州扑克程序的论文.在对手牌型预测上,该文程序比马尔可夫模型的预测精度平均高出6.65%.在博弈性能上,选择2015年华为软件精英挑战赛上的七个程序进行比较,采用锦标赛赛制（允许一次后续买入）.两人局比赛的平均胜率为89%,八人局比赛的平均名次为1.74.同时在筹码胜负、坚持局数等多项指标上均取得最好成绩.

一种基于信任关系隐含相似度的社会化推荐算法65-81

摘要：推荐算法已经成为许多电子商务网站必不可少的组成部分.基于用户历史评价数据的协同过滤推荐算法通常面临着数据稀疏的问题,即用户评分过于稀疏导致推荐质量下降.为了解决这一问题,结合辅助数据成为一种必然的趋势.因此,随着社交媒体的发展,基于信任关系的社会化推荐算法被证明为一种有效的解决方法.这些算法利用社交网络信息对用户偏好进行建模,并进行推荐.然而,目前大部分算法直接利用社交网络的二值信任关系来提高推荐质量,从而没有考虑用户对每个好友信任强度的差异.为了解决这一问题,该文提出了一种新的基于信任关系隐含相似度的度量方法,并与协同推荐算法相结合,获得更高的推荐质量.与之前的方法不同,在考虑评分相似度的基础上,该文专注于研究利用社交信息来估计信任强度并提出了信任关系隐含相似度.首先,该文考虑了用户间的间接影响,即通过分解社交矩阵得到隐含间接影响的用户社交偏好,并基于此得到了信任关系隐含相似度;其次,鉴于用户在作为信任者和被信任者时的偏好并不相同,该文提出的信任关系隐含相似度分别考虑了这两种情况;进一步,考虑到评分和社交数据都非常稀疏,文章同时考虑了评分相似和信任相似对每组用户间信任强度的影响,得到一个更加精确的社会化推荐模型;最后,不同于直接计算信任强度的算法,该文基于评分和社交数据,提出了一种自适应相似度计算的模型.该文在Epinions和Ciao数据集上进行了丰富的实验,并与多种前沿的算法进行了性能对比.文中同时采用基于误差的指标（MAE和RMSE）和排序类指标（精度、召回率和NDCG）对算法性能的性能进行度量,结果表明该文算法对于评分预测和Top-N项目推荐任务都能得到鲁棒的表现.文中还展示了对于评分和信任数据稀疏用户的性能表现,结果仍优

社会化问答网站知识传播网络推断方法82-97

摘要：社会化问答网站通过用户间提问与回答的方式帮助用户获得全面的知识.知识传播过程是进一步研究信息传播规律和社交行为的基础,由于无从得知传播者影响了哪些用户,因而无法直接获得答案的完整传播过程.该文提出了一种描述社会化问答网站知识传播过程的传播网络模型,定义了社会化问答网站知识从传播者到接收者的传播过程,归纳出follow,notification,qlink,recommendation这4种可能的知识传播方式,给出了知识传播网络定义,为传播网络推断奠定了理论基础.提出了一种社会化问答网站知识传播网络推断方法,分别提取节点类型、节点时间关系及候选传播者排序特征推断follow关系,采用启发式方法推断另外3种关系,生成知识传播网络.结合知乎问答数据对所提方法进行了实验验证及实例分析,结果表明推断方法有效并具有较高的准确率.

跨模态社交图像聚类98-111

摘要：社交图像包含两种模态的信息：视觉信息和社交标签信息.绝大部分跨模态学习领域的研究者,将其精力集中在多模态信息的共享特征空间学习上,从而往往忽略了各模态信息所独有的特征.在该文中将探究如何利用二者的共享信息以及独有信息进行跨模态的图像聚类.该文将共享特征空间的学习看作一个共轭词典学习问题（Coupled Dictionary Learning,CDL）,通过一个L1,∞范数的正则项使各模态的词典稀疏化,这种结构化的稀疏性限制会使各模态独有的特征得以保留.除此之外,该文还提出了一个简单的语义相似度度量框架.借助一个包含丰富语义关系的信息库WordNet,该文通过度量标签间的概念距离（conceptual distance）与释义相似度（gloss similarity）,为标签添加一定的语义关系,以度量样本间的语义相似度.通过实验证明该文“共享＆独有”模式的跨模态学习的方法,相比其它只利用共享特征的方法,在聚类任务上表现更为出色.

基于凸多面体抽象域的自适应强化学习技术研究112-131

摘要：表格驱动的算法是解决强化学习问题的一类重要方法,但由于“维数灾”现象的存在,这种方法不能直接应用于解决具有连续状态空间的强化学习问题.解决维数灾问题的方法主要包括两种：状态空间的离散化和函数近似方法.相比函数近似,基于连续状态空间离散化的表格驱动方法具有原理直观、程序结构简单和计算轻量化的特点.基于连续状态空间离散化方法的关键是发现合适的状态空间离散化机制,平衡计算量及准确性,并且确保基于离散抽象状态空间的数值性度量,例如V值函数和Q值函数,可以较为准确地对原始强化学习问题进行策略评估和最优策略π＊计算.文中提出一种基于凸多面体抽象域的自适应状态空间离散化方法,实现自适应的基于凸多面体抽象域的Q（λ）强化学习算法（Adaptive Polyhedra Domain based Q（λ）,APDQ（λ））.凸多面体是一种抽象状态的表达方法,广泛应用于各种随机系统性能评估和程序数值性属性的验证.这种方法通过抽象函数,建立具体状态空间至多面体域的抽象状态空间的映射,把连续状态空间最优策略的计算问题转化为有限大小的和易于处理的抽象状态空间最优策略的计算问题.根据与抽象状态相关的样本集信息,设计了包括BoxRefinement、LFRefinement和MVLFRefinement多种自适应精化机制.依据这些精化机制,对抽象状态空间持续进行适应性精化,从而优化具体状态空间的离散化机制,产生符合在线抽样样本空间所蕴涵的统计奖赏模型.基于多面体专业计算库PPL（Parma Polyhedra Library）和高精度数值计算库GMP（GNU Multiple Precision）实现了算法APDQ（λ）,并实施了实例研究.选择典型的连续状态空间强化学习问题山地车（Mountain Car,MC）和杂技机器人（Acrobatic robot,Acrobot）作为实验对象,详细评估了各种强化学习参数和自适应精化相关的阈值参数�

基于深度学习的形状建模方法132-144

摘要：在目标检测、图像分割、图像修复等应用中,一个好的目标形状模型有着非常重要的作用.与灰度、纹理、边缘等底层的视觉特征相比,作为一种高层视觉特征的形状更有利于描述目标的全局视觉信息.一般在加入全局形状信息的情况下算法的性能将有所提高.近年来,由于其具有卓越的学习数据中包含的内部结构的能力,深度学习模型吸引了越来越多的关注.包含多层隐层单元的深度学习模型用于模拟人类大脑的认知机制,可以提取多层数据特征和表示复杂的数据分布,学习到的多层抽象表示更有助于了解形状等数据的信息.针对复杂而又多变的目标形状,该文基于深度信念网络和深度玻尔兹曼机构造形状模型,给出了各自的模型构造方法、模型训练方法以及基于模型生成目标形状的方法.这两种模型是深层概率模型,能够充分利用底层特征和多层高层特征（越高层越复杂）拟合关于训练集形状的概率分布,所以它们能够有效地建模形状.这类模型的一个关键特性是使用贪心逐层训练快速地找到一组好的模型参数.该文的形状模型不仅能够很好地表达出训练集中的形状,还能够生成不同于训练集中样本的形状.另外,当训练集中的形状是多类别时,此时涉及到的形状变化比较大,文中模型同样能够定义形状所属的多峰分布.深度学习模型具有较强的形状表达能力,可以应用于生成形状、形状修复和去噪等多种任务.该文在Weizmann Horse和Caltech101Silhouettes数据集上进行了实验,结果表明,和浅层的受限玻尔兹曼机模型相比,深度学习模型能够更好地表达训练集形状,从包含多层非线性处理的深层结构中生成的形状看起来更符合实际,且深度玻尔兹曼机模型生成的目标形状要比深度信念网络模型更为清晰.实验中以形状图形化结果和形状相似性度量结果说明深度学习模型对训�

量子机器学习算法综述145-163

摘要：机器学习在过去十几年里不断发展,并对其他领域产生了深远的影响.近几年,研究人员发现结合量子计算特性的新型机器学习算法可实现对传统算法的加速,该类成果引起了广泛的关注和研究.因此,文中对近十年的量子机器学习算法进行总结、梳理.首先,介绍了量子计算和机器学习的基本概念;其次,从四个方面分别介绍了量子机器学习,分别是量子无监督聚类算法、量子有监督分类算法、量子降维算法、量子深度学习;同时,对比分析量子机器学习算法与传统机器学习算法的区别和联系;最后,总结该领域存在的问题及挑战,并对量子机器学习未来的工作进行展望.

使用Nesterov步长策略投影次梯度方法的个体收敛性164-176

摘要：很多机器学习问题都可以最终转换为优化问题来进行求解,凸优化算法已经被成功用于各种机器学习优化问题中,而在优化算法的研究中是否能获得最优的收敛速率是一个最基本问题.此外,稀疏性是稀疏学习问题中关注的另一个目标.目前,人们已经提出了大量的随机优化方法求解大规模机器学习优化问题,但大部分的研究只是针对平均输出方式获得了最优收敛速率.个体输出方式显然比平均方式的输出具有更好的稀疏性,但使个体收敛速率获得最优具有一定的难度,人们已经将强凸情形下的最优个体收敛性作为公开问题进行广泛研究.对于光滑目标函数的优化问题,著名学者Nesterov提出了一种步长策略,使得梯度方法的收敛速率获得了数量级形式的加速,并且获得了最优的个体收敛速率.目前,Nesterov加速算法已经应用于各种具有光滑损失函数机器学习优化问题中,研究者基于该加速策略提出了大量的随机优化算法.能否将这种技巧推广至非光滑情形获得最优的个体收敛速率显然是有意义的问题.文中考虑在非光滑优化算法中引入这种步长策略.特别地,我们聚焦经典的一阶梯度方法,提出了一种嵌入加速算法步长策略的投影次梯度算法,证明了这种算法在求解非光滑损失函数学习问题时具有最优的个体收敛速率.这是比标准投影次梯度方法只有在平均输出方式下才具有最优收敛速率更强的结论,也是一阶梯度方法在个体最优收敛速率方面比较接近于大家期待的研究成果.与平均方式输出以及线性插值的投影次梯度方法相比,该文所提方法的梯度运算在插值策略之后,因此在求解l1范数约束的hinge损失函数学习问题时具有更好的稀疏性.人工数据集上的实验验证了所提方法的正确性,基准数据集上验证了该方法在保持稀疏性方面具有良好的性能.

有遮挡人脸识别综述：从子空间回归到深度学习177-207

摘要：有遮挡人脸识别是面向现实的人脸识别系统需要重点解决的问题,其困难性主要体现在由遮挡所引发的特征损失、对准误差和局部混叠等方面.该文从鲁棒分类器的设计和鲁棒特征提取两方面回顾了现有的方法.充分利用人脸图像和遮挡自身所固有的结构来表示、抑制或消除遮挡或由遮挡引发的误差是目前设计鲁棒分类器的关键思路.从子空间回归的角度回顾了主流的线性回归分类器处理遮挡问题的一般方法：协同表示、遮挡的字典表示及遮挡字典的学习和压缩技术;从结构化误差编码的角度回顾了基于人脸图像低秩结构的误差编码方法和将遮挡的空间结构嵌入重构误差的编码方法;从噪声抑制和遮挡检测两方面回顾了现有的迭代重权误差编码方法.文中强调特征提取对于解决有遮挡人脸识别问题的重要性,总结了鲁棒特征提取的基本要素,深入分析了以图像梯度方向和韦伯脸为代表的“浅层”特征所引发的零和差异现象、以PCANet为代表的将卷积神经网络与经典的“特征图-模式图-柱状图”特征提取框架相结合的编码原理,以及以DeepID为代表的卷积神经网络所生成的“深度”特征所具有的遮挡不变性及其所蕴含的编码准则.在Extended Yale B、AR和LFW等三个基准数据库上对现有方法的有效性进行了大规模测试,指出了现有方法的适用面及局限性.最后指出了有遮挡人脸识别给计算机视觉带来的挑战、现有方法在优化算法和特征提取方面存在的主要问题以及未来利用卷积神经网络处理遮挡问题需重点考虑的问题.

进程择优法及在心音深度信任网络中的应用208-220

摘要：深度学习算法因其在自然环境下对大数据处理的优良特性已成为图像、语音识别方面的主流算法.为解决深度学习网络结构选择困难的问题,文中深入探究了深度学习网络的结构特性,提出了一种进程择优法来帮助深度学习网络结构的选择,可方便、快速地给出深度学习网络的优选范围.经实验验证,此方法在多种数据库下都有良好效果,方法具有一定的普适性.而心音作为一种生理信号,反映了人体心脏的跳动情况,与人体心脏的健康息息相关,在心音分类识别、健康鉴定中得到广泛的应用.文中首先使用进程择优法来优选、构建出一种心音深度学习网络,再以心音深度学习网络为核心,加入BP神经网络作为分类器,设计出了一种心音深度信任网络.该网络相比同类其它层次结构的深度信任网络拥有更低的误识别率,平均误识别率在10%左右.特别是将原系统优化为融合心音能量特征输入的心音深度信任网,其平均误识别率可下降到3%.文中的研究对于提高心音识别算法在自然环境下处理数据的能力具有积极的意义.

交通路口监控视频跨视域多目标跟踪的可视化221-235

摘要：跨视域大场景的多目标跟踪与展示是智能监控的基本需求之一.该文设计了一种基于视域拼接的跨视域多目标跟踪的可视化算法,借助于视频场景中几何信息实现视域拼接,从而实现将交通路口不同视角监控视频中的跟踪目标在统一的视场下展示.算法主要包含四个步骤：视域背景拼接、目标检测、跨视域多目标跟踪以及可视化显示.其中,视域背景拼接步骤利用交通场景背景图像几何信息辅助的半交互方式确定特征点对,计算不同视角到参考视域平面的单应变换矩阵,并利用SPHP算法保形后对所有配准图像线性融合以完成背景拼接;目标检测步骤利用ViBe背景建模算法分离目标,并进行阴影消除以提高检测准确性;跨视域多目标跟踪则结合各个视角到拼接视域平面的映射关系获得目标的定位信息,采用Kalman滤波和最小均方的轨迹匹配实现跨视域多目标的一致性跟踪;最后可视化显示步骤则在拼接的视域背景上对跟踪目标进行动态可视化展示.实验结果表明,该算法能够在统一视场下展现多个视域的监控场景信息,更方便于交通路口的监控.

基于角度惩罚距离精英选择策略的偏好高维目标优化算法236-253

摘要：基于决策者偏好的高维目标优化算法能有效集中算法资源和减小搜索空间,是处理高维目标优化问题的有效途径之一.现有研究发现,参考点位置选择对算法性能影响显著,位于极端位置的参考点容易引发算法不收敛;同时,算法多样性在种群逼近Pareto前沿的过程中反复遭到破坏.为解决以上问题,该文提出一种基于角度惩罚距离精英选择策略的偏好高维目标优化算法.该算法将决策者偏好信息融入到基于分解的多目标优化算法中,提出偏好向量生成策略,消除算法收敛性对参考点位置的敏感性;同时引入角度惩罚距离（APD）机制,分析该机制在算法搜索后期存在种群退化、收敛放缓等缺陷的基础上,提出APD精英选择策略,通过有效分配算法资源,平衡算法收敛性和多样性.算法性能对比实验中,将该文提出的算法与g-占优、r-占优、双极偏好占优以及MOEA/D-PRE在3至10维DTLZ1-4测试问题上进行性能测试.实验结果表明,该文提出的偏好算法所求解集能够有效反映决策者的偏好信息,并且在高维目标优化问题上,所提算法在偏好区域求得解集的收敛性和均匀性更优.

跨项目软件缺陷预测方法研究综述254-274

摘要：软件缺陷预测首先通过挖掘与分析软件历史仓库,从中抽取程序模块并进行类型标记.随后通过分析软件代码的内在复杂度或开发过程特征,设计出与软件缺陷存在强相关性的度量元,并对这些程序模块进行度量.最后借助特定的机器学习方法基于上述数据构建出缺陷预测模型.因此该方法可以在项目开发的早期阶段,通过预先识别出项目内的可疑缺陷模块,达到优化测试资源分配的目的.但在实际软件开发场景中,需要进行缺陷预测的项目可能是一个新启动项目,或这个项目的历史训练数据比较稀缺.一种简单的解决方案是利用其他项目已经搜集的训练数据来构建缺陷预测模型.但不同项目之间因所处的应用领域、采用的开发流程、使用的编程语言、开发人员经验等并不相同,因此对应数据集间会存在较大的分布差异性并造成该方案的实际性能并不理想,因此如何通过有效迁移源项目的相关知识来为目标项目构建预测模型,吸引了国内外研究人员的关注,并将该问题称为跨项目软件缺陷预测问题.论文针对该问题进行了系统综述.根据预测场景的不同,将已有方法分为3类：基于有监督学习的方法、基于无监督学习的方法和基于半监督学习的方法.其中基于有监督学习的方法主要基于候选源项目集的程序模块来构建模型.这类方法根据源项目与目标项目采用的度量元是否相同又可以细分为同构跨项目缺陷预测方法和异构跨项目缺陷预测方法.针对前者,研究人员主要从度量元取值转换、实例选择和权重设置、特征映射和特征选择、集成学习、类不平衡学习等角度展开研究.而后者更具研究挑战性,研究人员主要基于特征映射和典型相关分析等方法展开研究.基于无监督学习的方法直接尝试对目标项目中的程序模块进行预测.这类方法假设在软件缺陷预测问题中,有�

计算机学报杂志北大期刊 CSCD期刊 统计源期刊

Chinese Journal of Computers

计算机仿真

计算机科学

黑龙江教育学院学报

计算机教育

护理学报

公共管理学报

计算机测量与控制

材料科学与工程学报

太原城市职业技术学院学...

吉林大学学报·信息科学...

期刊咨询

期刊推荐

文秘服务

计算机学报 2018年第01期杂志文档列表

计算机学报杂志 北大期刊 CSCD期刊 统计源期刊

Chinese Journal of Computers

计算机仿真

计算机科学

黑龙江教育学院学报

计算机教育

护理学报

公共管理学报

计算机测量与控制

材料科学与工程学报

太原城市职业技术学院学...

吉林大学学报·信息科学...

期刊咨询

期刊推荐

文秘服务

计算机学报 2018年第01期杂志 文档列表

计算机学报杂志北大期刊 CSCD期刊统计源期刊

计算机学报 2018年第01期杂志文档列表