计算机研究与发展杂志-2014年第10期-学术点评

计算机研究与发展 2014年第10期杂志文档列表

计算机研究与发展杂志人工智能

基于影响力计算模型的股票网络社团划分方法

摘要：利用复杂系统的能量特性,引入影响力概念,研究动态复杂网络的社团划分方法,以有效地发现股票网络的社团结构.利用股票收盘价,通过引入影响力和结点中心性定义,构建以影响力为权值的股票网络,并提出一种基于影响力计算模型的股票网络中心结点层次聚类算法（based on the center node hierarchical clustering algorithm about the influence calculation model of stock network,BCNHC）.BCNHC算法首先引入结点活跃性和影响力的定义,并给出网络中结点的影响力计算模型;然后,基于所引入的结点中心性的度量准则,选取结点中心性大的结点为中心结点,并利用结点间的亲密性和影响力模型确定相邻结点之间影响力关联度;进而,通过优先选择度值最小的结点向中心结点聚集,以降低因相邻结点所属社团不确定而导致的错误聚类;在此基础上,利用社团平均影响力关联度对相邻社团进行聚类,保证社团内所有结点的影响力关联度最大化,直至整个网络模块度最大.最后,在构建的股票网络上的实验比较和分析,验证BCNHC算法的可行性.

2137-2147

基于主动学习的模式类别挖掘模型

摘要：在实际应用问题中,由于客观世界物质的多样性、模糊性和复杂性,经常会遇到大量未知样本类别信息的数据挖掘问题,而传统方法往往都依赖于已知样本类别信息才能对数据进行有效挖掘,对于未知模式类别信息的多类数据目前还没有有效的处理方法.针对未知类别信息的多类样本挖掘问题,提出了一种基于主动学习的模式类别挖掘模型（pattern class mining model based on active learning,PM_AL）来解决未知类别信息的模式类别挖掘问题.该模型通过衡量已得到的模式类别与未标记样本间的关系,引入样本差异度的方法来抽取最有价值样本,通过主动学习方式以较小的标记代价快速挖掘无标记样本所蕴含的可能模式类别,从而有助于将无类别标记的多分类问题转化成有类别标记的多分类问题.实验结果表明,PM_AL算法能够以较小的标记代价处理无类别信息的模式类别挖掘问题.

2148-2159

不完美信息扩展式博弈中在线虚拟遗憾最小化

摘要：研究在不完美信息扩展式博弈中对次优对手弱点的利用.针对该领域中一种常用方法——对手建模方法——的不足,提出了从遗憾最小化的角度来利用次优对手弱点的思想,并基于一种离线的均衡计算方法——虚拟遗憾最小化方法——将其扩展到在线博弈的场景中,实现对次优对手弱点的利用.提出了从博弈结果中估计各个信息集的虚拟价值的方法,给出2种估计手段：静态估计法和动态估计法.静态估计法直接从博弈结果的分布中进行估计,并对每个结果给以相等的估计权重;而动态估计法则对新产生的博弈结果给以较高的估计权重,以便快速地适应对手的策略变化.基于2种估计方法,提出在线博弈中虚拟遗憾最小化的算法,并在基于单牌扑克的实验中,与4种在线学习算法（DBBR,MCCFR-os,Q-learning,Sarsa）进行了对比.实验结果显示所提出的算法不仅对较弱对手的利用效果最好,还能在与4种对比算法的比赛中取得最高的胜率.

2160-2170

基于近似高斯核显式描述的大规模SVM求解

摘要：大规模数据集上非线性支持向量机（support vector machine,SVM）的求解代价过高,然而对于线性SVM却存在高效求解算法.为了应用线性SVM高效求解算法求解非线性SVM,并保证非线性SVM的精确性,提出一种基于近似高斯核显式描述的大规模SVM求解方法.首先,定义近似高斯核并建立其与高斯核的关系,推导近似高斯核与高斯核的偏差上界.然后给出近似高斯核对应的再生核希尔伯特空间（reproducing kernel Hilbert space,RKHS）的显式描述,由此可精确刻画SVM解的结构,增强SVM方法的可解释性.最后显式地构造近似高斯核对应的特征映射,并将其作为线性SVM的输入,从而实现了用线性SVM算法高效求解大规模非线性SVM.实验结果表明,所提出的方法能提高非线性SVM的求解效率,并得到与标准非线性SVM相近的精确性.

2171-2177

一种蛋白质复合体模块度函数及其识别算法

摘要：蛋白质复合体对于研究细胞活动具有重要意义.随着新的生物实验技术的不断出现,产生了大量的蛋白质相互作用网络.通过对蛋白质相互作用网络进行聚类识别蛋白质复合体是当前研究热点.然而,目前大多数蛋白质复合体识别算法的性能不够理想.为此,提出了蛋白质复合体模块度函数（PQ）,并在此基础上提出了基于蛋白质复合体模块度函数的模块合并（based on protein complexes modularity function for merging modules,BMM）算法.BMM算法首先识别网络中一些稠密子图作为初始模块,然后依据PQ函数对这些初始模块进行合并,最终得到了质量较高的蛋白质复合体.将识别出的复合体分别与2种已知的蛋白质复合体数据集进行比对,结果表明BMM算法具有很好的识别性能.此外,与其他最新的识别算法相比,BMM算法的识别准确率较高.

2178-2186

基于阈值统计学习的差分进化引力搜索算法

摘要：为了改善基本差分进化算法在求解复杂优化问题时易出现早熟收敛、求解精度低以及进化后期收敛速度慢等缺陷,结合引力搜索算法的优点,提出一种基于阈值统计学习思想的混合差分进化引力搜索算法.该算法通过阈值统计学习的方式,充分利用差分进化算法的全局优化能力与引力搜索算法在进化后期的种群开发能力,在进化过程中根据2种策略在先前学习代数的成功率自适应选择较优策略生成下一代群体,保证种群在解空间中的探索与开发能力之间的平衡,以提高算法的全局寻优能力.对几个经典复杂测试函数的仿真结果表明：改进算法求解精度高、收敛速度快、鲁棒性强、能够有效避免早熟收敛问题.

2187-2194

计算机研究与发展杂志数据库技术

一种有效的差分隐私事务数据策略

摘要：近年来,隐私保护事务数据得到了研究者的广泛关注.事务数据的稀疏性导致个体隐私保护与数据效用性之间很难达到平衡.目前已有的方法大多是基于分组的匿名模型,但该类模型依赖于攻击者背景知识,且的数据无法满足事务数据分析任务的需要.针对事务数据隐私保护的数据安全性与效用性不足,基于差分隐私与压缩感知理论,提出一种有效的面向应用的事务数据策略（transaction data publish strategy,TDPS）.首先构建事务数据库的完整Trie项集树,然后基于压缩感知技术对项集树添加满足差分隐私约束的噪音得到含噪Trie项集树,最后在含噪树上进行频繁项集挖掘任务.实验结果表明,TDPS不仅能很好地保护隐私,而且能有效保持数据效用性,满足事务数据分析任务对数据质量的要求.

2195-2205

基于用户反馈的top-k查询修改算法

摘要：top-k查询主要用来从海量的数据中返回用户最为偏好的k个对象.目前已经有大量的研究工作致力于top-k查询中的性能研究,近年来针对top-k查询结果进行解释的研究逐渐得到了广泛的关注.在top-k查询中,由于用户不能精确地指定自己的偏好,因此针对top-k查询的结果用户可能产生这样的质疑：“既然连对象p都出现在top-k结果中,为什么我期望的对象m块没有出现在top-k结果？”针对用户这样的疑问,提出了一种基于用户反馈的top-k查询修改算法,该算法首先定义了用来衡量初始化top-k查询变化的评估模型函数,基于该评估模型函数,使用抽样方法得到候选权重集合,针对每一个候选权重通过渐进式top-k算法来得到新的最优化查询.最后在模拟数据上验证了提出算法的效率.

2206-2215

计算机研究与发展杂志信息检索与推荐

信息检索中的带权邻近度度量研究

摘要：信息检索需要解决的主要问题是为信息索取者提供相关、准确甚至完整的信息.大量的传统检索模型基于词袋假设进行建模,不考虑查询词之间的相互联系.词项邻近度信息在现有的研究中常被用于提升经典信息检索模型的检索效果,但大部分工作没有考虑查询中各个词重要性的差异.在现代信息检索的查询请求中,查询词之间不仅不完全相互独立,而且分别具有不同的重要程度.因此,在计算邻近度信息时对查询词的重要性进行区分,将有助于提高检索效果.带权邻近度BM25模型（WP-BM25）使用待检索数据集的背景信息对查询词的重要性进行区分,并将带权邻近度度量方法整合到BM25模型中.在TREC评测的3个标准数据集FR88-89,WT2G和WT10G上的一系列对比实验表明,该模型具有较好的鲁棒性,且能够使检索效果得到显著提升.

2216-2224

TTRank：基于倾向性转变的用户影响力排序

摘要：近年来,不少学者从回复关系的角度分析用户影响力,但存在回复关系稀少、帖子内容被忽视、不能动态更新等问题.为弥补这些不足,提出了一种基于倾向性转变的用户影响力分析方法.先计算帖子的影响力,再提出“局部回复链”的概念,引入间接回复关系计算方法,增加了帖子之间的回复关系;然后对局部回复链,分析用户倾向性变化的过程,得到用户影响他人和受影响的程度,最终获得用户在指定范围内的影响力排名.该算法与10种经典的影响力分析算法对比以及实例分析的结果,说明该算法能从其他角度更好地刻画用户形象.

2225-2238

计算机研究与发展杂志读者专栏

2015年中国计算机学会人工智能会议（CCFAI 2015）征文通知

摘要：中国计算机学会人工智能会议由中国计算机学会主办,中国计算机学会人工智能与模式识别专业委员会协办,每两年召开一次.本届会议将于2015年8月21—23日在山西省太原市举行,会议由山西大学计算机与信息技术学院、山西大学计算智能与中文信息处理教育部重点实验室联合承办.本次会议旨在为广大的人工智能研究人员提供了一个交流、合作的平台,汇聚从事人工智能理论与应用研究的人员,广泛开展学术交流,研讨发展战略.

2238-2238

计算机研究与发展杂志信息检索与推荐

搜索引擎索引网页集合选取方法研究

摘要：随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1？3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求.

2239-2247

基于文档团的Markov网络检索模型

摘要：查询扩展是提高检索效率的有效方法.但是许多查询扩展方法中扩展词的选择没有充分考虑词项之间以及词项与文档之间的相关性,这样可能在查询扩展时加入太多不相关信息降低检索的性能.通过对文档间相关性和词间相关性的计算,把文档和词关联起来构建Markov网络检索模型,然后根据词项子空间和文档子空间的映射关系提取词团,将提取的词团信息用于查询扩展,使得查询扩展的内容更为相关.实验表明：基于文档团依赖的Markov检索模型能有效地提高检索效果.

2248-2254

云计算环境下基于协同过滤的个性化推荐机制

摘要：随着云计算时代的到来,应用数据量剧增,个性化推荐技术日趋重要.然而由于云计算的超大规模以及分布式处理架构等特点,将传统的推荐技术直接应用到云计算环境时会面临推荐精度低、推荐时延长以及网络开销大等问题,导致推荐性能急剧下降.针对上述问题,提出一种云计算环境下基于协同过滤的个性化推荐机制RAC.该机制首先制定分布式评分管理策略,通过定义候选邻居（candidate neighbor,CN）的概念筛选对推荐结果影响较大的项目集,并构建基于分布式存储系统的2个阶段评分索引,保证推荐机制快速准确地定位候选邻居;在此基础上提出基于候选邻居的协同过滤推荐算法（candidate neighbor-based distribited collaborative filtering algorithm,CN-DCFA）,在候选邻居中搜索目标用户已评分项目的k近邻,预测目标用户的推荐集top-N.实验结果表明,在云计算环境下RAC拥有良好的推荐精度和推荐效率.

2255-2269

基于用户-标签-项目语义挖掘的个性化音乐推荐

摘要：个性化推荐系统面临的难题是推荐的准确性、多样性以及新颖性,同时其数据集存在稀疏、信息缺失（如用户描述、项目属性以及明确的评分）等问题.协同标注中的标签包含丰富的个性化描述信息以及项目内容信息,因此可以用来帮助提供更好的推荐.算法以二部图节点结构相似与重启型随机游走为基础,分析音乐社交网络Last.fm中用户、项目、标签两两之间的联系,首先构建音乐间及标签间的相邻关系,初步得到音乐推荐列表和间接关联音乐集合,然后按所提算法融合结果,重新排序,得到最终推荐列表,从而实现个性化音乐推荐算法.实验表明,在该数据集上,所提方法能够满足用户对音乐的个性化需求.

2270-2276

计算机研究与发展杂志模式识别

MMCKDE：基于数据流的m-混合聚类核概率密度估计

摘要：数据流挖掘应用对时间、空间有着较高的要求,因而传统的密度估计方法,如核密度估计法、压缩集密度估计法等并不适用于数据流密度估计.提出一种新颖的面向在线数据流的m-混合聚类核密度估计（m-mixed clustering kernel density estimation,MMCKDE）方法,该方法通过创建MMCKDE节点,用固定个数的混合聚类核获得聚类信息,以代替其他密度估计方法中的所有核.针对数据量不断增加的情况,通过计算Kullback Leibler（KL）距离进行核合并,可进一步以更紧凑的形式表示概率密度估计信息.较之于其他一些方法只能估计整段数据流的密度,MMCKDE方法最终获得的模型不仅适用于整段数据流,还适用于任意时间段上的密度估计.MMCKDE算法同SOMKE算法在不同基准数据集及真实数据集上进行密度估计精度和运行时间的比较.实验结果表明,MMCKDE算法具有更好的性能.

2277-2294

结构化稀疏线性判别分析

摘要：在监督场景下线性判别分析（linear discriminant analysis,LDA）是一种非常有效的特征提取方法.然而,LDA在小样本情况下通常会出现过拟合现象,并且学习的投影变换难以给出人类认知上的解释.针对这些问题,特别是可解释性结构的发现,借助于LDA的线性回归模型和结构化稀疏L2,1范数,提出了结构化稀疏线性判别分析（structured sparse LDA,SSLDA）方法.进一步,为了去除线性变换间的相关性,提出了正交化的SSLDA（orthogonalized SSLDA,OSSLDA）,它能更加有效地学习到细致的结构信息.为了求解这2个模型,引入了一个半二次的优化算法,它在投影变换和新引入的辅助变量之间采用交替优化的思想.为了验证所提出的方法,在AR、扩展的YaleB和MultiPIE 3个人脸数据库上对比了LDA及其变种方法,实验表明了所提出方法的有效性以及可解释性.

2295-2301

一种基于双PCA的动态空间手背静脉图像合成方法

摘要：目前对手背静脉识别问题的研究大多是在较小规模的数据上进行,几乎没有在大样本情况下对手背静脉识别进行实验.因此,为了扩充手背静脉样本库提出了一种新的手背静脉图像合成方法,其基本思想是源于PCA（principal component analysis）原理,将用于合成的样本分为2组,对一组进行主成份分析构造特征空间,再由另一组向特征空间投影得到的投影系数构造投影空间,最后利用投影空间的投影系数在特征空间上进行PCA重建,从而融合双空间的信息达到图像合成的目的.通过对分组选取的动态更新,可以大量地合成手背静脉图像样本.由此,在实际实验中在拥有94个人的原始图像数据库的基础上建立一个拥有8 007个人的合成图像数据库.合成图像数据库的识别率达到97.84%.良好的识别率说明了合成图像数据库今后可以用于手背静脉相关的模拟测试中.

2302-2307

计算机研究与发展杂志

期刊咨询

期刊推荐

文秘服务

计算机研究与发展 2014年第10期杂志文档列表

计算机研究与发展杂志

期刊咨询

期刊推荐

文秘服务

计算机研究与发展 2014年第10期杂志 文档列表

计算机研究与发展 2014年第10期杂志文档列表