发表咨询:400-808-1731
订阅咨询:400-808-1751
省级期刊
影响因子 0.3
人气 18198
部级期刊
影响因子 0.38
人气 12824
统计源期刊
影响因子 1.71
人气 12635
CSSCI南大期刊
影响因子 5.52
人气 12409
北大期刊
影响因子 3.18
人气 11701
北大期刊
影响因子 0.62
人气 10773
省级期刊
影响因子 0.42
人气 10531
统计源期刊
影响因子 1.29
人气 9982
省级期刊
影响因子 0.67
人气 9440
CSSCI南大期刊
影响因子 1.11
人气 8675
摘要:范畴标注是组合范畴语法解析中的子任务之一,可用于提高解析器的效率和性能.传统的最大熵模型需要手工定义特征模板,神经网络则通过隐含层学习到离散特征的分布式表示,从而自动提取分类需要的特征引入该模型来解决该问题,在原有神经语言模型的基础上加入了向量化的词性表示层和范畴表示层,并通过反向传播自动更新词向量、词性向量和范畴向量,学习到它们的分布式表示.此外,在预测时采用柬搜索的序列解码方式来引入标签之间的依赖信息.实验结果表明,这两种改进都能提升模型的性能,使其在范畴标注任务上比传统的最大熵模型效果要好(提升1%).
摘要:广泛弧相容算法(gcneralized arc consistency,简称GAC),是求解约束满足问题的核心方法.表约束理论上可以表示所有约束关系,在过去10年中,有很多应用于表约束的广泛弧相容算法被提出来.在这些算法中,表缩减算法的效率非常高.但是目前的表缩减算法只能应用于正表约束,无法直接应用于负表约束.首先,提出一种表缩减算法STR-N,可以直接应用于负表约束;然后,给出了STR-N的两个改进版本STR-N2和STR-NIC.实验结果显示,STR-N算法在负表约束上的求解效率具有明显的优势.
摘要:置信传播算法求解RB(k,n,a,rc,p)模型实例时非常有效,几乎能够有效求解接近可满足性相变点的难解实例.然而,因子图带有回路的实例,置信传播算法不总有效,常表现为不收敛,对于这种现象,至今缺少系统的理论解释.置信传播算法是最为基础的信息传播算法,对置信传播算法的收敛性分析是其他信息传播算法收敛性分析的重要基础在RB(k,n,a,rc,p)模型中,取k=-2,α〉/k,rc〉0均为常数,且满足ke^-a/rc≥1.证明了如果p∈(0,n^-2α),则置信传播算法丘在RB(k,n,a,rc,p)模型产生的随机实例集上高概率收敛.最后,在RB(k,n,a,rc,p)模型上选取了几组不同的数据进行数值模拟,实验结果表明该结论有效.当问题规模n增大时,在RB(k,n,a,rc,p)模型的可满足区域,实验收敛区间趋于一个固定范围,而理论收敛区间逐渐变窄.原因在于,RB(k,n,a,rc,p)模型是一个具有增长定义域的随机CSP实例产生模型,不协调赋值的数目与参数P及问题规模n有关.
摘要:电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础.
摘要:社会网络错综复杂,如果能够及时发现和预测当前网络可能发生的重大事件并采取有效的处置策略,将具有重大意义.链路预测的理论框架和评价方法为社会网络事件检测提供了一条有效途径.目前,链路预测的研究工作大多针对特定网络提出相似性指标,试图取得更高的链路预测精度.这些研究存在如下问题:(1)不同的相似性指标适用于不同的网络,不具有普适性;(2)独立的相似性指标无法全面反映网络演化的多样性和复杂性;(3)链路预测时未考虑网络演化过程中可能出现波动,无法进行事件检测.基于上述问题,提出一种社会网络事件检测的混合指标群智能方法IndexEvent,由最佳权重算法OWA(optimal weight algorithm)和波动检测算法FDA(fluctuation detection algorithm)组成,可以评价不同网络的演化波动,发现网络波动异常,进行事件检测.主要工作如下:(1)提出了混合指标,并证明了基于混合指标的链路预测算法可以取得更高的预测精度:(2)基于量子粒子群算法提出了最佳权重算法OWA,以高效地确定不同网络的最佳混合指标;(3)提出了一种网络波动检测算法FDA,定量评价不同时段网络演化的波动程度,并在考虑微观因素的基础上进行改进对不同特征的网络进行实验,结果表明,IndexEvent方法能够准确地反映事件造成的网络演化波动,有效地检测事件.
摘要:针对传统的克隆选择算法可能存在的早熟收敛现象和缺少交叉操作问题,提出一种高效的克隆退火优化算法.该算法结合了模拟退火算法与免疫系统的克隆选择机制,并保持全局搜索和局部搜索的平衡,可以有效提高算法的搜索效率,从而加快算法的收敛速度同时,提出一种品质因数模型来分析该算法的动态性能,并运用Markov链理论对其收敛性进行分析.最后,将该算法应用到关联规则数据挖掘中,取得了较为理想的实验结果.
摘要:分析了本体重用的研究现状和目前重用方法只适用于单个独立本体的不足,以ε-Connections语言构建的模块化本体库为研究对象,基于保守扩充理论提出了本体模块知识完整性概念,并证明了知识完整性的相关性质.在此基础上,给出了一种针对模块化本体库的保守扩充重用算法ERMMO(extracting reused modules from modular ontologies),讨论了该算法的两种子算法EMMOIK和EMOIK的特点及适用条件.分析并验证了ERMMO算法的可行性和正确性.ERMMO算法是当前保守扩充重用算法的一般化扩充,对模块化思想应用于本体重用问题有所启示.
摘要:在目标域可利用数据匮乏的场景下,传统聚类算法的性能往往会下降.在该场景下,通过抽取源域中的有用知识用于指导目标域学习以得到更为合适的类别信息和聚类性能,是一种有效的学习策略.借此提出一种基于近邻传播的迁移聚类(transfer affinity propagation,简称TAP)算法,在源域和目标域数据分布相似的情况下,通过引入迁移学习机制来改善近邻传播聚类(affinity propagation,简称AP)算法在教据匮乏场景下的聚类性能.为保证迁移的有效性,TAP在综合考虑源域和目标域的统计特性及几何特征的基础上改进AP算法中的消息传递机制使其具备迁移能力,从而达到辅助目标域学习的目的.此外,通过TAP对应的因子图,亦可说明TAP可以以类似AP的消息传递机制.在目标域数据匮乏的情况下进行高效的知识迁移,为最终所获得的聚类结果提供了保证.在模拟数据集和真实数据集上的仿真实验结果显示,所提出的算法较之经典AP算法在处理非充分数据聚类任务时具有更佳的性能.
摘要:通用对弈游戏(general game playing,简称GGP)是致力于提高机器的通用游戏智能的研究领域与专用游戏智能程序不同,GGP玩家直到游戏开始时才获得游戏规则,从而避免依赖于人类关于特定游戏的经验.GGP研究发展至今,已在游戏表示、搜索算法、状态估值等方面做了深入探索,并在知识迁移等方面做出了尝试.GGP研究的进展在一定程度上代表了通用人工智能的发展'因而是值得关注的.
摘要:在同时包含关系和事务属性的数据(简称为关系.事务数据)时,由于关系数据和事务数据均有可能受到链接攻击,需要同时匿名这两部分的数据.现有的数据匿名技术在匿名化关系.事务数据时会造成严重的数据缺损,无法保障数据可用性.针对此问题,提出了(k,l)-多样化模型,通过等价类上的l-多样化约束和事务数据上的肛匿名约束来保证用户隐私不被泄露.在此基础上,设计并实现了APA和PAA两种满足该模型的匿名算法,以不同的顺序对关系-事务数据进行匿名,并提出了相应的数据缺损评估方法.实际公开数据集上的实验结果表明,与现有的数据匿名技术相比,APA和PAA能够在保护用户隐私的前提下,以更低的数据缺损和更高的效率完成对关系-事务数据的匿名.
摘要:不同于已有的显式消费意图识别的研究,提出了社会媒体中用户的隐式消费意图自动识别方法.该方法将隐式消费意图识别视作多标记分类问题,并综合使用了基于用户关注行为、意图关注行为、意图转发行为以及个人信息的多种特征.由于隐式消费意图识别难以评价,自动抽取了大量跨社会媒体的用户链指信息,利用该方法,共抽取出12万余对的用户链指.在此自动评价集上的实验结果表明,所采用的多标记分类方法对于识别用户的隐式消费意图是行之有效的,其中使用的各种特征对于提高隐式消费意图识别的效果皆有帮助.
摘要:随着中文社交网络的发展(特别是微博的兴起),互联网中文公众事件越来越深刻地影响现实社会的生产和生活.由于缺乏有效的技术手段,信息处理的效率受到了限制.提出了一种公众事件信息熵的计算方法,其基本思想是:首先,对公众事件信息内容进行建模;然后,以香农信息论为理论基础,对公众事件的多维随机变量信息熵进行计算.这为互联网公众事件的定量化分析提供了一个重要的技术指标,为进一步的研究工作打下基础.
摘要:流量分类是优化网络服务质量的基础与关键.机器学习算法利用数据流统计特征分类流量,对于识别加密私有协议流量具有重要意义.然而,特征偏置和类别不平衡是基于机器学〉-j的流量分类研究所面临的两大挑战.特征偏置是指一些数据流统计特征在提高部分应用识别准确率的同时也降低了另外一部分应用识别的准确率.类别不平衡是指机器学习流量分类器对样本数较少的应用识别的准确率较低.为解决上述问题,提出了基于集成聚类的流量分类架构(traffic classification framework based on ensemble clustering,简称TCFEC).TCFEC由多个基于不同特征子空间聚类的基分类器和一个最优决策部件构成,能够提高流量分类的准确率.具体而言,与传统的机器学习流量分类器相比,TCFEC的平均流准确率最高提升5%,字节准确率最高提升6%.
摘要:利用原像抽样算法抽取部分私钥和带误差的学习问题生成秘密值及公钥来构造格上无证书加密方案.在随机预言模型下,借助可抵抗拥有询问秘密值能力的两类攻击者形式化地证明了该方案在自适应选择身份攻击下(甚至是量子的)密文是不可区分的通过分析方案的正确性、安全性和效率来说明如何选择参数.使用两种不同的扩大明文空间的方法来进一步提高方案的效率.这体现出该方案具有很强的灵活性.特别地,给出了逐步定比特填充法.它是一种由固定长度比特串去确定多个更长比特串的有效方法.该方法在构建多比特无证书加密过程中起到重要作用.鉴于内蕴了格和无证书密码系统的优势,该方案具有灵活、有效、抗量子攻击和不涉及证书管理等优点.
摘要:传统的基于双线性映射的混合签密方案存在着计算效率较低的不足,同时,无法抵抗信息泄露对方案所造成的危害,针对上述不足,在不使用双线性映射的基础上,提出了安全、高效的抗泄露无证书混合签密机制,并在随机谕言机模型下,基于计算性Diffie-Hellman问题和离散对数问题对该机制的机密性和不可伪造性进行了证明.同时,分析了该方案的公开验证性、前/后向安全性和不可否认性等安全属性;与传统的无证书混合签密机制相比,该机制不仅具有更优的计算效率,而且在秘密信息存在一定泄露的前提下,依然保持其所声称的安全性,即该方案还具有抵抗秘密信息泄露的能力.
摘要:近年来,云存储所提供的“数据存储即服务”为租户实现廉价高效共享资源.由于租户缺乏对云端数据的绝对控制,数据安全,尤其是机密数据的安全存储成为一大问题,这也是近年来云存储安全的研究热点.针对机密数据的云存储问题,提出了一种基于多维球面原理的分布式秘密共享方案.在分发阶段,结合分发者、云存储容器信息,将原始秘密转换为m维球心坐标,进而生成同球面的n个影子秘密坐标,并将这些影子秘密作为机密数据分布式存储在n个云存储容器中.在恢复阶段,通过证明任意盯括聊+1)个线性不相关的坐标可确定唯一球心,完成原始秘密的恢复.算法性能分析和仿真分析表明,该方案具备假数据攻击、共谋攻击防御能力,且密钥不需要额外的管理开销,租户对密钥有绝对控制权,加强了租户对云数据的控制,在运算性能、存储性能方面正确、有效.
摘要:三维注册是移动增强现实的关键技术之一,提出了一种在线学习的跟踪注册方法,能够精确地对自然场景进行跟踪注册.该方法首先改进SURF(speeded up robust features)描述符匹配方法,提高初始注册矩阵的正确性;然后,通过对场景进行有效的在线学习,提高注册精度;最后,利用前一帧的注册矩阵快速恢复已丢失的关键点,以提高注册的速度.实验结果表明,该方法能够较为流畅地对视频帧进行跟踪,并能保持较好的注册精度.
摘要:运动估计是去除视频时间维冗余的编码技术,而目前通用的平移运动模型无法有效地表示物体的局部非刚性复杂运动.为此,提出一种基于改进高斯.牛顿法的弹性运动估计方法.首先,通过分析初始迭代点对高斯.牛顿迭代结果的影响,采用基于2bit深度像素的均匀搜索预测初始迭代点;其次,通过理论和实验分析发现,不同的迭代步长对弹性运动估计/补偿性能有明显的影响,采用离散余弦变换的低频能量比率估计步长的上限,再利用黄金分割法对步长进行求精.实验结果表明,对于具有不同场景特点的视频序列,该算法始终能够保持较高的估计精度,运动补偿的平均峰值信噪比,比基于块平移模型的全搜索算法和传统弹性运动估计算法分别提高1.73dB和1.42dB.并且,该算法具有更快的收敛速度,一般仅需1—3次迭代就能取得高于传统弹性运动估计和块平移全搜索的峰值信噪比.