发表咨询:400-808-1731
订阅咨询:400-808-1751
北大期刊
影响因子 0.51
人气 23744
北大期刊
影响因子 0.94
人气 20395
部级期刊
影响因子 1.03
人气 13568
北大期刊
影响因子 3.18
人气 11698
统计源期刊
影响因子 0.55
人气 11091
北大期刊
影响因子 0.79
人气 9748
省级期刊
影响因子 0.41
人气 9518
省级期刊
影响因子 0.57
人气 9490
省级期刊
影响因子 0.15
人气 9347
统计源期刊
影响因子 0.35
人气 8461
摘要:现有位置预测方法的研究多集中于对轨迹数据的挖掘和分析,而在如何通过轨迹数据中含有的信息内容以及外源数据以提高位置预测精确度方面的研究尚不深入,有很大研究空间.提出了一种挖掘语义轨迹信息并结合出行方式的未来位置预测模型,该模型首先可实现根据语义轨迹进行相似用户挖掘,并结合个人语义轨迹和相似用户位置轨迹得到频繁模式集合,最后结合2个集合对目标轨迹得到未来位置预测候选集;然后可实现对未来出行方式进行识别,同时结合历史出行方式和位置轨迹数据,建立Markov模型对未来位置进行预测得到候选集,最后结合前一部分的候选集得到最终未来位置结果.此模型不仅能结合语义轨迹挖掘相似用户的行为活动,还可同时融合出行方式的外源数据克服位置轨迹的局限性.实验验证表明:该模型能对日常生活中的轨迹位置数据进行预测并达到86%的精确度,同时在不同的频繁模式支持度下,其精确度都比未结合出行方式模型时平均高出5%,因此本模型对位置预测结果的提高具有有效性.
摘要:近年来,具有典型多源异构特性的跨媒体数据的快速涌现给数据分析带来巨大挑战.然而,绝大多数现有跨媒体数据分析方法仅依赖模态间的共享信息发掘跨媒体数据中蕴含的模式结构,忽略各模态自身的重要信息.针对此问题,提出共享和私有信息最大化(share and private information maximization)的跨媒体聚类算法,通过兼顾跨媒体数据的共享和私有信息,以求得更加合理的聚类模式.首先,提出2种跨媒体数据的共享信息构建模型:1)混合单词模型,该模型将各模态的底层特征转换为统一的词频向量表示,然后使用一种新的自凝聚信息最大化方法自底向上地构建多模态的混合单词空间,最大化地保持各模态底层特征的统计相似性;2)聚类集成模型,构建各模态自身的聚类划分,通过互信息度量各模态聚类划分间的信息量,抽取各模态的高层聚类划分之间的相关性.其次,提出基于信息论的目标函数,将跨媒体数据的共享和私有信息融合在同一目标函数中,在抽取聚类模式结构的过程中兼顾跨媒体数据的共享和私有信息.最后,采用顺序“抽取合并”过程优化SPIM算法的目标函数,保证其收敛到局部最优解.在6种跨媒体数据上的实验结果表明SPIM算法的优越性.
摘要:科研合作是学术成果非常重要的实现形式,很多高水平的研究成果通过合作实现.研究合作潜力可以为学者选择合作者提供指导,最大化科研效率.然而当前大数据爆发阻碍了合作者的有效选择.为了解决这个问题,基于学者文章大数据,经过特征分析和优化,综合考虑学者的文章、机构、研究兴趣等个人属性和相关属性,分别从文章标题、文章等级、文章数量、时间及署名序多维度构造样本特征,以文章所发表的期刊会议等级作为合作者序列对的样本标签,表示当前合作者的潜力高低,利用集成方法的强学习特性,提出了基于集成学习分类方法的科研合作者潜力预测模型.分析并构造对应于科研合作者潜力预测问题的特征集后,采用分类方法解决这一问题.实验中准确率、召回率、F1分数都远高于传统机器学习方法,并能以较少的样本和时间收敛于较高值(80%以上),说明了模型的优越性.
摘要:基于模型诊断作为克服第1代诊断系统的缺陷而出现的智能诊断推理技术,现已成为十分活跃的人工智能研究分支,随着相关技术的不断发展,应用愈加广泛.其中,大多数研究集中于诊断求解过程,而诊断解的极小性检测方法保证了最终求得诊断解的极小性,也是问题求解过程中至关重要的一步.传统诊断解的极小性判定过程是将新求得的诊断解与已有诊断集合中的诊断解依次比较,检查是否有新得诊断解的超集或子集来判定极小性,这种方法随着求解过程中得到的诊断解数量增多,检测难度逐渐提高,耗时也随之增大.为解决此问题,提出了一种基于子集一致性检测的诊断解极小性判定的新方法:子集一致性(subset consistency detection, SCD)方法.通过对诊断解少数几个子集的一致性检测来给出该诊断解的极小性判定,避免了求解过程中诊断解集合增大对效率的影响.SCD方法可应用于许多高效的诊断方法,如GD(grouped diagnosis)和ACDIAG(abstract circuit diagnosis)方法,算法效率均有所提高.
摘要:随着经济全球化的发展,地区间的人才流动日益频繁,人才的引进和流失对各地区的科技和经济的发展产生了巨大的影响.对人才流动问题进行深入研究,是实现有效的人才流动监控、制定科学人才引流政策的基础.提出一种数据驱动的人才流动分析方法,探究地区间人才流动的规律,并预测未来的人才流动.具体而言,用基于矩阵序列的定量方法表示地区间人才流动现象,并分析地区间人才流动的时空模式以及地区人才吸引力的差异和人才交换的聚集效应.进一步提出人才流动预测模型,结合卷积和循环神经网络实现地区间人才流量的预估.通过大规模在线职业平台的数据对所提出的模型进行验证,实验表明:提出的模型误差相对基准模型平均降低约15%.
摘要:在稀疏重构中,重构误差项和稀疏项通常使用一个正则化参数聚合成单目标函数,很难实现 2个目标的均衡优化,这个缺陷通常导致稀疏重构精度低.为此,提出一种自适应局部搜索的多目标进化算法.首先,基于范数和l1范数和l1/2范数分别设计了2种梯度迭代软阈值法的局部搜索方法求得相应解,这2种局部搜索方法可以提高解的收敛速度和精确度;其次,通过比较对应的目标函数值来竞争选取每轮的优胜解;然后,采用基于竞争成功率的自适应择优局部搜索方法来产生后期解;最后,在帕雷托前沿面的膝盖区域上采用角度法选取最优解.实验结果表明:测量误差和稀疏项可以达到平衡,在重构精度方面,提出的方法远高于现有的传统单目标方法.相比于StEMO算法,当测量维度 M =600时,该方法可以提高33.8%;当噪声强度δ=0.002时可以提高82.7%;当稀疏率 K/N =0.3时可以提高7.38%.
摘要:药物实体及关系抽取研究对于生物医学研究具有重要的促进作用,也是进一步构建生物医学知识库的基础.现存方法主要采用流水线方式,即先对文本进行实体识别后再对实体对进行关系分类.流水线方法主要存在任务错误传播、未能考虑2个子任务的相互影响和句子中不同关系的相互影响的问题.针对这些问题,提出了一种基于神经网络的药物实体与关系联合抽取方法.使用了一种新标注模式,将药物实体及关系的联合抽取转化为端对端的序列标注任务.使用词向量和字符向量作为词表示输入,使用BiLSTM-CRF模型进行药物实体与关系联合抽取.实验结果表明:在药物药物交互作用(drug-drug interactions, DDI)2013语料集上,取得了89.9%的实体识别 F -score及67.3%的关系抽取 F -score,优于使用相同模型的流水线方法.
摘要:边缘计算概念的提出引入了一个新兴的计算模型,它不仅可以缓解传统云计算模型中由于数据传输造成的高延迟问题,同时也有益于保持隐私数据及安全敏感数据的机密性.然而,边缘计算节点本身执行环境的安全性依然是一个不可忽略的问题,它时刻威胁着整个边缘计算模型的安全.得益于硬件厂商在各平台上推出可信执行环境,通过将这些可信执行环境集成至边缘计算节点中可以有效地保障这些节点上运算的安全性.此研究首先分析了一系列传统计算模型中的可信执行环境,并讨论了这些可信执行环境各自的优缺点.其后,在此基础上,深入研究了Intel软件防护扩展和ARM TrustZone这2个流行的可信执行环境,并分别在Intel雾计算节点参考设计样机和ARM Juno开发板上对这2个可信执行环境的安全性和性能进行了分析与测试.结果显示:这些硬件辅助的可信执行环境的引入能够在基本不影响整个系统性能的同时,增强边缘计算平台的安全性.为了帮助提高可信执行环境在边缘计算模型下的可靠性,最后总结了将可信执行环境使用在边缘计算模型中将要面对的安全挑战.
摘要:不可感知性、鲁棒性、水印容量是衡量数字图像水印算法优劣的最重要指标,且三者存在固有的相互矛盾关系,可保持不可感知性、鲁棒性、水印容量之间良好平衡的图像水印方法研究是一项富有挑战性的工作.以非下采样Shearlet变换(nonsubsampled Shearlet transform, NSST)与二元Weibull分布理论为基础,提出了一种基于二元Weibull统计建模的非下采样Shearlet域数字图像水印算法.1)构造出基于非线性单调函数的自适应高阶水印嵌入强度函数;2)根据NSST域尺度间相关性,利用二元Weibull边缘分布对NSST域高熵块奇异值进行统计建模,并估计出二元Weibull统计模型参数;3)结合NSST域二元Weibull边缘分布模型与最大似然决策理论,构造出二元数字水印检测器并盲提取水印信息.仿真实验结果表明:该算法可以较好地获得不可感知性、鲁棒性、水印容量之间的良好平衡.
摘要:在基于虚拟机监控器(virtual machine monitor, VMM)的系统监控中,通常需要截获关键内存访问事件和关键指令执行从而监控细粒度的内存访问行为.然而利用VMM截获内存访问行为使得CPU控制权频繁陷入VMM中,导致性能开销巨大.当前已有的研究为了解决该问题,在内核编译阶段修改内核源码或者直接修改内核二进制文件,将安全关键数据重定向到单独的区域以减小陷入VMM的频率.然而这些方法必须修改被监控系统本身,并且被监控的区域在系统运行阶段不能修改,很大程度上影响了它们的应用场景,并且不够灵活.为了解决以上问题,提出了一种运行时动态调整需要监控的安全关键内存数据的方法DynMon,该方法对被监控的系统透明且不需要修改被监控系统.首先,通过对历史数据的收集和分析,自动学习系统运行状态和安全关键数据访问行为间的关系,将其作为安全关键数据监控策略的依据.然后,对系统运行状态实时监控,根据安全关键数据的监控策略,实时动态调整需要监控的内存访问区域,以减小不必要的监控带来的性能开销.实验结果表明:与没有动态监控策略的方法相比,该方法减小了22.23%的额外性能开销,并且在加大内存监控规模时,并不会过大增加系统的性能开销.
摘要:物联网的大规模普及应用引发了诸多安全和隐私问题.轻量级加密是资源受限环境下物联网设备保证数据机密性的主要手段,然而直接应用轻量级分组密码加密会因为编码序列的混淆扩散使密文格式发生巨大变化,在表现形式和格式上与明文不一致,需要额外的存储、计算、回显资源.轻量级保形加密算法可以在实现机密性的同时,保持密文数据与明文数据在格式上具有一致性,在物联网领域具有更大的优势.针对现有保形加密算法存在实现效率不高、资源消耗较大及不能加密较长数字型数据的问题,提出一种面向数字型的轻量级保形加密算法.首先利用轻量级分组密码算法构造数字型置换表,数字型明文与轻量级分组密码的加密密钥进行一一对应相加、取模10操作,再利用数字型置换表进行置换加密操作,得到数字型密文数据.算法实现了对任何长度数字型数据加密前后的格式不改变,分析表明该算法在效率、安全性方面与原轻量级分组密码算法保持一致.同时,实验结果表明:相比传统的保形加密算法,该算法具有高安全、高效、低资源,适用于资源受限环境下物联网设备的数据加密存储及数据遮蔽.
摘要:传统的差值扩展可逆数字水印算法通过将图像相邻像素对的差值进行扩展来嵌入1 b水印,最大嵌入率为0.5 bpp.其不足之处在于低嵌入率和高嵌入失真.为提高嵌入率,差值扩展算法需进行多次嵌入,由于无法有效地利用像素间的相关性,从而带来较大的嵌入失真.为了提高嵌入性能提出一种新的双层差值扩展嵌入可逆数字水印算法,通过分析差值扩展对像素对的修改规律,对第1层嵌入和第2层嵌入分别采用不同的像素对构建方式,更好地利了像素的相关性,并进一步利用像素块的均值作为预测器优先选择平滑像素对用于嵌入,使得在超过0.5 bpp的嵌入率时仍可保持较高的峰值信噪比.仿真实验结果表明:所提出的算法在提高水印嵌入容量的同时可有效减少图像的失真.
摘要:自然语言文本中存在大量否定和不确定表述,识别这些信息并将其与确定性内容分离,对自然语言处理的下游应用,如信息抽取、信息检索、情感分析等,都具有十分重要的意义.与英语相比,面向汉语的否定与不确定覆盖域检测研究目前较为匮乏.提出了一个基于双向长短期记忆(bidirectional long short-term memory, BiLSTM)网络和条件随机场(conditional random fields, CRF)的融合模型,将覆盖域检测任务作为序列标注问题,针对给定的否定或不确定关键词,识别其在句子中的语义作用范围.该模型既具有LSTM(long short-term memory)网络能够利用前向与后向上下文信息的特性,同时又能够借助CRF 层获取输出标签之间的依赖关系,这得益于该框架能够有效地对序列信息及长距离上下文依赖信息进行编码的优势.在CNeSp语料集上的实验结果验证了模型的有效性,其中,在金融新闻子数据集上,否定与不确定覆盖域检测准确率分别达到79.16%和76.79%,比目前基于传统机器学习的汉语覆盖域检测方法分别提升了25.06%和34.46%.
摘要:针对人机对话中的用户意图分类问题,提出了一种基于独立循环神经网络(independently recurrent neural network, IndRNN)和词级别注意力(word-level attention)融合的用户意图分类方法.通过构造一个多层独立循环神经网络模型实现对用户输入文本编码,有效解决了循环神经网络中容易出现的梯度消失和梯度爆炸问题;结合词级别注意力提高了领域相关词汇对用户输入文本编码的贡献度,有效提高了分类精度.实验结果表明:提出的方法在用户意图分类任务上的效果取得了显著的提升.
摘要:智慧城市的首要任务是城市场景监控及其信息分析,场景图像中文本信息的识别是一种直观且高效的场景信息分析手段,但目前场景图像的中文文本提取由于图像光照和模糊、中文字符结构复杂等因素,未能达到很好的效果.为解决这一问题,提出一种边缘增强的最大稳定极值区域(maximally stable extremal regions, MSER)检测方法,可在光照和模糊影响的条件下提取MSER,通过几何特征约束条件高效地过滤明显的非MSER,得到高质量的候选MSER.之后使用提出的中心聚合方法对分割成多个MSER的候选中文文本域进行中文的聚合,使得候选区域成为单个候选的中文文本分量,再对这些分量进行分析,并运用机器学习选出正确的中文文本.实验结果表明:该算法能够更有效地提取出自然场景图像中的中文文本.
摘要:在云计算系统中,有效和公平地分配多种类型的资源是非常关键的,而通过资源共享的方式在云计算系统中分配计算和存储资源,是一种提高系统资源利用率的有效方式.而现有的研究多是基于用户需求的任务数无限制而且需求不会变化的前提下进行的.为了解决云计算资源共享系统中用户有多组数量有限的时变任务资源需求的资源分配问题,提出了一种基于资源共享公平概念的多资源公平分配机制.该机制根据用户不同时刻的有限任务资源需求和用户共享资源量建立规划模型,使全局累计占优资源份额向量满足字典序最优,证明了在这种机制下,用户所得分配满足4个属性:激励共享、帕累托最优、无嫉妒、可信性.进而在具体分配问题上,提出一种启发式算法,通过用户共享系数概念设计了分配策略,可以保证分配满足公平性的同时,用户不发生共享缺损.理论和实验结果表明:所提出资源分配机制在资源共享用户提出多组时变资源需求时,在保证用户资源分配公平和保证较高资源利用率方面取得了很好的效果.
摘要:容器技术的兴起带来了数据中心的深刻变化,大量软件转为微服务方式部署与交付.如何优化海量用户环境下大规模容器的启动、运行与维护问题具有广泛的现实意义.目前以Docker为代表的主流容器技术已经取得较大成功,但在镜像体积、资源共享等方面仍有较大改进空间.梳理了虚拟化技术的发展过程,阐明轻量级的虚拟化技术是未来的研究方向,对数据敏感型应用至关重要.通过建立库文件共享模型,探究了库文件的共享程度对容器最大启动数量的影响.给出了一种超轻量级的容器设计方案,通过细化可操作资源的粒度,使得支撑应用程序运行的容器运行时环境最小化;将依赖库文件与可执行二进制文件单独抽取成层,实现了容器对主机内存资源的最大化共享.根据上述方案实现了一种超轻量级容器管理引擎:REG(runtime environment generation),并定义了一套基于REG的工作流.在镜像体积、启动速度、内存占用、容器启动风暴等方面进行对比实验,验证了所提方法在大规模容器环境下的有效性.