发表咨询:400-808-1731
订阅咨询:400-808-1751
北大期刊
影响因子 0.51
人气 23554
北大期刊
影响因子 0.94
人气 20241
部级期刊
影响因子 1.03
人气 13495
北大期刊
影响因子 3.18
人气 11591
统计源期刊
影响因子 0.55
人气 10972
北大期刊
影响因子 0.79
人气 9677
省级期刊
影响因子 0.41
人气 9473
省级期刊
影响因子 0.57
人气 9297
省级期刊
影响因子 0.15
人气 9100
统计源期刊
影响因子 0.47
人气 8337
摘要:远程直接内存访问(remote directmemory access,RDMA)技术正在大数据领域被越来越广泛地应用,它支持在对方主机CPU不参与的情况下远程读写异地内存,并提供高带宽、高呑吐和低延迟的数据传输特性,从而大幅提升分布式存储系统的性能,因此基于RDMA的分布式存储系统将为满足大数据高时效处理和存储带来新的机遇.首先分析了基于RDMA的分布式存储系统简单替换网络传输模块并不能充分发挥RDMA在语义和性能上的优势的原因,并指出存储系统架构需要变革的因素.然后阐述了高效运用RDMA技术主要取决于2个方面:第1方面是硬件资源的高效管理,包括网卡缓存和CPU缓存的合理利用、多核CPU的并行加速以及内存资源管理等;第2方面是软硬件的紧耦合设计,借助R DMA在语义和性能上的特性,重构新型数据组织和索引方式、优化分布式协议等.同时,以分布式文件系统、分布式键值存储和分布式事务系统为典型应用场景,分别阐述了它们在硬件资源管理和软件重构这2个方面的相关研究.最后,给出了总结和展望.
摘要:人工神经网络目前广泛应用于人工智能的应用当中,如语音助手、图像识别和自然语言处理等.随着神经网络愈加复杂,计算量也急剧上升,传统的通用芯片在处理复杂神经网络时受到了带宽和能耗的限制,人们开始改进通用芯片的结构以支持神经网络的有效处理.此外,研发专用加速芯片也成为另一条加速神经网络处理的途径.与通用芯片相比,它能耗更低,性能更高.通过介绍目前通用芯片和专用芯片对神经网络所作的支持,了解最新神经网络硬件加速平台设计的创新点和突破口.具体来说,主要概述了神经网络的发展,讨论各类通用芯片为支持神经网络所作的改进,其中包括支持低精度运算和增加一个加速神经网络处理的计算模块.然后从运算结构和存储结构的角度出发,归纳专用芯片在体系结构上所作的定制设计,另外根据神经网络中各类数据的重用总结了各个神经网络加速器所采用的数据流.最后通过对已有加速芯片的优缺点分析,给出了神经网络加速器未来的设计趋势和挑战.
摘要:随着强化学习在自动机器人控制、复杂决策问题上的广泛应用,强化学习逐渐成为机器学习领域中的一大研究热点.传统强化学习算法是一种通过不断与所处环境进行自主交互并从中得到策略的学习方式.然而,大多数多步决策问题难以给出传统强化学习所需要的反馈信号.这逐渐成为强化学习在更多复杂问题中实现应用的瓶颈.逆强化学习是基于专家决策轨迹最优的假设,在马尔可夫决策过程中逆向求解反馈函数的一类算法.目前,通过将逆强化学习和传统正向强化学习相结合设计的一类示教学习算法已经在机器人控制等领域取得了一系列成果.对强化学习、逆强化学习以及示教学习方法做一定介绍,此外还介绍了逆强化学习在应用过程中所需要解决的问题以及基于逆强化学习的示教学习方法.
摘要:强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-error的真实分布.提出的TD-error自适应校正主动采样方法利用样本回放周期和Q网络状态建立优先级偏差模型,估计经验池中样本的真实优先级.在Q网络迭代中使用校正后的优先级选择样本,偏差模型在学习过程中分段更新.分析了Q网络学习性能与偏差模型阶数和模型更新周期之间的依赖关系,并对算法复杂度进行了分析.方法在Atari 2600平台进行了实验,结果表明,使用TD-error自适应校正的主动采样方法选择样本提高了智能体的学习速度,减少了智能体与环境的交互次数,同时改善了智能体的学习效果,提升了最优策略的质量.
摘要:动态网络社区检测能揭示社区结构随时间演变的规律,是目前网络社区研究领域的热点之一.基于演化聚类的方法被广泛采用,但存在2个主要问题:1)缺乏结果校正机制,容易产生“结果漂移”和“误差累积”问题;2)问题的NP-难本质,导致基于模块度的精确社区结构检测在效率上存在很大问题.针对以上问题,通过对传统演化聚类框架和离散粒子群算法的改进及有效结合,提出一种高效且有效的多目标动态社区检测方法(multi-objective discrete particle swarm optimization for dynamic network,DYN-MODPSO),主要工作包括:1)提出基于最近未来参考策略的初始聚类结果校正方法,提高动态社区检测结果的有效性;2)改进传统粒子群算法,使其能与演化聚类框架有效结合;3)提出基于去冗余的随机游走初始群体生成方法,提高传统粒子群算法中的个体多样性并保证个体的初始精度;4)提出多个体交叉算子及改进的干扰算子,提高算法的局部搜索能力与收敛能力.大量基于真实和人工动态网络数据的实验结果证实,提出的方法在效率和有效性方面,显著优于同类比较算法.
摘要:随着互联网技术的进步,以视频实时评论为代表的众包短文本(又称弹幕)逐渐流行,对在线媒体分享平台和娱乐产业都带来了重要影响.针对此类短文本展开研究,为推荐系统以及人工智能等领域的发展提供了新的机遇,在各行各业都具有巨大价值.然而在弹幕带来机遇的同时,理解和分析这种面向视频的众包短文本也面临诸多挑战:视频实时评论的高噪声、不规范表达和隐含语义等特性,使得传统自然语言处理(natural language processing,NLP)技术具有很大局限性,因此圣需一种容错性强、能刻画短文本深度语义的理解方法.针对以上挑战,在“相近时间段内的视频实时评论具有相似语义”假设的基础上,提出了一种基于循环神经网络(recurrent neural network,RNN)的深度语义表征模型.该模型由于引入了字符级别的循环神经网络,避免了弹幕噪声对文本分词带来的影响.通过使用神经网络,使所得的语义向量能够表达弹幕的隐含语义.在此基础上,进一步设计了基于语义检索的弹幕解释框架,同时作为对语义表征结果的应用验证.最后,设计了多种对比方法,并采用不同指标对所提出的模型进行充分的验证.该模型能够精准地刻画弹幕短文本的语义,也证明了关于弹幕相关假设的合理性.
摘要:作为一种典型的网络大数据,社交信息网络如微博、Tweeter等,不仅包含用户间复杂的网络结构,而且包含大量用户所发表的微博/Tweet信息.现有链路预测算法大多只利用单方面的网络拓扑信息或非拓扑信息,仍然缺乏有效融合社交信息网络中拓扑与非拓扑信息的链路预测方法.为此,从社交信息网络中用户的主题角度出发,提出一种融合主题相似信息的链路预测方法.首先基于用户文本内容抽取用户的主题表示,并定义用户间的主题相似度;然后基于用户主题相似度,构建了一种用户主题相似稀疏网络;进一步将用户主题相似网络与用户间关注/被关注网络融合在统一的概率矩阵分解框架下,通过学习获得用户的潜在特征表示和网络链路参数;最终在此概率矩阵分解框架下,基于用户的潜在特征表示和链路参数计算得到用户间的链路可能性.所提出的模型提供了一种融合多种网络信息的通用策略和学习方法.实验在包含网络结构与文本信息的4组微博与推特数据集中显示,所提出的融合概率矩阵分解链路方法相比其他链路预测方法更有效.
摘要:小目标是指图像中覆盖区域较小的一类目标.与常规目标相比,小目标信息量少,训练数据难以标记,这导致通用的目标检测方法对小目标的检测效果不好,而专门为小目标设计的检测方法往往复杂度过高或不具有通用性.在分析现有目标检测方法的基础上,提出了一种面向小目标的多尺度快速区域卷积神经网络(faster-regions with convolutional neural network,Faster-RCNN)检测算法.根据卷积神经网络的特性,修改了Faster-RCNN的网络结构,使网络可以同时使用低层和高层的特征进行多尺度目标检测,提升了以低层特征为主要检测依据的小目标检测任务的精度.同时,针对训练数据难以标记的问题,使用从搜索引擎上获取的数据来训练模型.因为这些训练数据与任务测试数据分布不同,又利用下采样和上采样的方法对目标高分辨率的训练图像进行转化,使训练图像和测试图像的特征分布更类似。实验结果表明:所提出的方法在小目标检测任务上的平均精度均值(mean aver age precision,mAP)可以比原始的Faster-RCNN提高约5%.
摘要:面向目标跟踪问题提出一种基于移动群智感知的解决方案CrowdTracker.不同于基于视频监控的目标跟踪方法,通过基于群智的多人协作拍照方式实现对移动目标的轨迹预测和跟踪,其优化目标为在保证准确实时地对目标进行跟踪的同时尽可能地减少用户激励的成本(假设激励与完成任务的参与者人数和参与者完成任务所移动的距离成正比).为实现该目标,提出了目标移动性预测的方法MPRE和任务分配的方法T-centric,P-centric.T-centric是以任务为中心的参与者选择方法,而P-centric是以人为中心的任务选择方法.MPRE通过分析大量的车辆历史轨迹建立城市里车辆的移动模型以预测目标下一步的位置.在预测的区域内通过T-centric或P-centric方法进行跟踪任务分配.通过一个大规模的真实数据集对移动性预测方法MPRE和2种任务分配算法进行实验评估,实验结果表明:CrowdTracker能有效地在实现目标实时跟嫁的同时降低激励成本.
摘要:提出适用于配有三维激光雷达的自主移动机器人在室外场景进行同时定位与地图创建(simultaneous localization and mapping,SLAM)的一种闭环检测算法,命名为SegGraph.作为SLAM的关键模块,闭环检测的任务是判断机器人当前位置是否与已到过的某一位置邻近.SegGraph包含3步:1)对在不同时刻得到的2组点云分别移除大地平面后采用区域增长方法分割为若干个点云簇;2)以点云簇为顶点,以点云簇图心间距离为边权值,分别构建带权值的完全图;3)判定所得的2个完全图是否含有足够大的公共子图.SegGraph的主要创新点是在寻找公共子图时以边权值(即点云簇间距离)为主要匹配依据.这是因为点云数据中的噪声会导致在邻近地点获得的不同点云经分割后得出差别很大的点云簇集,不同点云中相应的点云簇也便无法匹配.然而相应点云簇间距离却受分割过程影响不大.主要贡献包括研发高效的判定2个点云簇图是否有足够大的公共子图的近似算法,实现完整的SegGraph算法,及以被广泛使用的公开数据集KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute)评估SegGraph的准确度及运行效率.实验结果显示SegGraph具有良好的准确度及运行效率.
摘要:网络中少量较高速率和较大数据量的流生成了网络的大部分流量;利用有限的存储空间有效地识别出这些数据流,对实施流量工程、缓解网络拥塞、改善网络传输具有非常重要的意义.随着网络技术的发展,传输链路的带宽容量和数据流的传输速率越来越高.具有高速报文转发能力的网络设备对数据流检测算法的处理提出了高的性能要求.将超过一定的数据量和传输速率的数据流定义为大流,提出了将低速流淘汰与d-Left散列表存储结构相结合的大流检测算法.为了满足高速网络传输的性能需求,使用d—Left散列表存储流检测的数据结构,将d—Left散列表的存储结构与流缓存替换相结合以实现高效的大流检测.通过低速率的淘汰,提高了检测算法的准确性.基于真实网络数据的测试结果表明:所提算法在相近的存储开销下保持了高的处理性能,其准确性优于LRU派生算法S-LRU和L-LRU以及CSS和WCSS检测算法.
摘要:Internet骨干网流量中,混合了来自于固网接入和3G/4G移动蜂窝网络接入的不同客户端流量.在不依赖于应用层信息和查看数据报内容的前提下,使用传统的流量分析方法和特征选择,难以将两者正确区分.通过对移动蜂窝网络通信链路技术和无线资源控制(radio resource control,RRC)机制导致IP数据报时延波动的分析建模,结合TCP/IP协议数据报的往返时延(round-trip time,RTT)计算,构建了6个与数据报时延相关的网络流量特征,用于有效区分通过3G/4G和固网接入的网络流量来源.这些特征能够针对不同网络节点接入互联网技术差异所带来的网络数据包时序分布特点进行描述和匹配.在此基础上,采用多种有监督的机器学习方法,搭建了基于网络流量的分类模型并进行交叉验证.实验结果表明:利用这些时延特征建立的流量描述与分类模型,能够有效区分移动蜂窝网络接入数据流量和固网接入数据流量,分类正确率达到92%以上,并具有良好的覆盖性与容错性.
摘要:针对目前计算机图形学领域对于精确的时间和空间条件驱动下大规模海洋场景的研究匮乏的现状,提出一个时空驱动的大规模真实感海洋场景实时渲染框架.首先,采用天空球代替传统天空盒进行天空背景建模,弥补天空盒灵活性和真实性上的不足;引入简化天文模型进行天体位置计算,真实展现天体运行规律;其次,引入风力驱动的统一方向谱进行海浪绘制,弥补目前图形学领域利用海浪谱建模在短波绘制效果上的不足;最后,将大气散射、海洋表面以及海下光线传播作为整体考虑,构建海面综合光照渲染模型.实验表明:该框架不仅能够真实地展现在精确的时空条件下大规模海洋场景的波浪运动以及光学效果的变化,而且能够很好地满足实时应用的需要.
摘要:环境光遮蔽(ambient occlusion)被广泛用于近似计算低频全局光照、消除间接光照和阴影等计算机图形学和视觉应用中.已有算法直接通过场景的3维几何,或不同光照下的多幅图像计算每个点的环境光遮蔽,存在着对光照和输入图像数量要求高等问题.针对以上不足,提出了一种基于单张图像的环境光遮蔽估计算法.算法利用一个在大量仿真图像数据集上训练的卷积神经网络,直接从自然光照条件下场景的单张图像中恢复每个点的环境光遮蔽.提出并比较了3种不同的神经网络结构设计,实验分析验证了端到端的设计方案可以获得最佳的结果.和已有的环境光遮蔽算法方法比较,所提出的方法不仅计算速度快,而且在数值和视觉上具有更好的结果.
摘要:特征是软件系统中被需求所定义的可执行功能实体.识别软件特征与源代码间映射关系的过程被称作特征定位.基于信息检索的特征定位方法由于高易用性和低开销等优点,被广泛应于软件维护、代码搜索等领域.所有基于信息检索的特征定位方法均建立在语义相似度计算基础之上,当前语义相似度计算存在2个主要问题:第一,源代码数据中大量噪声信息对相似度计算的干扰;第二,不同索引方法局限性导致的相似度计算结果失准.针对这2个问题,提出了一种面向软件特征定位问题的语义相似度集成方法.该方法在预处理过程引入词性过滤,有效过滤源代码中噪声数据,提升相似性计算的准确度.然后,以源代码数据自身结构特性为依据,集成不同索引方法进行相似度计算.在公开数据集上进行了实验,与现有方法相比,词性过滤和相似度集成在平均排序倒数性能上分别带来了30.88%和10.28%的提升,验证了所提方法的有效性.
摘要:矩阵乘运算在多个应用领域特别是数值计算领域被广泛使用,但双精度浮点矩阵乘在CPU,GPGPU,FPGA等现有计算平台上的性能和效率受限,其往往成为大规模数值计算应用的性能瓶颈.针对该问题,以线性阵列计算结构为基础,研究了双精度浮点矩阵乘的定制加速.首先,对线性阵列计算结构进行了双缓冲优化并设计了针对双缓冲的存储访问调度,以提高结构的计算效率.其次,提出了矩阵乘协处理器和加速计算系统的结构,构建了协处理器的性能模型并对其结构设计空间进行了探索.最后,验证了协处理器的功能正确性并在某主流工艺下评估了其硬件开销.实验结果表明,设计的双精度浮点矩阵乘协处理器可以达到3 TFLOPS的计算性能和99%的计算效率.与NVIDIA K40 GPGPU相比,协处理器执行双精度浮点矩阵乘的性能是K40的1.95倍,而面积开销仅为K40的21.05%.探索了定制加速结构设计在高性能计算中的应用,对现有计算系统的性能提升具有一定的参考价值.
摘要:动态函数调用跟踪技术是调试Linux内核的重要手段.针对现有动态跟踪工具存在支持平台有限、运行效率低的问题,基于二进制翻译,设计并实现支持多种指令集的动态函数调用跟踪工具.首先,使用二进制翻译进行系统加载、分析内核镜像,识别基本块的分支指令类型.然后,根据不同平台指令集,设计桩代码并在函数调用与返回指令翻译时插入桩指令,进而在程序执行和内核启动时实时获取时间戳、进程标识、线程标识、函数地址等信息.最后,内核加载完毕后,处理获取的信息,生成过程函数调用图.只需要根据平台指令集特点设计对应的信息获取桩代行为一致,桩代码执行信息记录产生了15.24%的时间开销,而信息处理并输出到磁盘文件产生了165.59%的时间开销,与现有工具相比,性能有较大提升.
摘要:迭代计算是数值计算中有效的逼近方式,能够拟合多种计算模型.在大数据分析领域尤其是图计算中,迭代计算能够抽象描述大部分图算法,对结构化数据挖据和关联分析至关重要.随着数据规模的增长,很多精确算法的时空复杂度已经难以满足现实需求,迭代计算的算法越来越丰富.并行迭代是图计算的主要实现形式,已有的图并行策略大多数是同步模型,少量异步模型,对于一致性约束条件下的迭代研究较少.研究内容重点关注图计算模型中迭代执行技术,分析了同步迭代和异步迭代的适用性,以及不同一致性下的异步迭代方式,针对已有异步迭代方式的不足提出了自适应的弱一致异步执行模型,并进行了验证性实验.实验证明:该模型能有效提高部分图算法的执行效率,尤其是收敛速度和效果.