发表咨询:400-808-1731
订阅咨询:400-808-1751
北大期刊
影响因子 0.51
人气 23701
北大期刊
影响因子 0.94
人气 20370
部级期刊
影响因子 1.03
人气 13558
北大期刊
影响因子 3.18
人气 11660
统计源期刊
影响因子 0.55
人气 11072
北大期刊
影响因子 0.79
人气 9737
省级期刊
影响因子 0.41
人气 9514
省级期刊
影响因子 0.57
人气 9455
省级期刊
影响因子 0.15
人气 9263
统计源期刊
影响因子 0.47
人气 8420
摘要:数据库系统经过近50年的发展,虽然已经普遍商用,但随着大数据时代的到来,数据库系统在2个方面面临挑战.首先数据量持续增大期望单个查询任务具有更快的处理速度;其次查询负载的快速变化及其多样性使得基于DBA经验的数据库配置和查询优化偏好不能实时地调整为最佳运行时状态.而数据库系统的性能优化进入瓶颈期,优化空间收窄,进一步优化只能依托新的硬件加速器来实现,传统的数据库系统不能够有效利用现代的硬件加速器;数据库系统具有成百个可调参数,面对工作负载频繁变化,大量繁琐的参数配置已经超出DBA的能力,这使得数据库系统面对快速而又多样性的变化缺乏实时响应能力.当下机器学习技术恰好同时符合这2个条件:应用现代加速器以及从众多参数调节经验中学习.机器学习化数据库系统将机器学习技术引入到数据库系统设计中.一方面将顺序扫描转化为计算模型,从而能够利用现代硬件加速平台;另一方面将DBA的经验转化为预测模型,从而使得数据库系统更加智能地动态适应工作负载的快速多样性变化.将对机器学习化数据库系统当前的研究工作进行总结与归纳,主要包括存储管理、查询优化的机器学习化研究以及自动化的数据库管理系统.在对已有技术分析的基础上,指出了机器学习化数据库系统的未来研究方向及可能面临的问题与挑战.
摘要:降低能耗开销、建设绿色数据中心,已经成为目前大规模数据中心的重要需求.在绿色数据中心,如何使数据库系统在满足性能需求的前提下尽量地节约能耗,即如何提高数据库系统的能耗有效性,是目前研究的重点.数据库系统中的能耗有效性旨在使用更少的电能来提供相同的服务.能耗有效性越高,说明数据库系统可以用更少的能耗就能够响应同样数量的操作,换句话说,可以用更少的能耗达到同样的性能.据此提出了一种面向绿色数据中心的能耗有效查询优化方法.该方法首先利用回归分析建立操作符层的功耗预测模型,从而可以准确地预测给定查询在执行过程中的平均功耗.接着,在PostgreSQL查询优化器中扩充了结合预测能耗成本和时间成本的新的查询执行代价计算模型,并引入性能退化度因子调节性能和能耗的权重.最后构建了数据库系统能耗测试平台,在PostgreSQL上基于TPC-H和TPC-C基准测试进行了实验.结果表明:所提出的功耗预测模型比已有方法准确度更高.同时,提出的性能退化度因子为数据库系统提供了性能和能耗之间的灵活折中方案,并且通过设置适当的性能退化度因子,可以实现比原始PostgreSQL更高的能耗有效性.
摘要:在机器学习和数据库等领域,高质量数据集的合成一直以来是一个非常重要且充满挑战性的问题.其中,合成的高质量数据集可用来改善模型,尤其是深度学习模型的训练过程.一个健壮的模型训练过程需要大量已标注的数据集,获取这些数据集的一种方法是通过领域专家的手动标注,这种方法不仅代价大还容易出错,因此由模型自动合成高质量数据集的方法更为合理.近年来,由于计算机视觉领域的飞速发展,已经有不少致力于图像数据集合成的研究,但是这些模型不能直接应用在结构化数据表上,并且据调研,对这类数据的相关研究几乎没有.因此,提出了一个针对结构化数据表的生成模型TableGAN,该模型是生成式对抗网络(generative adversarial network, GAN)家族的一种变体,通过对抗训练的方式提高生成模型的性能.针对结构化数据的特征改变了传统GAN模型的内部结构,包括优化函数等,使其能够生成高质量的结构化数据用于改善模型的训练过程.通过在真实数据集上的大量实验表明了此模型的有效性,即在扩大后的数据集上训练模型的效果有明显提升.
摘要:随着智能移动设备的快速普及,人们对基于位置的社交网络服务的依赖性越来越高.但是,由于数据采集成本昂贵以及现有数据采集技术的缺陷,基于小样本数据挖掘的兴趣点(point of interest, POI)定位已经成为了一种挑战.尽管已经有一些POI定位方面的研究,但是现有的方法不能解决正样本数据不足的问题.提出一种基于PU与生成对抗网络(positive and unlabeled generative adversarial network, puGAN)的模型,采用PU学习和生成对抗网络相结合的方式挖掘数据的隐藏特征,生成伪正样本弥补数据不足的问题,并校正无标签样本数据的分布,从而训练出有效的POI判别模型.通过分析ROC曲线以及训练误差和测试误差在迭代过程中的变化和关系来比较不同模型在实验场景下的效果.结果表明,puGAN模型可以有效解决数据样本不足的问题,进而提高POI定位的准确性.
摘要:领域内命名实体识别通常面临领域内标注数据缺乏以及由于实体名称多样性导致的同一文档中实体标注不一致等问题.针对以上问题,利用生成式对抗网络(generative adversarial network, GAN)可以生成数据的特点,将生成式对抗网络与BiLSTM-Attention-CRF模型相结合.首先以BiLSTM-Attention作为生成式对抗网络的生成器模型,以CNN作为判别器模型,从众包标注数据集中整合出与专家标注数据分布一致的正样本标注数据来解决领域内标注数据缺乏的问题;然后通过在BiLSTM-Attention-CRF模型中引入文档层面的全局向量,计算每个单词与该全局向量的关系得出其新的特征表示以解决由于实体名称多样化造成的同一文档中实体标注不一致问题;最后,在基于信息安全领域众包标注数据集上的实验结果表明,该模型在各项指标上显著优于同类其他模型方法.
摘要:利用光纤振动传感器可以实现分布式周界安防监测,进而实现自动报警.对周界安防监测信号的分析处理和识别受到业界关注.对光纤信号的特征提取和识别方法进行综述,这些特征提取方法通过对光纤振动信号的时域这个维度进行各种分解,从而提取各种信号的属性特征;对光纤振动信号的识别主要使用经验阈值、神经网络、支持向量机方法,目前这些方法对光纤入侵事件识别效果还不能令人满意.通过实验采集挖掘机挖掘、人工挖掘、汽车行驶、行人和自然环境噪声这5种入侵行为引起的光纤振动信号数据,并进行数据的3维图形可视化分析,提出一种安防监测信号在时域和空域这2个维度信息的特征提取方法;根据光纤振动入侵事件的重要程度分成4个阶段先后完成识别任务,采用2分类任务决策树模型和约束极速学习机算法识别入侵事件类型,提高了对各类事件的正确识别率.
摘要:关键节点识别已经成为分析与理解复杂网络特性、结构、功能的有效方式.提出了一种基于节点中心性的关键节点识别算法框架(greedy algorithm for critical node problem, GCNP),根据某种中心性指标选择一个网络的初始点覆盖集;从网络中删除该点覆盖集,迭代选择点覆盖集中使原网络连通节点对增加最小的节点向原网络回添,直至点覆盖集中节点满足用户给定的待删除关键节点数.为了更好地选择初始的节点覆盖集,提出了一种基于局部拓扑信息的节点中心性度量指标(local neighbor centrality, LNC).在16个人工网络和9个真实网络上的实验结果表明:与单独使用各中心性指标相比,采用GCNP算法框架可以提高算法性能.此外,所提的节点中心性度量指标LNC较度中心性(degree centrality, DC)、LocalRank中心性、K壳中心性(K-Shell, KS)、局部度和中心性(local degree sum centrality, LDS)能更准确地评估节点的重要性.
摘要:药物靶标作用关系预测是一种重要的辅助药物研发手段,而生物实验验证药物靶标作用关系耗钱耗时,因此,在数据库中查询验证预测的药物靶标作用关系是对预测方法的重要评价.基于KEGG,DrugBank,ChEMBL这3个数据库,利用爬虫获取信息的方式设计开发了药物靶标作用关系查询验证方法DTcheck(drug-target check),实现了对于提供KEGG DRUG ID及KEGG GENES ID的药物靶标对的高效查询验证功能,并利用DTcheck分别为Enzyme,IC(ion channel),GPCR(G-protein-coupled receptor),NR(nuclear receptor)四个标准数据集扩充新增药物靶标作用关系907,766,458,40对.此外,结合DTcheck查询验证,以BLM(bipartite local models)方法为例分析了预测结果的评价问题,结果表明,采用AUC(area under curve)值评价药物靶标作用关系预测方法没有Top N 评价合理,且AUC值低的BLMd方法在预测新的药物靶标作用关系时优于AUC值高的BLMmax方法.
摘要:越来越多的研究表明,长非编码 RNA(long non-coding RNA, lncRNA)在许多生物过程中具有重要的功能,而这些长非编码 RNA 的变异或功能失调会导致一些复杂疾病的发生.通过生物信息学方法预测潜在的长非编码 RNA-疾病关联关系,对于致病机理的探索以及疾病诊断、治疗、预后和预防都具有重要的意义.基于疾病基因关联关系的异质信息网络,研究者使用了一种相关性计算法方法——HeteSim来计算疾病基因之间的相关性,进而预测致病基因.使用的方法基于路径约束,具有可扩展性,算法效率高,留一交叉验证实验表明该方法的预测结果优于其他方法.将其应用在卵巢癌和胃癌的预测分析中,相关文献表明,所提方法的预测结果已被生物实验等验证,再次表明该方法的有效性.
摘要:由于没有完整可用的指标同义词库以进行指标映射,各家医院关于同一检验检查指标的不同称谓,已严重影响到了区域间医疗信息的互联共享,因而需要对检验检查指标进行标准化处理.这可以看作是一个实体对齐问题,但指标只有相应的取值和取值范围,难以像知识库实例匹配那般使用到属性信息,也不似实体链接那般拥有上下文信息,而且不存在一个标准知识库来提供所有指标的标准名称.针对以上问题,提出指标标准化算法,先根据指标字面特征进行聚类,再使用相似度特征和分块打分特征迭代地进行二分类映射.实验表明,最终的二分类映射,其 F 1-score可以达到85.27%,证明了该方法的有效性.
摘要:双序列比对算法是生物信息学中的一个关键算法,广泛应用于序列相似性分析以及基因组序列数据库搜索.现有研究主要针对特定应用问题优化和使用相对应比对算法,缺乏高抽象层算法框架的细致研究,在一定程度上导致了序列比对算法的冗余性以及人为选择算法可能造成的误差等问题,也使得人们难以有效地了解算法结构.通过深入分析基于动态规划的双序列比对算法(dynamic programming-based pairwise sequence alignment algorithm, DPPSAA)领域,在建立该算法领域的特征模型以及对应算法构件交互模型基础上,利用PAR 平台形式化实现双序列比对算法构件库,并装配生成具体算法,保证了形式化装配算法的可靠性,为序列相似性分析算法应用提供了一条有价值的参考途径.最后,利用PAR平台 C++程序生成系统将组装的比对算法转换为 C++程序,运行结果表明DPPSAA算法构件库具有一定的实用性.
摘要:智能移动终端的普及大大推动了移动社交网络(mobile social networks, MSNs)的发展.人类作为终端设备的载体具备频繁的移动性,导致网络拓扑的动态变化,并给MSN路由带来了时延长、投递率低、开销大等诸多难题.为提升路由效率,基于信息中心网络(information centric networking, ICN)以内容为中心的思想以及生物地理优化(biogeography-based optimization, BBO)算法,设计了一种高效的支持信息中心范型的BBO启发式MSN路由算法(BBO-inspired MSN routing algorithm with information-centric paradigm support, BIRI).首先,该机制基于重定义的社交度量——社会关系强度和中心度——使用BBO算法进行社区划分.其次,设计了内容聚集、数据缓存以及桥节点选取策略,支持高效的内容检索和访问.基于上述策略,提出了优化的社区间和社区内路由过程,缓解终端移动性对数据传输带来的影响.在机会网络环境(opportunistic network environment, ONE)中,仿真实现BIRI机制,并且与其他3种MSN路由机制从投递率、平均时延、网络开销比率3个指标进行性能对比与分析,实验结果表明BIRI是一种可行且高效的MSN路由机制.
摘要:微博是目前人们广泛使用的在线分享和交流的社交媒体平台之一.某些被广泛关注的话题因为在微博中被大量网友转发、评论和搜索而形成微博热门话题,而这些热门话题的广泛传播则可能进一步刺激和推动用户的线下行为.作为其中的典型代表,某些微博热门话题可能会刺激电商平台中和该话题相关的商品的热销.提前挖掘出与微博热门话题相关联的商品品类,可帮助电商平台和卖家提前做好商品运维以及库存的调配,提高用户搜索的购物转化率,带来相应商品销量的提升.提出了一种微博热门话题所关联的潜在购物品类的挖掘方法.首先构建商品知识图谱,然后采用多种深度网络模型对商品品类的关联知识图谱信息与微博话题内容进行文本匹配,识别出每个热门话题和商品品类的关联强度.实验表明,该方法能够有效识别出热门话题和购物品类的关联关系,大部分的微博热门话题都可以关联到电商平台中至少一个商品品类.
摘要:近年来社交媒体在拓宽人们获取信息渠道的同时,也方便了虚假信息的传播,并造成了严重的负面影响.与传统互联网媒体相比,社交媒体包含的信息更加复杂多样,为内容可信性的判断带来了新的挑战.已有研究在分析社交媒体内容可信性时,对挖掘可信性影响因素进行了很多工作,但缺乏对噪音数据的处理,大量的无用推文会对推文可信性判断造成干扰,进而会影响事件层面的可信性判断,从大量噪音数据中筛选出真正有用的推文数据就显得尤为重要.在推文层面同时考虑用户的主题因素和从众行为,减少了从众转发等噪音数据在可信性判断过程中的作用,对社交媒体内容的可信性进行研究,采用贝叶斯网络建立了社交媒体内容可信性评价模型,并通过新浪微博公开数据集验证了模型的有效性.
摘要:链路预测是复杂网络分析领域的一项重要研究课题,可被应用于许多实际应用场景,如推荐系统、信息检索和市场分析等.不同于传统的链路预测问题,针对有时间窗口的时序链路集合,需预测未来任意时刻链路的存在情况,即探究时序网络的演化机制.为解决这一问题,结合生存分析和博弈论,提出一种有效的半监督学习框架.首先,定义一个ε-邻接网络序列模型,并利用每条链路的时间戳信息生成真实的网络演化序列.为捕捉网络演化规律,为每条链路定义一组基于邻居相似性的特征向量,并采用Cox比例风险模型来估计该特征向量的协变量系数.为缩小搜索空间,提出一种基于博弈的双向选择机制来预测未来的网络拓扑结构.最后,提出一种基于多智能体自治计算的网络演化预测算法,并在多个真实时序网络数据集上验证了算法的有效性和高效性.
摘要:排名论文信息1施巍松,孙辉,曹杰,张权,刘伟.边缘计算:万物互联时代新型计算模型[J].计算机研究与发展, 2017, 54(5): 907 924Shi Weisong, Sun Hui, Cao Jie, Zhang Quan, Liu Wei. Edge Computing—An Emerging Computing Model for the Internet of Everything Era [J]. Journal of Computer Research and Development, 2017, 54(5): 907 924.
摘要:随着互联网视频流量的快速增长,流媒体传输技术也日新月异,从传统的使用UDP传输协议的实时流媒体协议到使用TCP传输协议的HTTP协议,各大视频服务提供商都在为获得更多用户不断发展新的流媒体传输技术.超文本传输协议上的动态自适应流媒体作为目前最流行的自适应流媒体传输技术,在提高用户观影体验方面具有很多的优点.但是它的分片传输所形成的ON-OFF传输模式会造成TCP流的突发.这种间歇性的流突发会对其他的应用产生一定的影响.当多个客户端同时竞争带宽时会造成播放器错误估计网络带宽,从而产生视频分辨率频繁切换,对用户体验产生极大的负面影响.TCP作为传输层的协议,其拥塞控制算法对视频的传输效率起着决定性作用,由于传统的拥塞控制算法不能很好地适应DASH流媒体的传输,提出了TCP-HAS拥塞控制算法.该算法基于TCP Vegas进行了优化,将带宽估计值与视频码率相结合用于设置TCP拥塞控制参数.实验表明TCP-HAS能够提升网络QoS,并能在多个用户共享链路带宽时提升用户观影体验.
摘要:近年来,深度神经网络被广泛应用于各个领域并取得了极大的成功.由于神经网络模型的尺寸和计算量的不断增加,为了能够高效迅速地完成神经网络的计算,包括GPU和专用加速器在内的很多新型硬件处理器被用于深度学习的计算.尽管如此,通用处理器作为目前最为常见和易于获得的计算平台,探究如何高效地在其上运行神经网络算法同样具有重要意义.多核处理器在训练阶段可以采用数据并行的方式来提高数据吞吐量,加快训练速度.然而在推理阶段,相比吞吐量场景,端到端的时延往往更加重要,因为这决定了处理器在某个场景下的可用性.传统的数据并行方案不能满足推理场景下对处理器小数据、低延迟的要求.因此,对于多核的处理器结构,需要在算子内部对计算进行拆分,才能够充分利用多核结构的硬件资源.考虑到处理器的计算特点,需要一种精细的方法来对计算图中的算子进行合理的拆分,才能真正有效地发挥出多核处理器的计算潜能.提出一种基于算子拆分的并行框架,可以用较小的开销实现处理器由单核向多核结构上的扩展,并且能够针对给定的网络和底层处理器特点给出一种高效的拆分方案.实验结果表明:该方法能有效降低各种网络在多核处理器上的端到端时延.