发表咨询:400-808-1731
订阅咨询:400-808-1751
北大期刊
影响因子 0.51
人气 23749
北大期刊
影响因子 0.94
人气 20396
部级期刊
影响因子 1.03
人气 13569
北大期刊
影响因子 3.18
人气 11698
统计源期刊
影响因子 0.55
人气 11096
北大期刊
影响因子 0.79
人气 9750
省级期刊
影响因子 0.41
人气 9519
省级期刊
影响因子 0.57
人气 9490
省级期刊
影响因子 0.15
人气 9354
统计源期刊
影响因子 0.35
人气 8472
摘要:病理检查报告中的文本通常为非结构化数据,不利于计算机自动分析和处理.目前文本结构化主要采用信息关系抽取方法,然而病理检查报告所具有的语义特殊性,给中文信息关系抽取带来了挑战.为解决上述问题,设计了一种针对病理检查报告的结构化方法,首先通过神经网络语言模型获得病理报告中的同义词表,合并一义多词现象;在此基础上,生成病理检查报告文本的依存关系树,并提出切分短句和信息标注的剪裁策略,以简化初始生成的依存关系树结构,从而使语法关系更加清晰,提高结构化结果的准确度;进而,利用依存句法分析结果从中文检查报告中提取指标及对应指标值,并自动生成结构化模板.实验采用医生真实使用的医疗病理检查报告进行验证,其结果表明:该方法在指标词和对应指标值提取任务中的准确率可以分别达到82.91%和79.11%,为相关研究打下了基础.
摘要:众源轨迹的泛在、实时特性,使其成为道路信息快速获取与更新的重要途径.针对矢量道路数据的变化检测与更新问题,提出了一种基于车辆轨迹大数据的道路网快速变化发现与更新方法.1)以道路弧段为基本单元构建缓冲区,根据道路变化信息类型及表现形式,运用轨迹运动几何信息(方向、转角)与交通语义信息(速度、流量),对道路变化信息进行检测、分类,确定道路变化类型;2)将道路变化类型推断与增量信息提取相结合,分别运用Delaunay三角网、交通流时间序列分析提取增量信息;3)根据变化类型进行增量信息融合.运用深圳市出租车GPS轨迹数据进行实验分析,结果表明:该方法相比常规方法能正确判断道路变化类型、区分真实变化与语义变化,增量信息精度提高约18%,且适于图层级的批处理快速更新.
摘要:GPS是应用最为广泛的室外定位系统,随着技术的发展精度不断提升.然而城市中,由于GPS卫星信号被建筑遮挡,仍然可能产生较大的多径误差.此类误差已称为城市GPS定位误差的主要成分.评估城市道路中环境对GPS精度的负面影响,即环境的GPS友好度,将有助于对不同地段GPS的误差范围进行预判,从而提升位置服务相关应用的用户体验,并为理解环境特征与多径误差的关系,确定在何处部署辅助定位的设备提供支持.为此,提出了1种通过处理和分析海量公交车GPS轨迹历史数据,从而评估城市主要路段的环境友好性的方法.该方法充分利用公交车运行线路固定的特点,大幅提升数据处理的效率;针对路网数据可能存在的错误,提出了容错性的方案;利用相同车辆及相同路段在GPS误差上存在的内在关联,对缺失数据进行补全;并充分考虑到不同质量GPS端设备对环境友好性评估的影响,确定了基于端设备质量加权的评估计算策略.利用成都市二环内的4869辆公交车1个月的数据,对共计5648个不同路段的环境友好性进行了评估,并通过卫星地图和街景照片,分析验证了方法结果的合理性.
摘要:在线P2P(peer-t〇-pear)借贷是一种新兴的在线个人财富分配和管理系统,它允许投资人直接对借款人创建的借款标的进行竞标和投资.在P2P借贷平台中,存在一个重要的问题即如何合理分配投资人的投资金额给合适的借款人.针对该问题,提出了一种基于风险和剩余价值最大化的投资推荐框架RTSM(risktotalsurplusmaximize).RTSM首先对借款标的进行风险评估,然后基于经济学中的剩余价值理论,使用投资人和借款人在有风险情况下的剩余价值假设,将风险评估与投资推荐结合在一起,为投资人推荐高收益低风险的投资决策.实验在风险评估和投资推荐2个阶段对美国和中国知名的P2P借贷平台(Prosper、拍拍贷)的真实数据进行分析和验证.从实验结果可以看出:RTSM可以更好地降低风险和提高投资人与借款人的整体利益.
摘要:随着智能手机和移动互联网的普及,使用智能移动终端进行学习的用户也逐渐增多,移动学习在数字教育领域占据着越来越重要的地位.移动学习的有效性体现在情境感知的能力,即能够感知不同学习情境并提供相应合理的学习内容.因而,移动学习中的情境感知技术已经成为一个研究热点.学习场景的感知是移动学习情境感知的重点,但是由于移动学习的动态性和复杂性,准确的场景感知具有一定的难度.基于实际的移动学习环境,提出了一种根据传感器与学习操作行为对学习场景进行感知分类的方法,处理并分析了由移动学习客户端采集到的传感器数据和学习操作行为日志数据,对比了以传感器数据特征值与学习操作行为特征值共同作为输入特征值的多种场景感知分类算法.结果表明:对比仅使用传感器数据作为分类算法输入特征值的结果,结合学习操作行为日志和传感器数据一起作为学习场景分类感知的依据,可以显著提高移动学习场景的感知分类效果.
摘要:虽然大数据技术在社交网络、金融、公共安全、医疗卫生等领域的应用不断成熟,但在竞技体育方面的应用还处于探索阶段.常规篮球统计中缺乏对传球数据的记录,更缺乏对传球数据的统计分析、价值挖掘及应用等方面的研究.1)由于传球数据汇聚形态为图,在传球数据获取、数据清洗及格式转化、Vertex与Edge表构建的基础上,通过GraphX构建传球网络图为其应用打下基础;2)提出PlayerRank值区分球员重要度、球员位置个性化图顶点等方法提高传球网络可视化质量;3)通过GraphX构建的传球网络分析传球数量与质量对比赛结果的影响,并例举了传球网络在球队传球数据分析、战术人员选择、临场战术制定、网络子图及游戏体验改进等方面的应用.
摘要:Scrum是一种兼顾计划性与灵活性的敏捷开发过程,能让软件开发团队具有快速工作和响应变化的能力.软件开发生命周期中每一个环节都会产生大量的数据,如果能记录下这些数据进行分析,并通过可视化等手段展示和反馈,则能进一步促进团队管理、项目管理,提高开发效率.现有的软件开发管理工具中,项目管理和代码管理往往是相互独立的,这导致了数据的分散和未充分利用.为推广以Scrum为核心、以数据为驱动的敏捷软件开发过程,开发了一款基于云服务的Onboard敏捷软件开发协同工具,利用代码提交和任务的关联,创造性地将敏捷过程管理、源代码管理和项目管理有机地整合到一起,支持端到端的软件全生命周期管理,从而能记录下软件开发过程中产生的所有数据并提取有价值的信息,为中小软件开发团提供一站式的敏捷开发管理与协同服务.1)介绍了Onboard的设计理念;2)围绕着“如何利用软件开发过程中产生的数据更好地支持敏捷开发过程”和“如何评估团队成员贡献度”两大课题,全面介绍了数据可视化和数据分析在Onboard敏捷软件开发协同工具中的应用,并针对一系列相关问题提出了解决方案;3)对值得进一步研究的问题进行了展望.
摘要:随着时间的推移,软件不断地更新和演化,软件仓库中累积了海量的数据,如何有效地收集、组织、利用软件工程中涌现的软件大数据是一个至关重要的问题.软件仓库挖掘(miningsoftwarerepositories,MSR)通过挖掘软件仓库中繁杂多变的数据中3■含的知识来提高软件的质量和生产效率.虽然一些研究工作详细阐述了MSR的背景、历史和前景,但现有的研究工作并未系统地呈现MSR领域中最有影响力的作者、机构、国家以及最受欢迎的研究主题和主题变迁等领域知识.因此,结合已有的经典的文献分析框架和算法来分析MSR相关文献,并呈现一些MSR基本领域知识.为了实现MSR文献分析,建立了一个包含3个组件的MSR文献分析框架(MSRpublicationanalysisframework,MSR-PAF),这3个组件分别被用来创建数据集、执行基础文献分析、实施合作模式分析.基础文献分析结果表明:最高产的作者、机构、国家/地区分别是AhmedE.Hassan,UniversityofVictoria和美国,最有影响力作者是AhmedE.Hassan,最频繁的关键词是softwaremaintenance.合作模式分析的结果显示AbramHindle是MSR领域最活跃的作者,opensourceproject和softwaremaintenance是最流行的研究主题.
摘要:对包含亿万个顶点和边的图数据进行高效、紧凑的表示和操作是大规模图数据分析处理的基础.针对该问题提出了基于决策图的大规模图数据的一种表示方法—P-MDD,给出了P-MDD的构造过程以及图的边查询、外(内)邻查询、出(入)度查询、添加(删除)边等基本操作.该表示方法在树的基础上进行优化与改进,对图的邻接矩阵进行划分后,采用多值决策图进行存储,从而达到存储结构更为紧凑的目的.通过对来自米兰大学LAW实验室的一系列真实网页图和社交网络图数据的实验结果可以看出,P-MDD结构在节点数上仅为树的2.59%?4.51%,达到了预期效果.通过对随机图的实验结果可以看出,P-MDD结构不仅适用于稀疏图,同样也适用于稠密图.图数据的P-MDD表示,既具有树表示的紧凑型和查询的高效性,又能实现符号决策图表示下图模式的高效操作,从而实现了描述和计算能力的统一.
摘要:贝叶斯概率矩阵分解方法因较高的预测准确度和良好的可扩展性,常用于个性化推荐系统,但其推荐精度会受初始评分矩阵稀疏特性的影响.提出一种基于广义高斯分布的贝叶斯概率矩阵分解方法GBPMF(generalizedGaussiandistributionBayesianPMF),采用广义高斯分布作为先验分布,通过机器学习自动选择最优的模型参数,并基于Gibbs采样进行高效训练,从而有效缓解矩阵的稀疏性,减小预测误差.同时考虑到评分时差因素对预测过程的影响,在采样算法中添加时间因子,进一步对方法进行优化,提高预测精度.实验结果表明:GBPMF方法及其优化方法GBPMF-T对非稀疏矩阵和稀疏矩阵均具有较高的精度,后者精度更高.当矩阵非常稀疏时,传统贝叶斯概率矩阵分解方法的精度急剧降低,而该方法则具有较好的稳定性.
摘要:空间数据重建过程中,条件数据对重建结果影响较大,在仅有少量条件数据的情况下,重建结果常常出现较多的不确定性,此时适合采用不确定性插值方法重建空间数据.作为目前不确定性插值的主流方法之一,多点信息统计法(multiple-pointstatistics,MPS)可以从训练图像提取模式的本质特征,然后将这些特征复制到待模拟区域.由于传统采用线性降维的MPS方法无法有效处理非线性数据,因此将等距特征映射(isometricmapping,ISOMAP)应用到MPS方法,以实现对非线性数据的降维.提出基于MPS和ISOMAP的空间数据重建方法,通过模式库构建、模式降维、模式分类、模式提取等步骤能够较为准确地重构出未知的空间数据,为MPS处理非线性空间数据提供了新思路.实验结果表明:该方法所重建的空间数据具有与训练图像相似的结构特征.
摘要:可分离压缩传感可以通过一定比例的额外测量有效地解决压缩成像问题中面临的测量矩阵维数过大的瓶颈.但是现有可分离压缩传感(separablecompressivesensing,SCS)方法需要2个可分离的测量矩阵都必须是行归一化后的正交随机矩阵,其显著地限制了该方法的应用范围.将奇异值分解(singularvaluedecomposition,SVD)方法引入可分离可压缩传感测量过程,可以有效地实现测量矩阵和重建矩阵的分离:在感知阶段可以更多地考虑测量矩阵物理易于实现的性质,如Toeplitz或Circulant等确定性结构的矩阵;在重建阶段,更多地考虑测量矩阵的优化.通过引入奇异值分解对重建阶段的测量矩阵进行优化,可以有效地改善重建性能,尤其是Toeplitz或Circulant矩阵在大尺度图像的压缩重建情形.数值实验结果验证了该方法的有效性.
摘要:图像检索系统性能很大程度上取决于提取的图像描述子,其中颜色差分直方图(colordifferencehistogram,CDH)已经在图像检索中显示出了较好的性能.但是这种描述子仍然有一定的局限性:1)只考虑到了像素间颜色差分的整体分布;2)忽略像素间的空间位置分布.因此提出了1种新的基元相关性描述子(textoncorrelationdescriptor,TCD)提取图像特征,并将其应用于图像检索系统中.具体提取过程分为3个步骤:1)利用图像底层特征(颜色和局部二值模式)检测一致性区域,选择图像中包含区分性信息的局部区域;2)提出颜色差分特征和基元频率特征分别描述图像像素间的对比度和空间位置信息,其中颜色差分特征融合了描述局部邻域的颜色差分相关性统计和全局颜色差分直方图,基元频率特征也融合了描述局部邻域的基元频率相关性和基元频率直方图;3)联合一致性区域中的这2种特征得到最后的TCD描述子.这种特征描述了图像中2种互相独立并互相补充的特性:对比度和空间位置关系,并同时考虑到了这2种特性在局部和全局区域中的描述,因此在图像检索实验中会有更好的性能.在图像数据集中的实验结果显示了TCD描述子的检索效果明显优于其他几种特征描述子,证实了TCD描述子在图像检索中的有效性和稳定性.
摘要:基于多核处理器硬件技术和高并发查询负载需求,近年来的研究不仅关注于一次一查询模式的查询优化技术,而且也关注于一次一组模式的查询优化技术.通过将并发查询转换为共享负载,一些低访问延迟的操作,如磁盘l/0、cache访问,可以被多个并发的查询所共享.当前的研究通常基于共享查询操作符,如扫描、连接、谓词处理等,通过生成全局执行计划优化并发查询.对于复杂的分析型负载,如何创建优化的执行计划是一个具有挑战性的问题.在广泛使用的星形模型的基础上提出一种模板OLAP查询执行计划来简化查询执行计划,以达到最大化查询操作符利用率的目标.1)提出了基于键的连接索引技术,将传统的基于值探测的连接操作转化为内存数组索引引用(AIR),使连接操作的CPU效率更高并且支持聚集计算的后物化;2)并发查询的谓词处理简化为cacheline敏感的谓词向量,在单次cacheline访问中最大化并发查询谓词计算性能;3)通过多核并行实现技术在SSB基准上进行测试.实验结果表明:共享扫描和共享谓词处理能够将并发OLAP查询处理性能提升1倍.
摘要:相似自连接是一个在很多应用领域中很重要的问题.对于海量数据集,MapReduce可以提供一个有效的分布式计算框架,相似自连接操作也同样可以应用在MapReduce框架下.但已有研究工作仍然存在不足,如对于聚集数据区域采用加细划分方法,目的是负载平衡,但不易实现.现有的算法不能有效地完成海量数据集的相似自连接操作.为此提出了2个新颖的基于MapReduce的相似自连接算法,其思想是采用坐标过滤技术,形成有效候选集,以及针对聚集区域采用六边形划分的内切圆算法.过虑技术是在等宽网格划分基础上,利用同一维坐标间的距离差与相似性约束阈值e进行比较,可以明显地减少候选集的数量,也证明了六边形划分是所有正多边形全覆盖中最优的划分方法.实验结果表明:
摘要:Web已成为一个浩瀚的信息海洋,其信息分散在不同的数据源中.不同数据源常常为同一对象实体提供冲突的属性值.如何从这些冲突属性值中找到真值被称为真值发现问题.根据属性值数量可将对象属性分为单值属性和多值属性,现有的多数真值发现算法对单值属性的真值发现比较有效.针对多值属性的真值发现问题,提出了一个多真值发现方法MTruths,该方法将多真值发现问题转化为一个最优化问题,其目标是:各对象的真值与各数据源提供的观察值之间的相似性加权和达到最大.对象真值求解过程中,提出2种方法求真值列表的最优解:基于枚举的方法和贪心算法.与已有方法不同的是MTruths可以直接得到对象的多个真值.最后,通过图书和电影2个真实数据集上的实验表明,MTruths的2种实现方法的准确性以及贪心算法的效率优于现有真值发现方法.
摘要:云计算服务组合是从众多分布在不同云计算平台上的远程服务中选择合适的组件服务来构建可伸缩的松耦合的增值应用.传统的服务组合方法通常将服务选择与服务组合分阶段进行,由于云计算环境的动态性和服务自身演化的随机性,不能保证选择阶段性能最优的服务在组合服务执行阶段依然是最优的.考虑到云计算环境服务组合的动态性和随机性,建立基于部分可观测Markov决策过程(partiallyobservableMarkovdecisionprocess,POMDP)的服务组合模型SC_POMDP(servicecompositionbasedonPOMDP),并设计用于模型求解的Q学习算法.SC_POMDP模型在组合服务运行中动态地进行服务质量(qualityofservice,QoS)最优的组件服务选择,且认为组合服务运行的环境状态是不确定的,同时SC_POMDP考虑了组件服务间的兼容性,可保证服务组合对实际情境的适应性.仿真实验表明,所提出的方法能成功地解决不同规模的服务组合问题,在出现不同比率的服务失效时,SC_POMDP仍然能动态地选择可用的最优组件服务,保证服务组合能成功地执行.与已有方法相比,SC_POMDP方法所选的服务有更优的响应时间和吞吐量,表明SC_POMDP可有效地提高服务组合的自适应性.