发表咨询:400-808-1731
订阅咨询:400-808-1751
北大期刊
影响因子 0.51
人气 23554
北大期刊
影响因子 0.94
人气 20241
省级期刊
影响因子 0.3
人气 17043
部级期刊
影响因子 1.03
人气 13495
统计源期刊
影响因子 1.71
人气 12515
CSSCI南大期刊
影响因子 5.52
人气 11798
统计源期刊
影响因子 0.55
人气 10972
北大期刊
影响因子 0.62
人气 10618
省级期刊
影响因子 0.42
人气 10370
统计源期刊
影响因子 1.29
人气 9877
摘要:个性化信息服务提高了Web查询精度,但同时也带来数据隐私保护的问题.尤其在面向服务的架构(SOA)中,部署个性化应用时,如何解决隐私保护,这对于个性化服务是一个挑战.随着隐私安全成为微数据过程中越来越重要的问题,好的匿名化算法就显得尤为重要.论文总结了前人研究中考虑到准标识符对敏感属性影响的k-匿名算法,提出了直接通过匿名化数据计算准标识符对敏感属性效用的方法以及改进的效用矩阵,同时为了更好地衡量匿名化数据的信息损失,论文中提出了改进的归一确定性惩罚的评价指标,从匿名化数据隐私安全的角度进行分析,实现了改进L-diversity算法,即基于信息损失惩罚的满足L-diversity的算法.它是准标识符对不同敏感属性效用的、并具有较好隐私安全的改进算法.
摘要:实现加密数据的高效安全查询是保证可信数据库安全性和实用性的关键.与目前加密数据查询采用的静态密文分段方法不同,论文基于加密数据的分布和用户查询类型、分布规律,提出了一种自适应加密索引AEI(Adaptive Encrypted Index),实现面向服务的加密数据查询.AEI通过分析查询服务对查询性能的影响,根据承载服务特性、密文数据分布、用户查询分布采用自适应的加密索引划分策略,获得更好的加密数据查询性能.基于AEI方法可在可信数据库环境下实现密文数据查询,并通过了相关性能测试.实验数据表明,与其它加密数据查询方法相比,AEI方法具有更好的适应性和更高的加密数据查询效率.
摘要:基于purpose的查询技术是关系数据库对隐私数据访问控制的基础,目前大多数研究都仅仅关注在独立隐私保护数据库环境下,如何建立有效的基于purpose的隐私数据访问控制模型.但随着分布应用整合和数据共享需求的日益增长,如何合并独立应用下基于purpose访问控制模型的问题就应运而生.为解决这一问题,文章提出了多应用系统集成环境下基于融合purpose的隐私数据访问控制实现机制.文章首先分析了由于合并独立purpose模型而引起的潜在隐私数据查询泄漏,提出了合并后的purpose树是一棵隐私泄漏风险树,并给出了树结点隐私风险度的计算模型.其次,将隐私泄漏风险树分解成一棵所有结点风险度为0的风险平衡树以及一组由风险度不为0的结点组成的风险路径.这样,一个查询可被改写为先对风险平衡purpose树的查询,再对风险路径查询,以此达到隐私泄漏风险最小的安全查询结果.文章给出了3组实验的结果:(1)对于同一用户同一查询,在不同purpose模型下的查询时间比较.文章提出的模型并没有在查询时间上带来更大的开销.(2)对RPPAAC模型防止隐私数据泄漏的有效性验证.文中的模型可降低由应用整合引起访问控制机制不平衡所带来的隐私数据泄漏风险.(3)不同情况下purpose融合的执行时间比较.文章与相关研究的不同之处是将purpose作为隐私数据的载体、purpose树的路径作为隐私数据的传递通道,引入了显性隐私度和隐性隐私度的计算模型,评估基于一个purpose查询可能带来的隐私泄漏风险,进而提出了多应用系统集成环境下基于融合purpose的隐私数据访问控制实现机制.
摘要:当前,流程驱动的信息系统构建方式得到了越来越广泛的应用.在流程驱动的方式中,流程模型对数据模型有着不可忽视的影响.但是当前的数据模型异常检测方法都是针对数据模型本身的特点而未考虑流程模型.同样,流程模型的验证方法也缺乏对数据模型的考虑.文中提出并分析了面向业务流程的数据模型的异常问题,并给出了其3种基本类型.为了检测这些异常,文中提出了Data-process Graph(DP-Graph)模型,将数据模型和流程模型放在统一的架构下进行研究.而后,基于DP-Graph,文中提出了DPGT算法,有效地实现了面向业务流程的数据模型异常检测.文章中的实验结果验证了DPGT算法对于这些异常的高检出率.
摘要:近年来,基于位置的服务获得了越来越广泛的关注,其中最近邻查询是最常用的一种查询方式.测量手段的不准确性以及数据本身的性质导致不确定性在位置数据中普遍存在,这种不确定性会对最近邻查询结果产生影响.空间中障碍物的存在也给空间数据查询带来了挑战.文中研究存在障碍物的空间中不确定对象连续最近邻查询的处理方法,设计了一种剪枝策略大幅降低需要计算的不确定对象数目,并进一步提出了障碍空间中不确定对象最近邻查询安全区域的概念及安全区域生成算法.设计了安全区域的索引存储方法.实验结果表明,文章所提出的方法具有良好的效率和可扩展性.
摘要:文中围绕传统的协同过滤推荐算法存在的局限性展开研究,提出一种不确定近邻的协同过滤推荐算法UNCF.根据推荐系统应用的实际情况,对于推荐的每一种场景其实都是不可预先确定的,而文中算法基于用户以及产品的相似性计算,自适应地选择预测目标的近邻对象作为推荐群,同时计算推荐群中推荐把握概率较高的信任子群,最后通过不确定近邻的动态度量方法,来对预测结果进行平衡的推荐.通过实验结果表明,该算法可以有效平衡用户群以及产品群推荐结果所带来的不稳定影响,有效缓解用户评分数据稀疏的情况所带来的问题,并在多个实验数据中,提高了推荐系统的预测准确率.
摘要:图的可达性查询被广泛应用于生物网络、社会网络、本体网络、RDF数据库和XML数据库等.由于对数据操作时引入的噪声和错误使这些图数据具有不确定性,已经有大量的针对不确定RDF和XML数据库的研究.文中使用可能世界语义模型构建不确定图,基于该模型,研究了概率可达查询(PR).处理PR查询是#P完全问题,对此文中首先给出一个基本随机算法,可快速地估算出可达概率,并且该值有很高的精确度.进一步,文中为随机算法引入条件分布(称为"条件随机算法"),采用图的不相交路径集和割集作为条件概率分布,因此改进的随机算法可准确地并且是在多项式时间内处理查询.最后基于真实不确定图数据的大量实验结果验证了文中的设计.
摘要:由于不确定图蕴含了指数级的可能图实例,基于确定图模型的频繁图模式挖掘算法通常难以在不确定图集合上高效运行.文中提出了一种不确定图数据集上的基于随机游走的K极大频繁子模式挖掘算法.首先,将每个不确定图转换为相应的确定图并挖掘候选频繁模式;然后,将候选频繁模式恢复为不确定图并生成极大频繁模式搜索空间;最后,通过随机游走以相同概率随机地选择K个极大频繁模式.理论分析和实验结果表明文中提出的算法能够高效地获得不确定图集合的K-极大频繁模式.
摘要:已有道路网中的连续k近邻查询处理算法采用增量式的查询处理机制,当数据频繁更新时性能急剧下降.结合多核多线程技术,提出了一种基于多线程的连续查询处理框架.该框架周期性重计算所有查询结果,将查询处理分为顺序执行的数据更新阶段和查询执行阶段,分别使用任务并行和数据并行的方法执行各阶段的操作.设计了数据更新阶段使用的数据结构,提出了查询处理阶段的k近邻查询处理策略,包含离线预计算和在线k近邻查询处理算法两个部分.对k近邻算法复杂性及多线程处理框架的加速比进行了理论分析.实验结果表明,提出的算法在数据频繁更新下,串行执行时性能优于已有算法,而基于多线程处理框架的并行执行在任何参数配置下性能均优于已有算法;且基于多线程处理框架的并行执行具有较好的性能扩展性,加速比可以达到1.51~1.7.
摘要:在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合.文中详细地分析了NRA算法的执行行为,确定了增长阶段和收缩阶段中每个文件需要扫描的元组个数.文中发现在海量数据环境中,NRA在增长阶段需要维护大量的候选元组,严重影响了算法的执行效率.所以,文中提出一种新的海量数据上的top-k查询算法TKEP,该算法在查询的增长阶段就执行早剪切,从而大大减少增长阶段需要维护的候选元组.文中给出了早剪切操作的数学分析,确定了早剪切操作的理论和实际剪切效果.据作者所知,该文是第一篇提出在top-k查询的增长阶段执行早剪切的文章.实验结果表明,和传统的NRA相比,TKEP在增长阶段维护的元组数量减少3个数量级,需要的内存量减少1个数量级,TKEP算法获得1个数量级的加速比.
摘要:在数据挖掘领域,传统的单分类和多分类问题已经得到了广泛的研究.但是多标签数据的普遍存在性和重要性直到近些年来才逐渐得到人们的关注.在多标签分类问题中,由于标签相关性的存在,传统的单分类和多分类问题的解决方法,无法简单地应用于多标签分类问题.文中提出了一种基于随机游走模型的多标签分类算法,称为多标签随机游走算法.首先,将多标签数据映射成为多标签随机游走图.当输入一个未分类数据时,建立一个多标签随机游走图系列.而后,对图系列中的每个图应用随机游走模型,得到遍历每个顶点的概率分布,并将这个点概率分布转化成每个标签的概率分布.最后,基于多标签随机游走算法,文中给出了一种新的阈值学习算法.真实数据集上的实验表明,多标签随机游走算法可以有效地解决多标签分类问题.
摘要:频繁项集是通过对大规模数据进行挖掘获取的代表数据模式的知识结构.非可导频繁项集作为频繁项集的有效压缩方式,能够高效深入地挖掘海量数据、稠密数据与数据流当中的规律.针对项集在计算界限值时代价昂贵的缺点,提出了近似可导项集的概念,并基于纵向数据格式实现了挖掘算法MANDI,能够提高支持度计算和项集间操作的速度.另外,为了满足数据流实时、快速的特点,讨论并证明了近似可导项集的增量性质,提出了可动态更新的算法UANDI.通过实验验证了两种算法的可行性和有效性.
摘要:个性化推荐系统能基于用户个人兴趣为用户提供定制信息.此类系统通常使用协同过滤技术实现,其中一种广泛使用的经典模型是基于用户评分相似度的k近邻模型.使用k近邻模型需要预先计算出用户或者项目的k个最近邻居,k值过大时会导致计算量过大而影响推荐产生的实时性,而k值过小则会导致推荐精度下降.为解决此问题,该文中提出了一种新的最近邻度量——相似度支持度.基于相似度支持度,该文提出了数种能够在保持推荐精度和密度的前提下维持合理规模的k近邻的策略.在真实大规模数据集上的实验结果表明,相比传统算法,该文提出的策略能够在保证推荐精度的前提下大幅降低计算复杂度.
摘要:文中为对象数据库提出了一种新的索引结构——路径导航索引(Path Navigation Index,PNI),能够克服路径表达式计算开销大的缺点,使对象数据库跨类查询与对象查询具备高效的查询性能.PNI索引建立在层次的路径实例之上,包括Path-Instance-Table,Identity-Index和Attribute-Index3个组成部分.Path-Instance-Table能够物化存储路径实例,避免查询处理过程中冗余的对象导航遍历.Identity-Index与Attrib-ute-Index用于对路径实例进行关联检索,能够避免对象导航过程中的条件判断.通过实验分析了影响路径表达式计算的不同因素,实验结果表明,利用PNI索引计算路径表达式的方法在多数情况下性能要优于现有计算方法,尤其适用于带谓词的路径表达式计算.
摘要:现有的各种基于闪存的缓冲区管理算法针对闪存读写代价的不对称性进行改进,实际中既存在同一闪存读写代价的不对称性问题,也存在不同闪存不对称性之间的巨大差异性问题,而后者一直没有得到足够的重视.文章提出一种基于闪存硬盘(SSD)的自适应缓冲区管理算法FClock,FClock将数据页组织为两个环形数据结构(CC和DC),分别用于存储缓冲区中的只读数据页和已修改数据页.当需要选择置换页时,FClock使用基于代价的启发式来选择置换页,可在未修改的数据页和已修改的数据页之间进行公平的选择,适用于不同种类的SSD.针对数据库、虚存和文件系统中数据页访问存在高相关性的特点,提出基于"平均命中距离"的访问计数方法来调整数据页的访问频率.基于不同SSD和不同存取模式的实验结果说明,FClock的综合性能优于已有方法.
摘要:云计算环境下面向流程的数据密集型应用已被广泛应用于多个领域.面对多数据中心的云计算环境,这类应用在数据布局方面遇到了新的挑战,主要表现在如何减少跨数据中心的数据传输、如何保持数据间的依赖性以及如何在提高效率的同时兼顾全局的负载均衡等.针对这些挑战,文中提出一种三阶段数据布局策略,分别针对跨数据中心数据传输、数据依赖关系和全局负载均衡三个目标对数据布局方案进行求解和优化.实验显示,文中提出的数据布局策略具有良好的综合性能,特别是在降低流程执行过程中由跨数据中心数据传输所导致的时间开销方面,效果尤为明显.
摘要:数据流的模式查询具有很高的领域价值,它不仅需要较高的抗噪能力和实时性,而且查询目标模式还具有可伸缩性,即由多个子模式复合而成,且某些子模式可重复、缺失或倒置.文中提出一种可伸缩模式的查询(SPQ)方法,允许用户定义目标模式并设置可伸缩条件.然后在查询处理中通过模式匹配生成模式流,进而完成满足可伸缩条件的目标模式查询.在真实数据集上进行的实验从查全率、查准率和处理效率上证明了SPQ方法是可行和灵活的.
摘要:针对多核处理器的特点,文章提出了一个符合MySQL接口标准的并行存储引擎MTPower.该存储引擎着重利用多核处理器的并行计算能力提升批量插入过程中的索引产生过程,主要包含存储引擎接口、并行批量线性Hash索引、并行批量B+树插入、支持并行访问的磁盘存储缓冲等部分.测试结果表明,在批量插入记录且需要创建Hash和B+树索引时,MTPower的性能比经典的单线程存储引擎MyISAM最高可以提高6.1倍和4.8倍;在系统中线程总数略大于处理器核数时,MTPower可以达到最佳性能;在处理器核的数量增加时,MTPower的性能也能随之提高.