发表咨询:400-808-1731
订阅咨询:400-808-1751
省级期刊
影响因子 0.3
人气 17857
部级期刊
影响因子 0.38
人气 12781
统计源期刊
影响因子 1.71
人气 12610
CSSCI南大期刊
影响因子 5.52
人气 12116
北大期刊
影响因子 3.18
人气 11664
北大期刊
影响因子 0.62
人气 10736
省级期刊
影响因子 0.42
人气 10495
统计源期刊
影响因子 1.29
人气 9955
省级期刊
影响因子 0.67
人气 9376
CSSCI南大期刊
影响因子 1.11
人气 8567
摘要:随着World Wide Web的飞速发展,出现了越来越多的可以在线访问的数据库,我们把这些数据库称作Web数据库.据统计,目前Web数据库的数量已经超过了45万个,在此基础上构成了Deep Web.Deep Web蕴含了大量有用的信息,其价值远远超过了仅由网页构成的Surface Web.但由于对Web数据库的访问只能通过其提供的查询接口,因此很难被一般的搜索引擎获取到.由于DeepWeb的大规模性、动态性以及异质性等特点,通过手工方式远远不能在效果和效率上满足用户对信息获取的需要.为了帮助人们快速、准确地利用DeepWeb中的海量信息,研究者们已经在DeedWeb数据集成方面展开了研究.这逐渐成为数据库领域的一个研究热点.
摘要:Web数据库中,海量的信息隐藏在具有特定查询能力的查询接口后面,使人无法了解一个Web数据库内容的特征,比如主题的分布、更新的频率等,这就为Deepwleb数据集成带来了巨大的挑战_为了解决这个问题,提出了一种基于图模型的Web数据库采样方法,可以通过查询接口从Web数据库中以增量的方式获取近似随机的样本,即每次查询获取一定数量的样本记录,并且利用已经保存在本地的样本记录生成下一次的查询.该方法的一个重要特点是不受查询接口中属性表现形式的局限,因此是一种一般的Web数据库采样方法.在本地的模拟实验和真实Web数据库上的大量实验表明,该方法可以在较小代价下获得高质量的样本.
摘要:分析了常见的实体识别方法,提出了一种基于语义及统计分析的实体识别机制(deep Web entityidentification mechanism based on semantics and statistical analysis 简称SS-EIM),能够有效解决DeepWeb数据集成中数据纠错、消重及整合等问题.SS-EIM主要由文本匹配模型、语义分析模型和分组统计模型组成,采用文本粗略匹配、表象关联关系获取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义信息及约束规则来不断精化识别结果;根据可获取的有限的实例信息,采用静态分析、动态协调相结合的自适应知识维护策略,构建和完善表象关联知识库,以适应Web数据的动态性并保证表象关联知识的完备性.通过实验验证了SS-EIM中所采用的关键技术的可行性和有效性.
摘要:当前,Web上的很多网页是动态生成的'网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽取出来.给出了模板检测问题的形式化描述,并深入分析模板产生网页的结构特征.提出了一种新颖的模板检测方法,并利用检测出的模板自动地从实例网页中抽取数据与其他已有方法相比,该方法能够适用于“列表页面”乖“详细页面”两种类型的网页.在两个第三方的测试集上进行了实验,结果表明,该方法具有很高的抽取准确率.
摘要:提出了一种基于词频统计的方法以估算Web数据库的规模.通过分析Web数据库查询接口中属性之间的相关度来获取某个属性上的一组随机样本;并对该属性分别提交由前k位高频词形成的试探查询以估算Web数据库中记录的总数.通过在几个真实的Web数据库上进行实验验证,说明该方法可以准确地估算出Web数据库的大小.
摘要:借鉴语义Web领域中深度标注的思想,提出了一种对Web数据库查询结果进行语义标注的方法.为了获得完整且一致的标注结果,将领域本体作为Web数据库遵循的全局模式引入到查询结果语义标注过程中.对查询接口及查询结果特征进行详细分析,并采用查询条件重置的策略,从而确定查询结果数据的语义标记通过对多个不同领域Web数据库的测试,在具有领域本体支持的条件下,该方法能够对Web数据库查询结果添加正确的语义标记,从而验证了该方法的有效性.
摘要:在深度网研究领域,通用搜索引擎(比如Google和Yahoo)具有许多不足之处:它们各自所能覆盖的数据量与整个深度网数据总量的比值小于1/3;与表层网中的情况不同,几个搜索引擎相结合所能覆盖的数据量基本没有发生变化.许多深度网站点能够提供大量高质量的信息,并且,深度网正在逐渐成为一个最重要的信息资源.提出了一个三分类器的框架,用于自动识别特定领域的深度网入口.查询接口得到以后,可以将它们进行集成,然后将一个统一的接口提交给用户以方便他们查询信息.通过8组大规模的实验,验证了所提出的方法可以准确高效地发现特定领域的深度网入口.
摘要:研究了Deep Web集成环境中构件的依赖关系(执行偏序依赖和知识依赖),并在此基础上提出了一种基于知识的环境变化的处理方法,包括Deep Web集成环境变化处理模型以及适应Deep Web环境变化的动态体系结构和处理算法,可以对大规模Deep Web集成的进一步探索和走向应用提供参考.实验结果表明,该方法不仅可以处理Deep Web环境的变化,还可以大幅度提高集成系统的性能.
摘要:讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程.给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法.基于上述预处理,给出了计算Deep Web数据库的K-NN(k nearest neighbors)分类算法,其中对数据库之间语义距离计算综合了数据库表之间和合有数据库表的网页的内容文本之间的语义距离.分类实验给出算法对未预处理的网页和经过预处理后的网页在数据库分类精度、查全率和综合F1等测度上的分类结果比较.
摘要:提出了基于页面Block对Web页面的采集和存储方式,并详细表述了该方法如何完成基于布局页面分区、Block主题的抽取、版本和差异的比较以及增量存储的方式.实现了一个Web归档原型系统,并对所提出的算法进行了详细的测试.理论和实验表明,所提出的基于页面Block的Web档案(Web archive)采集和存储方法能够很好地适应Web档案的管理方式,并对基于Web档案的查询、搜索、知识发现和数据挖掘等应用提供有利的数据资源.
摘要:目前,查询性能预测(predicting query performance,简称PQP)已经被认为是检索系统最重要的功能之一.近几年的研究和实验表明,PQP技术在文本检索领域有着广阔的发展前景和拓展空间.对文本检索中的PQP进行综述,重点论述其主要方法和关键技术.首先介绍了常用的实验语料和评价体系;然后介绍了影响查询性能的各方面因素;之后,按照基于检索前和检索后的分类体系概述了目前主要的PQP方法;简介了PQP在几个方面的应用;最后讨论了PQP所面临的一些挑战.
摘要:通过基于主动决策引擎日志的数据挖掘来找到分析规则的CUBE使用模式,从而为多维数据实视图选择算法提供重要依据;在此基础上设计了3A概率模型,并给出考虑CUBE受访概率分布的视图选择贪婪算法PGreedy(probability greedy),以及结合视图挽留原则的视图动态调整算法.实验结果表明,在实时主动数据仓库环境下,PGreedy算法比BPUS(benefit per unit space)算法具有更好的性能.
摘要:针对数据共享环境多数据源选择MDSS(multiple data sources selection)问题,基于Pareto最优理论提出了MDSSA(MDSS algorithm)算法.该算法借助崭新的基于法线测量的非线性路径代价方程计算出到每个数据源的最优路径集合,进而通过代价对比确定实施数据访问的最佳数据源及路径,极大地缩小了搜索空间,在搜索到有效路径的同时,确保了算法的响应时间.大量仿真实验表明,MDSSA算法是有效的.
摘要:提出一种基于数据库模式的数据库关键词检索结果展现方法S-CBR(schema-based classification,browsing and retrieving),包括结果分类、用户浏览和再次检索3个过程.S-CBR首先利用数据库模式和查询关键词自动产生第一级类别,将检索结果分配到各个类中;对于比较大的类,按关键词节点内容进行第二级分类;另外赋给每个类别一个类别描述,并将类别描述和每个结果图形化地展现出来,使用户容易阅读和理解检索结果.用户还可以根据S-CBR提供的结果类别模式信息对感兴趣的类别作进一步检索,以尽快找到所需结果或获取更多的相关结果.实验证明了S-CBR方法的有效性.
摘要:包括计数算子在内的属性构造技术往往能够提高数据挖掘模型的预测精度,但不加条件地使用会导致属性关系不一致问题.为解决此问题,在提出了属性关系一致等3个属性构造原则后,给出了在时序相关模型下避免属性关系不一致问题的新算法——时序计数算子.时序增量计数算子在满足其假设条件下,可以较小的代价显著地降低时序计数算子的高计算成本.实验结果验证了上述结论.
摘要:提出了一种SVM+BiHMM的混合元数据自动抽取方法.该方法基于SVM(support vector machine)和二元HMM(bigram HMM(hidden Markov model),简称BiHMM)理论.二元HMM模型BiHMM在保持模型结构不变的前提下,通过区分首发概率和状态内部发射概率,修改了HMM发射概率计算模型.在SVM+BiHMM复合模型中,首先根据规则把论文粗分为论文头、正文以及引文部分,然后建立SVM模型把文本块划分为元数据子类,接着采用Sigmoid双弯曲函数把SVM分类结果用于拟合调整BiHMM模型的单词发射概率,最后用复合模型进行元数据抽取.SVM方法有效考虑了块间联系,BiHMM模型充分考虑了单词在状态内部的位置信息。二者的元数据抽取结果得到了很好的互补和修正,实验评测结果表明,SVM+BiHMM算法的抽取效果优于其他方法.
摘要:在Web应用环境中,可以通过RDF(S)形式描述企业领域内分布信息资源的语义,以提高信息查询的准确性.提出了描述分布异构RDF(S)的分布RDF(S)模型,并基于这一模型给出了实现分布RDF(S)查询的方法,此查询方法既能实现实例层次的查询,也能实现概念层次的查询.基于这一方法,用户能够以统一的形式来查询,获取相关的信息资源,同时还可以实现分布RDF(S)的集成.