发表咨询:400-808-1731
订阅咨询:400-808-1751
北大期刊
影响因子 0.51
人气 23708
北大期刊
影响因子 0.94
人气 20375
部级期刊
影响因子 1.03
人气 13561
北大期刊
影响因子 3.18
人气 11665
统计源期刊
影响因子 0.55
人气 11074
北大期刊
影响因子 0.79
人气 9738
省级期刊
影响因子 0.41
人气 9514
省级期刊
影响因子 0.57
人气 9457
省级期刊
影响因子 0.15
人气 9282
统计源期刊
影响因子 0.47
人气 8425
摘要:朴素贝叶斯算法的主要特征是分类速度快而分类精度较低,算法的目标是在传统贝叶斯文本分类算法的前提下达到令人满意的分类精度,并进一步提高分类速度.算法的技术手段包括在原有多项式贝叶斯模型的基础上建立简化的贝叶斯实现模型,建立仅包含单词在类别中信息的类别特征信息数据库和优化lidstone修正因子等.算法实验在Reuters-21578测试语料集上进行.结果表明,与相关文献相比,分类速度明显高于对比算法,且精度优于或近于相关文献的改进贝叶斯算法.
摘要:针对传统的TFIDF模型计算根集(root set)文档特征权重的不适应性,提出了计算文档特征权重的新方法--TFIDF-2模型.另外,给出3种启发式规则用于获取根集文档的质心向量.通过计算文档与质心之间的相似度进行文本分类只是质心的一个初步应用.在这个过程中,提出了一种计算文档与质心之间相似度的新方法.通过一系列的对比实验,分析验证了此种分类方法比传统的分类算法更准确、更高效.最后,验证了将本体与质心相结合提取未标识数据集中相关文档的有效性.
摘要:MODIS资料云分类在大气和地表参数反演中有着十分重要的作用.首先利用NASA的MOD35云掩模产品将水体和陆地等晴空型下垫面从云图中分离出来,然后利用多光谱阈值法将云图中其他的所有云类进行初始化分类,最后应用基于最大似然和分类矩阵的动态聚类算法,对MODIS云图实现了云分类,主要云类有积雨云、卷云、高云、中云、低云.针对夏季我国东南沿海地区的实验结果表明了算法的有效性.
摘要:提出了一种基于实数编码遗传算法的改进支持向量机.针对二进制遗传算法求解分类问题的3点不足之处,提出了改进算法.该算法在问题的约束中引进核函数,将问题映射到高维空间,成为线性问题后求解,从而使算法不仅适合解线性问题,也适合解非线性问题;引进Reduced SVM思想,仅用数据集的1%~10%的样本信息就能求出分类问题的分划超平面,从而大大降低了问题的复杂性;最后采用实数编码的遗传算法求解,节省了两次编码-解码转换所占据的运行时间.给出了算法的迭代步骤,数值实验表明该改进的算法是有效的,理论证明该算法确实是收敛的.
摘要:提出一种基于用户指导的多关系关联规则挖掘算法,对传统的关联规则挖掘方法进行拓展,借鉴元组ID传播的思想使多表间无需物理连接而能直接进行关联规则挖掘,并引入了用户指导的概念,提高了用户的满意程度及挖掘的效率和精确度.该算法能够直接支持关系数据库,且运行时间远远小于基于ILP技术的多关系关联规则挖掘算法.
摘要:句法分析的结果用于问题分类的特征提取,可突出问题分类的主要特征.针对问题分类中对把握句子中心结构的要求较高,而对修饰性成分的分析要求较低的特点,提出一种基于二元组合文法的句法分析.分析过程中以算子之间的优先级约束中心词信息的组合限制句子结构的生成.实验中在人工归纳的300余种二元算子的基础上实现了该文法的句法分析.实验结果证明,由于优先级的限制,句法分析过程中去掉了大部分的歧义结构.该方法有利于提高句子中心词的分析正确率,进而提高问题分类的性能.
摘要:尽管模式识别分类方法已经发展得比较成熟,然而,诸如反向传播算法(BP)、Bayesian方法、支持向量机法(SVM)、自组织映射法(SOM)等经典分类方法,总是具有不同程度的武断特性.所谓武断,以人而言,就是针对某个问题,若决策者依据其经验作出"自信"的判决,而该判决远远超出其经验能力的水平,甚至是完全错误的,则说其决策是武断的.同样,经典的模式分类器表现出类似的武断特性.假定某个输入的特征向量,如果分类器的精度很高但经验很低,就说它在分类时是武断的.一个典型的表象是,对一个全新的、与原有训练样本差异显著的样本,传统分类器往往决然而错误地将其分成已知的类别.很显然,分类器的武断性是一种不受欢迎的性质.对多个经典分类器武断性特点进行了深入分析.
摘要:提出一种支持异构数据库集成的基于模式的元素分类技术,融合了基于语言和基于约束的分类方法,首先使用最大优先策略组合基于语言的分类算法形成复合元素名称分类器,然后将名称分类结果和元素模式约束转化为向量输入神经网络分类器,从而完成数据库元素分类.通过组合使用复合名称分类器和神经网络分类器,使得此方法可以应用于更复杂的分类环境.
摘要:数据流具有数据持续到达、到达速度快、数据规模巨大等特点,这些都给数据流挖掘领域研究工作带来了新挑战,而其中分类算法更是当前的研究热点. Domingos等人在VFDT中利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决策树的问题. Gama等人对VFDT进行扩展并实现了VFDTc,使系统能够处理连续属性,并在叶节点采用了贝叶斯分类算法使分类精度更高.基于VFDT和VFDTc,设计并实现了一种基于线索化二叉排序树的决策树分类新算法VFDTt,其主要贡献有如下3点:1)第1次设计并实现了数据流上的基于线索化二叉排序树(TBST)的连续属性处理方法.相比VFDT,VFDTt的样本插入时间复杂度由O(n2)降低到O(nlogn).当新样本到达时,VFDTc需要更新O(logn)个属性节点,而VFDTt只需要更新相应的一个节点即可. 2)改进了VFDTc连续属性的最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n). 3)相比VFDTc,VFDTt只需从更少的备选划分节点中选取最佳节点,备选划分节点数由O(n)降低到O(logn).
摘要:在对实际数据进行分类求解时,往往会遇到大量未带类别标注的样本,现有的经典分类方法常采用先标注缺失样本,再进行分类,存在耗时且分类精度差等问题.为此,提出一种基于主动学习思想贝叶斯分类方法RANB. 引入主动学习旨在减少评价样本所需代价,提高分类器性能. RANB方法在主动学习策略的基础上融入条件熵和分类损失的思想,可以有效抑制不确定样本所带来的误差.实验表明,该方法与朴素贝叶斯分类器等经典方法相比,在保证分类性能的前提下,可有效地减少学习所需的样本数量,尤其是对于未带类别标志的样本,更是有其优越性.
摘要:对新出现的恶意代码进行快速准确的分类有利于提高对它们的分析效率,从而缩短应急响应时间.提出了一种分支序列模型用来描述恶意代码对系统函数的调用行为,同时介绍了计算这种分支序列间距的算法,基于此距离采用kNN算法对恶意代码进行分类测试的结果表明,介绍的分支序列模型能更加有效地描述恶意代码对系统函数的调用行为,从而提高了对恶意代码的分类准确度.
摘要:文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进.
摘要:多数分类方法基于数据服从静态分布的假设,然而真实世界中数据的采集通常跨越一段时间,如果忽略潜在概念的变化将会严重降低分类模式的预测性能.目前挖掘概念变化的数据流已经成为研究的热点,在入侵检测、系统性能保持等方面有重要应用.提出一种基于SPRINT的在线分类方法SSPRINT,可以动态调整训练窗口的尺寸和分类模型重建期间允许接受的新样本的个数,以自动适应当前概念变化发生的速度;在网络性能数据流上的测试验证了SSPRINT的性能.
摘要:k-means聚类是聚类划分中应用最广泛的一种方案,但是现在许多关于此问题的研究并没有给出近似比为常数的算法.给出了一个随机算法,该算法通过以不同概率选取初始k个点,保证了以一定概率分别属于不同最优聚类簇的k个点.以这k个点作为初始中心点对输入点集进行交换分别执行局部搜索算法,证明了可得到近似比至多为2的解.实验结果表明该算法能够取得较优的近似解结果.
摘要:为了解决动态网格划分技术中聚类结果对数据输入顺序的依赖性和聚类精度差的问题,提出了基于移动技术的动态网格聚类算法(grid-based clustering algorithm based on shifting technology, GLASS).该聚类算法主要利用了动态网格划分技术和移动网格技术来解决上述问题,且能够识别任意形状、任意大小的聚类,只需一个参数,且时间复杂度是数据集大小和数据维度的线性函数.实验结果表明该算法是有效的.
摘要:Web检索结果聚类用于检索结果的组织,以方便用户的浏览.从一个新的角度审视检索结果聚类.通过分析检索结果的特点,由此提出计算检索结果中的词语与用户输入的关键词拱现程度,然后根据共现程度高的词语确定基类,最后利用类标签的语聚类得到层次聚类结果.此基于词间共现度及词语语义的新方法为Web检索结果聚类提供了一个新的思路.
摘要:随着网络的广泛应用,大量的数据将分布存在.由于网络带宽、站点存储量等一系列限制,分布式聚类分析成为具有挑战性的研究课题.人们已经提出了若干分布式聚类方法,但这些方法效率低下.对分布式聚类算法k-Dmeans进行改进,提出了分布式聚类算法Dk-means. 该算法只传送各站点的聚簇信息,有效降低了分布式聚类过程中的数据通信量.理论分析和实验结果表明,算法Dk-means的效率优于k-Dmeans,并且可达到与k-means等效的聚类质量.
摘要:传统的划分聚类算法必须指定簇的数量且聚类结果受初始条件的影响较大.针对此缺点,提出了一种基于PSO和K-means的混合动态聚类算法--DKPSO,运行过程中能够自动确定聚类簇的最佳数量.此算法在初始时将聚类数据划分为较多数量的簇以减少初始条件的影响,然后使用离散PSO算法不断优化簇的数量并使用K-means算法进一步优化每个粒子代表的聚类中心.为了提高收敛速度,对算法进行了的改进,使每个粒子的惯性权重随迭代次数非线性自适应地调整.最后通过实验对算法的有效性进行了验证,并给出实验结果.