发表咨询:400-808-1731
订阅咨询:400-808-1751
北大期刊
影响因子 0.51
人气 23556
北大期刊
影响因子 0.94
人气 20241
省级期刊
影响因子 0.3
人气 17058
部级期刊
影响因子 1.03
人气 13498
统计源期刊
影响因子 1.71
人气 12518
CSSCI南大期刊
影响因子 5.52
人气 11812
统计源期刊
影响因子 0.55
人气 10976
北大期刊
影响因子 0.62
人气 10630
省级期刊
影响因子 0.42
人气 10373
统计源期刊
影响因子 1.29
人气 9877
摘要:简要地回顾了代价敏感学习的理论和现有的代价敏感学习算法.将代价敏感学习算法分为两类,分别是直接代价敏感学习和代价敏感元学习,其中代价敏感元学习可以将代价不敏感的分类器转换为代价敏感的分类器.提出了一种简单、通用、有效的元学习算法,称为经验阈值调整算法(简称ETA).评估了各种代价敏感元学习算法和ETA的性能.ETA几乎总是得到最低的误分类代价,而且它对误分类代价率最不敏感.还得到了一些关于元学习的其它有用结论.
摘要:Tri—training能有效利用无标记样例提高泛化能力.针对Tri—training迭代中无标记样例常被错误标记而形成训练集噪声,导致性能不稳定的缺点,文中提出ADE-Tri—training(Tri—trainingwithAdaptiveDataEditing)新算法.它不仅利用RemoveOnly剪辑操作对每次迭代可能产生的误标记样例识别并移除,更重要的是采用自适应策略来确定RemoveOnly触发与抑制的恰当时机.文中证明,PAC理论下自适应策略中一系列判别充分条件可同时确保新训练集规模迭代增大和新假设分类错误率迭代降低更多.UCI数据集上实验结果表明:ADE-Tri-training具有更好的分类泛化性能和健壮性.
摘要:基于广义特征值的最接近支持向量机(Proximal Support VectorMachinevia Generalized Eigenvalues,GEPSVM)是一种新的具有与SVM性能相当的两分类方法,通过求解广义特征值来获得两个彼此不平行的拟合两类样本的超平面.其决策是将测试样本归为距其最近的超平面所在的类.然而,该规则在某些情形会导致较差的分类结果.对此,在GEPSVM基础上,通过在类拟合超平面上寻找一个包含了所有训练样本投影的局部凸区域,来决定样本的类别.该局部方法不仅具有较GEPSVM更优的分类性能,同时还衍生出了求解超平面上凸壳的简单且易于核化的新算法.最后在人工和UCI数据集上获得了验证.
摘要:理解数据与感知数据密切相关.覆盖学习算法在低维空间往往能模拟人的视觉感知来表示数据分布.文中综述了基于覆盖的分类算法的研究进展,特别对基于超曲面的覆盖分类算法进行了详细阐述和分析,并指出了基于超曲面的分类算法进一步研究的方向.
摘要:数据流具有数据持续到达、到达速度快、数据规模巨大等特点,这些都给数据流挖掘领域的研究工作带来了新挑战,而其中分类算法更是当前的研究热点.Domingos等在VFDT中利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决策树的问题.Gama等对VFDT进行扩展并实现了VFDTc,使系统能够处理连续属性.Peng等在传统数据挖掘环境下提出了基于模糊理论的连续属性平滑离散化方法.基于前述工作,作者设计并实现了一种基于线索化排序二叉树的增量模糊决策树分类算法fVFDT,其主要贡献有如下4点:(1)第一次设计并实现了数据流上的基于线索化二叉排序树(TBST)的连续属性处理方法.相比VFDT,fVFDT的样本插入时间复杂度由O(n^2)降低到O(nlogn).当新样本到达时,VFDTc需要更新O(10gn)个属性节点,而fVFDT只需要更新相应的一个节点即可;(2)改进了VFDTc连续属性的最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到0(n);(3)根据Fayyad等的研究成果,相比VFDTc,fVFDT只需从更少的备选划分节点中选取最佳节点,备选划分节点数由0(n)降低到0(10gn);(4)改进了传统数据挖掘环境下的基于模糊理论的连续属性平滑离散化方法,有效地处理了噪声数据,很好地提高了分类精度.
摘要:传统的决策树构建方法,由于其选择扩展属性时的归纳偏置,导致属性值较多的属性总会被优先选择,从而导致树的规模过大,并且泛化能力下降,因此需对其进行简化.剪枝是简化的一种,分为预剪枝和后剪枝.该文主要针对预剪枝中的分支合并进行研究.文中研究了分支合并对决策树归纳学习的影响;具体讨论了在决策树的产生过程中,选择适当的分支合并策略对决策树进行分钟合并处理后,能否增强树的可理解性,减少树的复杂程度以及提高树的泛化精度;基于信息增益,分析了分支合并后决策树的复杂程度,设计实现了一种基于正例比的分支合并算法SSID和一种基于最大增益补偿的分支合并算法MCID.实验结果显示:SSID和MCID所得到的决策树在可理解性和泛化精度方面均明显优于See5.
摘要:时间序列分类是时间序列数据分析中的重要任务之一.不同于时间序列分析中常用的算法与问题,时间序列分类是要把整个时间序列当作输入,其目的是要赋予这个序列某个离散标记.它比一般分类问题困难,主要在于要分类的时间序列数据不等长,这使得一般的分类算法不能直接应用.即使是等长的时间序列,由于不同序列在相同位置的数值一般不可直接比较,一般的分类算法依然还是不适合直接应用.为了解决这些难点,通常有两种方法:第一,定义合适的距离度量(这里,最常用的距离度量是DTW距离),使得在此度量意义下相近的序列有相同的分类标签,这类方法属于领域无关的方法;第二,首先对时间序列建模(利用序列中前后数据的依赖关系建立模型),再用模型参数组成等长向量来表示每条序列,最后用一般的分类算法进行训练和分类,这类方法属于领域相关的方法.长期以来,研究者往往只倾向于使用其中一种算法,而这两类算法的比较却比较缺乏.文中深入分析了这两类方法,并且分别在不同的合成数据集和实际数据集上比较了两类方法.作者观测到了两类算法在不同因素影响下的性能表现,从而为今后发展新的算法提供了有力依据.
摘要:数据挖掘中的隐私保护方法,试图在不精确访问原始数据详细信息的条件下,挖掘出准确的模式与规则.围绕着分类挖掘中的隐私保护问题展开研究,给出了一种基于数据处理和特征重构的朴素贝叶斯分类中的隐私保护方法.分别提出了一种针对枚举类型的隐私数据处理与特征重构方法——扩展的部分隐藏随机化回答(Extended Randomized Response with Partial Hiding,ERRPH)方法和一种针对数值类型的隐私数据处理与特征重构方法——转换的随机化回答(TransformingRandomizedResponse,TRR)方法,并在此基础上实现了一个完整的隐私保护的朴素贝叶斯分类算法.理论分析和实验结果均表明:朴素贝叶斯分类中基于ERRPH和TRR的隐私保护方法具有很好的隐私性、准确性、高效性和适用性.
摘要:KNN作为一种简单的分类方法在文本分类中有广泛的应用,但存在着计算量大和训练文档分布不均所造成的分类准确率下降等问题.针对这些问题,基于最小化学习误差的增量思想,该文将学习型矢量量化(LVQ)和生长型神经气(GNG)结合起来提出一种新的增量学习型矢量量化方法,并将其应用到文本分类中.文中提出的算法对所有的训练样本有选择性地进行一次训练就可以生成有效的代表样本集,具有较强的学习能力.实验结果表明:这种方法不仅可以降低KNN方法的测试时间,而且可以保持甚至提高分类的准确性.
摘要:提出了一种物体分类模型——潜在局部区域空间关系模型及实现算法.模型描述物体各部分间的潜在空间关系,将抗缩放和仿射变换的特征区域方法与模型相结合,采用变分期望值最大方法进行学习.与同类空间关系模型算法比较,该文模型算法具有以下优点:(1)为非监督式学习模型;(2)可抵抗几何变换;(3)模型为稠密模型;(4)模型描述的是一种潜在的空间关系,这种关系对物体具有更本质的描述.在标准测试图像库上的实验表明了该算法在抵抗平移、旋转、尺度缩放、仿射变换和部分遮挡等难点问题上具有优势.
摘要:在视频处理中,由于运动阴影具有与运动前景相同的特性,当在提取前景时,会误把阴影检测为前景.特别是当阴影和其它前景发生粘连时,这可能会严重地影响跟踪、识别等后续处理.该文提出了一种用于运动阴影检测的Boosting判别模型.这种方法先利用Boosting在不同的特征空间来区分前景和阴影,然后在判别随机场(DRFs)中结合前景和阴影的时空一致性,实现对前景和阴影的分割.首先,差分前图像与背景图像得到颜色不变子空间和纹理不变子空间;然后在这两个子空间上应用Boosting来区分前景和阴影;最后利用前景和阴影的时空一致性,在判别随机场中通过图分割的方法准确地分割前景和阴影.实验结果表明,无论是在室内场景,还是在室外场景,该文的方法要好于传统的方法.
摘要:基因的共调控可分为同步和异步两种.文中提出了一种新的聚类模型Reg-Cluster,将具有相同编码的同步和异步共调控基因聚集到同一个共调控基因类中.在此基础上,提出了一种有效的聚类算法FBLD,采用先宽度优先、后深度优先的搜索策略,并结合高效的削减规则,挖掘得到所有符合条件的最大Reg-Cluster.聚类结果中包含了详细而完备的共调控信息,有助于基因调控网的研究.算法可扩展用于三维基因-样本-时间微阵列数据集的分析.FBLD算法已经应用到真实和人造微阵列数据集中,其结果被提交到Gene Ontology,实验结果证明了算法的高效性和有效性.
摘要:集体的差异性被认为是影响集成学习的一个关键因素.在分类器集成中有许多的差异性度量被提出,但是在聚类集成中如何测量聚类集体的差异性,目前研究得很少.作者研究了7种聚类集体差异性度量方法,并通过实验研究了这7种度量在不同的平均成员聚类准确度、不同的集体大小和不同的数据分布情况下与各种聚类集成算法性能之间的关系.实验表明:这些差异性度量与聚类集成性能间并没有单调关系,但是在平均成员准确度较高、聚类集体大小适中和数据中有均匀簇分布的情况下,它们与集成性能间的相关度还是比较高的.最后给出了一些差异性度量用于指导聚类集体生成的可行性建议.
摘要:文中提出了一种基于单簇可能性C-均值聚类(Possibilistic C—Means,PCM)的数据描述方法并用于单分类.训练时,其首先进行PIM(PCM,C值取1)聚类,得到所有训练样本对目标类的隶属度;然后设置隶属度阈值,形成相应的数据描述进行单分类.分类时,计算新样本对目标类的隶属度,若其隶属度小于该阈值则判为异常,否则为正常.该方法和当前流行的支持向量域数据描述方法以及Parzen方法窗具有类似的参数配置和相当的分类性能,由此提供了另一种单分类学习算法.值得指出的是,尽管是PCM的一个特例,但PIM拥有PCM一般不具备的全局最优特性,而该特性对解决实际问题十分重要.
摘要:子空间聚类的目标是在不同的特征子集上对给定的一组数据归类.此非监督学习方法试图发现数据“在不同表达下的相似”模式,并且引起了相关领域大量的关注和研究.首先扩展Hoff提出的“均值与方差平移”模型为一个新的基于特征子集的非参数聚类模型,其优点是能应用变分贝叶斯方法学习模型参数.此模型结合Dirichlet过程混合模型和选择特征子集的非参数模型,能自动选择聚类个数和进行子空间聚类.然后给出基于马尔可夫链蒙特卡罗的参数后验推断算法.出于计算速度上的考虑,提出应用变分贝叶斯方法学习模型参数.在仿真数据上的实验结果及在人脸聚类问题上的应用均表明了此模型能同时选择相关特征和在这些特征上具有相似模式的数据点.在UCI“多特征数据库”上应用无需抽样的变分贝叶斯方法,其实验结果说明此方法能快速推断模型参数.
摘要:蚁群算法(ACO)作为一类新型的机器学习技术,已经广泛用于组合优化问题的求解,同时也应用于工业工程的优化设计.相对于遗传算法(GA),蚁群算法的理论研究在国内外均起步较晚,特别是收敛速度的分析理论是该领域急待解决的第一大公开问题.文中的研究内容主要是针对这一公开问题而开展的.根据蚁群算法的特性,该研究基于吸收态Markov过程的数学模型,提出了蚁群算法的收敛速度分析理论.作者给出了估算蚁群算法期望收敛时间的几个理论方法,以分析蚁群算法的收敛速度,并结合著名的ACS算法作了具体的案例研究.基于该文提出的收敛速度分析理论,作者还提出ACO-难和ACO-易两类问题的界定方法;最后,利用ACS算法求解TSP问题的实验数据,验证了文中提出的分析结论,得出了初步的算法设计指导原则.