计算机科学杂志-2015年第05期-学术点评

计算机科学 2015年第05期杂志文档列表

计算机科学杂志2014’数据挖掘会议

深度学习研究进展

摘要：深度学习（Deep Learning）是一个近几年备受关注的研究领域,在机器学习中起着重要的作用。如果说浅层学习是机器学习的一次浪潮,那么深度学习作为机器学习的一个新领域,将掀起机器学习的又一次浪潮。深度学习通过建立、模拟人脑的分层结构来实现对外部输入的数据进行从低级到高级的特征提取,从而能够解释外部数据。首先介绍了深度学习的由来,分析了浅层学习存在的弊端;其次列举了深度学习的经典方法,主要以监督学习和无监督学习来展开介绍;然后对深度学习的最新研究进展及其应用进行了综述;最后总结了深度学习发展所面临的问题。

28-33

基于人工免疫算法的增量式用户兴趣挖掘

摘要：了解用户兴趣是为用户提供个性化服务的关键。用户兴趣有短期兴趣和长期兴趣之分,且具有不稳定性。受人工免疫系统的启发,巧妙地将免疫应答过程应用于用户兴趣挖掘。首先将概率与时间相结合,提出＂概念时序动态＂的概念,以更好地刻画用户在一段时间内对同一兴趣的关注程度;然后基于人工免疫原理,建立抽取兴趣标签的分类器来提取用户兴趣标签;最后针对增量式学习,建立兴趣标签的＂概念时序动态＂,刻画出用户兴趣自首次出现以来受关注的程度,以此为依据来判断兴趣是否存在迁移及遗忘现象,并为每个兴趣标签附上权重。其主要贡献是创造性地将人工免疫原理应用于用户短期兴趣和长期兴趣的挖掘,并具有增量特性,可以很好地体现用户兴趣迁移特征,是一种自然完整的用户兴趣模型。实验结果表明,该学习模型能够很好地发现用户关注的领域,其平均精度和召回率分别达到79.5%和74.4%,是目前最贴近用户的兴趣挖掘模型。

34-41

基于领域划分的微博用户影响力分析

摘要：近年来微博作为一种新兴的社交网络逐渐被广大用户使用。微博信息简短、更新迅速、包含信息量大,给微博用户获取信息带来了诸多不便,因此,利用影响力分析的手段找到具有较大影响力的微博用户具有重大意义。微博内容较传统的媒体信息具有较强的时效性和权威性,同时微博用语也极其不规范,这给微博用户影响力的分析带来了极大的困难。首先对获取的微博用户信息进行领域的划分,采用基于微博内容和用户关注的方式将用户归类到其所属的领域。其中,采用新词发现以及特征扩展的方法来提高划分结果的准确性。然后,对各个领域的用户进行影响力分析,提出3种影响力传播模型,用户最终的影响力大小根据3种模型的结果进行加权计算。最后对实验结果进行分析、比较,证明了计算用户影响力的方法能取得较优的结果。

42-46

基于监督学习的日冕暗化检测与提取算法

摘要：日冕物质抛射（CME）是空间灾害天气的重要驱动源,而日冕暗化（dimming）被认为是CME初发的主要表征,对理解和预测CME具有重要作用。基于极紫外成像望远镜（EIT）和大气成像仪（AIA）的观测数据,实现了图像中日冕暗化现象的检测与提取。通过分析差分图中与暗化现象相关的图像统计特征,采用Adaboost分类算法检测暗化现象的发生,进而分割出日冕暗化区域。实验表明,提出的算法较现有算法能更准确有效地检测和提取日冕暗化区域,为分析日冕暗化特性提供了研究基础。

47-50

基于GEPSO模型的面向对象遥感图像分类

摘要：针对演化算法的寻优能力,提出了基于GEPSO（GEP Optimized by PSO）模型的面向对象遥感图像分类方法。先对遥感图像进行分割,选择特征集,然后利用GEPSO算法为每类图像对象构造一个类中心。构造类中心的过程先利用GEP搜索一个次优解,再根据这个次优解利用PSO搜索最优解。实验结果表明,基于GEPSO模型的面向对象遥感图像分类方法具有较高的分类精度。

51-53

一种基于开方检验的特征选择方法

摘要：开方检验是目前文本分类中一种常用的特征选择方法。该方法仅关注词语和类别间的关系,而没有考虑词与词之间的关联,因此选择出的特征集具有较大的冗余度。定义了词语的＂剩余互信息＂概念,提出了对开方检验的选择结果进行优化的方法。使用该方法可以得到既有很强表征性又有很高独立性的特征集。实验表明,该方法表现良好。

54-56

基于特征偏好的聚类研究

摘要：传统的聚类方法,如k均值和模糊c均值,通常并不区分数据特征对聚类的不同贡献或重要度,因此在面对高维数据聚类时,常会导致偏低的聚类性能,这归咎于聚类时未考虑高维数据特征间所存在的高度相关性或冗余。而通过在聚类时为每一特征引入权重并通过聚类目标的优化,不仅能自动获得对应的权重,而且也获得了聚类性能的提升。尽管如此,但无监督获取的特征权重未必吻合用户所期望的特征间的相对重要性（或偏好）。因此尝试利用用户给定的实际偏好设计出能反映特征偏好的聚类方法,其将现有独立于个体聚类的全局加权型偏好聚类方法拓展至聚类依赖的局部特征加权型方法,由此弥补了前者的不足,提升了偏好聚类算法的性能。

57-61

面向网页的主题概念挖掘

摘要：网页主题挖掘对自然语言处理如网页文本分类、文摘自动生成、信息融合等具有重要意义。挖掘网页主题可以帮助用户更好地理解网页内容。尽管已有一些从普通文本中挖掘概念的工作,但其很少考虑单词所属标签和位置对单词权重的影响,且没有工作给出上述两种影响因子的计算方法。借助WordNet,将网页主题从词语扩展到概念层次,提出了使用词性标注和词义消歧确定网页中单词词义并充分利用标签影响因子和位置影响因子对网页正文文本特征进行权重修正的主题概念挖掘方法,给出了两种影响因子的计算公式。在DMOZ数据集上的实验结果表明,修正权重可以明显提高主题挖掘精度,最高可达到0.95。

62-66

基于椭圆拟合的热带气旋中心定位研究

摘要：对热带气旋的中心进行定位是预测其未来路径的基础。提出了一种基于椭圆拟合模型的全自动客观方法来代替传统的基于螺线拟合的方法,以实现热带气旋的中心定位。该方法包含梯度方向融合、椭圆线段选取、椭圆中心聚类以及气旋中心确定4个步骤。采用卫星红外图像进行实验,结果表明,提出的椭圆拟合定位方法与中国气象局的热带气旋最佳路径数据集在经度和纬度方向的偏差均值小于0.12度,为热带气旋中心定位提供了客观准确的参考。

67-71

一种多层自适应形态滤波算法

摘要：针对现有形态滤波算法结构固定、预设结构元素和偏倚校正系数等不足,提出一种具有多层结构的自适应形态滤波算法,多层结构共分为3层：输入层、中间计算层、偏倚系数校正层。该算法在面对复杂变化的干扰信号时,可以灵活地选择利用不同结构元素计算得到的结果;同时针对形态开运算和形态闭运算所带来的偏倚现象,通过优化设置偏倚校正系数向量来减弱偏倚现象对滤波效果产生的负面影响。仿真结果表明,该算法改善了形态滤波的性能,具有设计简单、实用性强的特点。

72-77

一种灰色极限学习机预测方法

摘要：预测是一种根据已知数据在过去一定时间段内呈现出的发展的规律性对未来发展趋势进行描述的行为。近年来,预测被应用到很多领域,如电价预测、股票价格预测和气象预测等。然而传统的预测方法由于其精度不高或速度不快等问题,无法满足当今预测领域的需求。针对传统预测方法存在的问题,基于组合预测的思想,结合强化学习的累积函数的概念,提出了结合灰色预测模型和极限学习机的组合预测方法。算法在微软股票信息、Mackey-Glass时间序列数据和台湾液晶屏制造业的制造数据等实验数据集上进行了相关实验,结果表明该算法是有效的。

78-81

频繁和高效用项集挖掘

摘要：对从事务数据库中挖掘有意义的项集的研究已超过10年。然而,大多数的研究要么使用频繁度或支持度（如频繁项集挖掘）,要么使用效用值或利润（如高效用项集挖掘）作为主要的衡量标准。单独使用这两种衡量方式都有各自的局限性,比如频繁度很高的项集其效用值有可能很低,而效用值很高的项集其频繁度往往很低,将这些项集推荐给用户没有意义。将这两种衡量标准综合考虑,希望找出那些频繁度和效用值都很高的项集。该项工作最大的挑战是效用值既不满足单调性也不满足反单调性。因此,提出了高效算法FHIMA。FHIMA采用PrefixSpan的思想,挖掘时能避免产生非频繁的候选项集。此外,还根据效用和质量上界的一些性质,有效地缩小了搜索空间,极大地提高了FHIMA算法的效率。

82-87

专家干预下置信规则库参数训练的差分进化算法

摘要：传统关于置信规则库参数训练模型的求解主要采用FMINCON函数及群智能算法,但在算法设计中并未涉及所有的置信规则库参数,且缺少必要的专家干预。为解决这些问题,首先在现有参数模型的基础上进一步扩宽参与参数训练的置信规则库参数,然后设计出符合思维逻辑的专家干预的约束条件,最后结合差分进化算法提出具有更高收敛精度的置信规则库参数训练方法。在实验分析中,首先在多极值函数的实例中分析该方法的有效性,再在输油管道检漏的实例中检验专家干预的合理性及对比现有的其他参数训练方法。实验结果表明,该方法是有效可行的。

88-93

基于知识图的观点句识别算法研究

摘要：针对观点句的特点提出了适合观点句识别的特征抽取规则。在此基础上,融合图论中最小割原理和机器学习分类方法,引入知识图的概念,并提出了基于知识图的观点句识别算法。以公开评测语料、自建语料和开放语料进行了相关实验,结果表明：基于知识图的观点句识别算法的分类性能和稳定性有明显优势。

98-105

基于kNN的多标签分类预处理方法

摘要：多标签学习已成为当前机器学习的研究热点。为了提高分类性能,对训练集中的噪声数据进行预处理,提出一种基于k近邻（kNN）的多标签分类去噪方法：对现有的多标签数据集进行分析后获得近似正态分布的特征,通过将噪声标记改为其k近邻标记的方法,滤去部分噪声信息,从而得到相对高质量的数据集。在MULAN平台上使用多个数据集对6种多标签分类算法进行了噪声去除前后的对比测试,实验结果表明,多标签的预处理方法有效提高了分类器的性能。此方法对于分布特征明显的数据集具有较好的适用性。

106-108

一种改进的树路径模型在网页聚类中的研究

摘要：相似度计算是文本挖掘的基础,也是信息提取过程的关键步骤。对于结构复杂的网页,当前基于传统树路径模型的相似度计算方法在准确性上尚不完善。传统树路径模型未考虑路径出现的先后顺序,并且比较路径相似度时用的是完全匹配,难以在不完全匹配时更精确地描述路径之间的相似度。因此,从网页结构相似度入手,提出了一种改进的树路径模型。该模型充分考虑了兄弟节点之间的关系、路径位置以及路径权重,弥补了传统树路径模型无法表达文档结构和层次信息的缺陷。实验结果表明,该模型提高了识别网页结构相似性的能力,既能对结构差别较大的网页进行良好的区分,又能较好地反映来自同一模板的网页之间的差异性,同时在网页聚类中具有更优的效果。

109-113

规范化相似度的符号序列层次聚类

摘要：符号序列由有限个符号按一定顺序排列而成,广泛存在于数据挖掘的许多应用领域,如基因序列、蛋白质序列和语音序列等。作为序列挖掘的一种主要方法,序列聚类分析在识别序列数据内在结构等方面具有重要的应用价值;同时,由于符号序列间相似性度量较为困难,序列聚类也是当前的一项开放性难题。首先提出一种新的符号序列相似度度量,引入长度规范因子解决现有度量对序列长度敏感的问题,从而提高了符号序列相似度度量的有效性。在此基础上,提出一种新的聚类方法,根据样本相似度构建无回路连通图,通过图划分进行符号序列的层次聚类。在多个实际数据集上的实验结果表明,采用规范化度量的新方法可以有效提高符号序列的聚类精度。

114-118

基于半监督图聚类的项目主题模型构建方法

摘要：项目文档主题表征的好坏直接影响后续评审专家的推荐效果。为有效利用项目文档片段之间的关联关系进行项目主题分析,提出一种基于半监督图聚类的项目主题模型构建方法。该方法首先分析项目文档的结构特点,提取项目名称、项目关键字等能表征主题的结构信息,结合专家证据文档、专家主题关系网等能表征专家主题的外部资源,定义及提取项目文档片段之间的关联关系特征;然后,利用不同类型的关联关系计算项目文档片段之间的相关性,构建项目文档片段间的无向图模型;最后,利用已标记关联关系特征作为聚类的监督信息,采用半监督图聚类算法对项目文档片段进行聚类,从而实现项目主题的提取。项目主题提取对比实验结果验证了所提方法的有效性,项目文档结构化特征、专家证据文档以及专家主题关系网对项目主题模型的构建具有一定的指导作用。

119-123

计算机科学杂志

期刊咨询

期刊推荐

文秘服务

计算机科学 2015年第05期杂志文档列表

计算机科学杂志

期刊咨询

期刊推荐

文秘服务

计算机科学 2015年第05期杂志 文档列表

计算机科学 2015年第05期杂志文档列表