计算机科学杂志-2016年第12期-学术点评

计算机科学 2016年第12期杂志文档列表

计算机科学杂志智能信息处理

基于局部上下文特征的组合的中文真词错误自动校对研究30-35

摘要：中文的真词错误类似于英文的真词错误，指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法，通过对目标词的局部特征的提取，形成局部左邻接二元、右邻接二元及3个三元特征，然后通过和目标词对应的混淆集中的混淆词来估计二元概率和三元概率。最后提出一种多特征融合的模型，然后利用规则来判断中文文本中的真词错误。将查错结果分为标记错误和更改错误两种类型，采用18组混淆集，构造2万行的测试语料进行实验。实验表明，该方法能有效地发现中文文本中的真词错误，并且能给出真词错误的修改建议。该方法是一种集自动查错和自动纠错于一体的中文文本自动校对方法。

基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类36-40

摘要：针对维吾尔语文本的分类问题，提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先，对输入文本进行预处理，滤除非维吾尔语的字符和停用词；然后，利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合；最后，根据互信息相似度度量，计算输入文本关键词集和各类关键词集的相似度，最终实现文本的分类。实验结果表明，该方案能够提取出具有较高识别度的关键词，当关键词集大小为1250时，平均分类率达到了91．2％。

基于行为分析的微博传播模型研究41-45

摘要：随着微博的迅速兴起和其影响力的不断提高，提取微博信息传播特征和构建传播模型已成为了研究热点。针对用户转发行为，首先分析了信息传播机制；然后从影响用户转发行为的用户、接收用户、用户亲密度和信息时效性4个方面提取出8个特征因素进行建模；在借鉴传染病动力学SIR模型的基础上，引入用户行为分析和接触节点，提出基于用户行为分析的SCIR模型，并给出动力学方程；最后利用新浪微博真实转发数据验证模型的合理性。实验结果表明，考虑用户转发行为的8个影响因素，结合行为分析结果，能够较好地拟合信息传播过程。

直觉模糊小生境的自适应遗传算法求解旅行商问题46-49

摘要：提出一种基于直觉模糊距离测度的小生境技术，结合模糊控制的自适应遗传算法求解旅行商问题。运用个体在遗传算法迭代寻优中的适应度值，通过直觉模糊集的距离测度确定个体之间的相似性，使用共享函数和惩罚函数对适应度低的个体进行惩罚和淘汰，维护了种群个体的多样性；建立模糊推理系统，以自适应调节遗传算法迭代中的交叉率和变异率，使遗传算法能在局部寻优和全局寻优之间达到平衡，弥补遗传算法易早熟收敛和后期寻优能力差的缺陷；通过求解TSPLIB中的多组实例并进行对比，结果表明所提算法的收敛速度、优化精度、效率均具有明显优势。

基于词或词组长度和频数的短中文文本关键词提取算法50-57

摘要：中文文本的关键词提取是自然语言处理研究中的难点。国内外大部分关键词提取的研究都是基于英文文本的，但其并不适用于中文文本的关键词提取。已有的针对中文文本的关键词提取算法大多适用于长文本，如何从一段短中文文本中准确地提取出具有实际意义且与此段中文文本的主题密切相关的词或词组是研究的重点。提出了面向中文文本的基于词或词组长度和频数的关键词提取算法，此算法首先提取文本中出现频数较高的词或词组，再根据这些词或词组的长度以及在文本中出现的频数计算权重，从而筛选出关键词或词组。该算法可以准确地从中文文本中提取出相对重要的词或词组，从而快速、准确地提取此段中文文本的主题。实验结果表明，基于词或词组长度和频数的中文文本关键词提取算法与已有的其他算法相比，可用于处理中文文本，且具有更高的准确性。

基于向量冲突表示方法的证据组合规则58-62

摘要：针对Dempster组合规则在高冲突证据融合的情况下常常会得到违背直觉的结果，提出了一种基于向量冲突表示方法的Dempster（VCRD）组合规则。首先，通过实例分析了冲突因子和Jousselme距离存在的不足；然后，利用证据向量的相似性和差异性共同衡量证据之间的冲突程度，通过证据之间的冲突程度确定修正证据的权重因子，对融合证据进行预处理；最后，利用Dempster组合规则进行融合。理论分析和仿真实验结果表明：与Dempster组合规则及其它改进算法相比，VCRD组合规则能够合理地处理高冲突证据情况下的融合问题，降低了决策风险。

一种基于概率粗糙集的属性约简加速算法63-70

摘要：介绍了基于概率粗糙集模型的启发式属性约简算法，提出了概率粗糙集模型中的概率近似精度和改进概率近似精度的增量更新机制，通过比较概率近似精度的更新值得到属性核，然后通过比较改进概率近似精度的值逐步得到概率粗糙集中的属性约简。最后提出了一种概率粗糙集模型中属性核与属性约简的加速求解算法，并举例说明了所提算法的有效性和可行性。

多准则分类问题中近似集的增量更新方法71-78

摘要：在优势关系粗糙集方法（DRSA）的框架下，优势关系可用于处理带有序关系属性（准则）的数据，并且已经被广泛用于处理多准则决策问题。然而在实际应用中，当属性集和对象集发生变化时，信息系统会随之不断更新。在这种动态环境下，DRSA中用于属性约简、规则提取以及决策制定的近似集需要得到相应的更新。针对对象集发生变化时（增加或删除一个对象）的多准则分类问题，采用增量方法来更新近似集并提出两种相应的更新算法DRSA1和DRSA2。同时，对不同情况下的更新原则进行了讨论并给出了相关的理论结果与详细的证明。最后给出算例，并在UCI数据集上进行大量的实验，与非增量的方法（传统的DRSA）进行对比，结果充分体现了所提增量方法的有效性与可扩展性。

一种基于二进制表示的快速求核算法79-83

摘要：在基于粗糙集的知识发现过程中，计算条件属性对论域的划分U／C和求解属性核是尤为关键的步骤。一般需要逐个比较对象的所有条件属性值才能得出结果。提出一种基于二进制表示的方法，只需比较对象的属性值的“和”。该方法先求得所有条件属性值的“和”，仅对该“和”进行一次比较，再通过判断该“和”是否重复，就能得出u／c，理论分析得到杂度均可达到0（｜C｜｜U｜）。随后通过一个实例阐明了该算法的复杂度为0（｜C｜｜U｜）；然后把计算U／C的思想应用于求解属性核，提出了一种新的快速计算属性核的高效算法。理论分析表明，无论信息系统是否一致，该算法的复算法的具体步骤，最后通过实验验证了算法的正确性和高效性。

模糊信息系统中基于OWA算子的模糊粗糙集模型84-87

摘要：在模糊信息系统中，属性值并不是一个确定的值，而是一个隶属度函数。因此，通过利用有序加权平均（OWA）算予聚合对象间在每个属性上的差异，刻画出对象之间的相似性，定义对象的相似度并讨论其相关性质。借助对象相似度，通过逻辑关系和相应的函数运算，分别给出了对象隶属于上、下近似集合的隶属度。最后，通过实例分析说明在模糊信息系统中，该相似度能较准确地刻画出对象的相似性，同时，对象对于上、下近似的隶属度能更直观、合理地反应对象隶属于某一集合的上、下近似的情况，且能更合理地描述这一粗糙集合。

基于属性权重的时序模糊软集的群决策方法研究88-90

摘要：针对模糊软集在群决策过程中其属性权重往往被忽略或依靠主观经验来确定的问题，提出了一种基于属性优势度的属性权重确定方法，并讨论了其相关性质及运算。在群决策过程中，针对决策信息是随时间变化而变化的这一特点，定义了时序模糊软集等概念，并建立了基于决策时间差的对数增长型时间权重确定公式。最后通过与其他决策方法进行对比分析验证了该方法的可行性和合理性。

计算机科学杂志机器学习

受限玻尔兹曼机的稀疏化特征学习91-96

摘要：受限玻尔兹曼机（RBM）作为深度学习算法的一种基础模型被广泛应用，但传统RBM算法没有充分考虑数据的稀疏化特征学习，使得算法性能受数据集的稀疏性影响较大。提出一种RBM稀疏化特征学习方法（SRBM），通过归一化的输入数据均值确定数据集的稀疏系数，将稀疏系数大于阈值的稠密数据集自动转化为稀疏数据集，在不损失信息量的情况下实现输入数据的稀疏化。在手写字符数据集和自然图像数据集上的实验结果表明，SRBM通过输入数据稀疏化有效提升了RBM的稀疏化特征学习性能。

基于支持向量上采样的不平衡数据分类方法97-100

摘要：传统的支持向量机在处理不平衡数据时效果不佳。为了提高少类样本的识别精度，提出了一种基于支持向量的上采样方法。首先根据K近邻的思想清除原始数据集中的噪声；然后用支持向量机对训练集进行学习以获得支持向量，进一步对少类样本的每一个支持向量添加服从一定规律的噪声，增加少数类样本的数目以获得相对平衡的数据集；最后将获得的新数据集用支持向量机学习。实验结果显示，该方法在人工数据集和UCI标准数据集上均是有效的。

基于滑动窗口的主题模型101-107

摘要：LDA（Latent Dirichlet Allocation）是一个分层的概率主题模型，目前被广泛地应用于文本挖掘。这种模型既不考虑文档与文档之间的顺序关系，也不考虑同一篇文档中词与词之间的顺序关系，简化了问题的复杂性，同时也为模型的改进提供了契机。针对此问题提出了基于滑动窗口的主题模型，该模型的基本思想是文档中的一个单词的主题与其附近若干单词的主题关系越紧密，受附近单词主题的影响越大。根据窗口和滑动位移的大小，把文档切割为粒度更小的片段。同时，针对大数据集和数据流问题，提出了在线滑动窗口主题模型。在4个数据集上的实验表明，基于滑动窗口的主题模型训练出来的模型在数据集上有更好的泛化性能和精度。

利用Tri—training算法解决推荐系统冷启动问题108-114

摘要：随着社交网络的发展，推荐系统日趋重要，而冷启动问题是推荐系统中的关键问题。设计了一种基于上下文的半监督学习框架TSEL，对矩阵分解模型SVD进行扩充以支持更多形式的上下文信息，利用Tri-training框架训练各个模型。与其他解决推荐系统冷启动问题的半监督方法（如Co-training）相比，该方法有着更好的效果。Tri—train—ing框架能够更加方便地引入更多推荐模型，具有更好的可扩展性。将Tri—training框架加以扩展，提出了基于用户活跃度生成无标记教学集合的算法和更加丰富的对矩阵分解模型扩充的形式。在真实数据集MovieLens上进行验证，获得了更好的实验效果。

基于深度学习的问题分类方法研究115-119

摘要：问题分类是问答系统中的重要组成部分。但现阶段的问题分类需要人工制定提取特征的策略和不断优化特征规则。深度学习方法在问题分类上具有可行性，通过自我学习特征的方式表示和理解问题，避免人工特征的制定，从而减少人工代价。针对问题分类，改进了长短期记忆人工神经网络（LSTM）和卷积神经网络（CNN）模型，并结合两者的优势组合成为一种新的学习框架（LSTM-MFCNN），加强对词序语义和深度特征的学习。实验结果表明，该方法在不需要制定繁琐的特征规则的条件下，仍然有较好的表现，准确率达到了93．08％。

一种基于动态词汇表的在线LDA算法120-124

摘要：目前的在线潜在狄利克雷分布模型（LDA）算法大多是基于固定的词汇表，在实际应用中经常会出现词汇表和处理的语料不匹配的情况，影响了模型的实用性。针对这个现象，在置信传播算法（BP）的框架下，使主题单词分布服从狄利克雷过程，重新推导公式，使得词汇表在模型运行之前为空，并且在处理时不断向词汇表中增加发现的新词。实验证明，这种新的基于动态词汇表的算法不仅使得词汇表与语料的贴合度更高，而且使其在混淆度以及互信息指数这两个指标上能够比基于固定词汇表的LDA模型表现得更加优越。

随机权分布对极限学习机性能影响的实验研究125-129

摘要：极限学习机是一种训练单隐含层前馈神经网络的算法，它随机初始化输入层的权值和隐含层结点的偏置，用分析的方法确定输出层的权值。极限学习机具有学习速度快、泛化能力强的特点。很多研究都用服从[-1，1]区间均匀分布的随机数初始化输入层权值和隐含层结点的偏置，但没有对这种随机初始化合理性的研究。用实验的方法对这一问题进行了研究，分别研究了随机权服从均匀分布、高斯分布和指数分布对极限学习机性能的影响。研究发现随机权的分布对极限学习机的性能的确有影响，对于不同的问题或不同的数据集，服从[-1，1]区间均匀分布的随机权不一定是最优的选择。研究结论对从事极限学习机研究的人员具有一定的借鉴作用。

计算机科学杂志北大期刊 CSCD期刊 统计源期刊

Computer Science

魅力中国

科学通报

科学技术与工程

价值工程

计算机仿真

科学中国人

科学大众

当代教育科学

江苏农业科学

材料导报

期刊咨询

期刊推荐

文秘服务

计算机科学 2016年第12期杂志文档列表

计算机科学杂志 北大期刊 CSCD期刊 统计源期刊

Computer Science

魅力中国

科学通报

科学技术与工程

价值工程

计算机仿真

科学中国人

科学大众

当代教育科学

江苏农业科学

材料导报

期刊咨询

期刊推荐

文秘服务

计算机科学 2016年第12期杂志 文档列表

计算机科学杂志北大期刊 CSCD期刊统计源期刊

计算机科学 2016年第12期杂志文档列表