计算机科学杂志-2018年第01期-学术点评

计算机科学 2018年第01期杂志文档列表

计算机科学杂志综述

数据科学研究的现状与趋势1-13

摘要：大数据时代的到来催生了一门新的学科——数据科学。首先,探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系。其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业中的数据科学及大数据生态系统中的相对热门话题。接着,探讨了数据科学研究中的10个争议及挑战：思维模式的转变（知识范式还是数据范式）、对数据的认识（主动属性还是被动属性）、对智能的认识（更好的算法还是更多的数据）、主要瓶颈（数据密集型还是计算密集型）、数据准备（数据预处理还是数据加工）、服务质量（精准度还是用户体验）、数据分析（解释性分析还是预测性分析）、算法评价（复杂度还是扩展性）、研究范式（第三范式还是第四范式）、人才培养（数据工程师还是数据科学家）。然后,提出了数据科学研究的10个发展趋势：预测模型及相关分析的重视,模型集成及元分析的兴起,数据在先、模式在后或无模式的出现,数据一致性及现实主义的回归,多副本技术及靠近数据原则的广泛应用,多样化技术及一体化应用并存,简单计算及实用主义占据主导地位,数据产品开发及数据科学的嵌入式应用,专家余及公众数据科学的兴起,数据科学家与人才培养的探讨。最后,结合文中工作,对数据科学研究者给出了几点建议和注意事项。

面向环境感知的无线传感网络路由方法综述14-23

摘要：路由传输与数据聚合是无线传感器网络中的两个重要方面,有着广泛的应用。网络的多样性导致没有普适的路由算法与数据聚合方案,因此对二者进行总结很有必要。对无线传感器网络中的路由方法与数据聚合进行了总结。首先,介绍了典型的无线传感器网络路由方法;其次,面向多类传感器描述了不同的数据聚合与路由方法;然后,阐述了一维传感器网络中的数据收集与路由方法;最后,总结了相关的研究方向和发展趋势。

个性化视频情感内容分析：综述24-28

摘要：个性化视频情感内容分析是近几年兴起的一个研究热点,其目的是基于视频用户的个人兴趣和爱好来向其推荐个性化的视频内容。然而,当前仍然缺乏对该研究方向的最新研究进展的综述和讨论。为解决此问题,从3个方面对该领域的研究成果进行论述,讨论了各类现有方法的优缺点、存在的问题和挑战,并对未来的研究方向提出一些思路和建议。

2017年度国家自然科学基金计算机学科项目资助情况分析29-33

摘要：文中统计了2017年国家自然科学基金计算机学科面上项目、青年项目、地区项目、重点项目、海外港澳项目、优秀青年项目的资助情况,分析总结了计算机学科资助重点项目的研究特点,为该领域研究人员的自然科学基金项目申请提供了参考。

计算机科学杂志CRSSC-CWI-CGrC-3WD 2017

一种多强度攻击下的对抗逃避攻击集成学习算法34-38

摘要：在对抗性学习中,攻击者在非法目的的驱使下,通过探索分类器的漏洞并利用漏洞,使得恶意样本逃过分类器的检测。目前,对抗性学习已被广泛应用于计算机网络中的入侵检测、垃圾邮件过滤和生物识别等领域。现有研究者仅把现有的集成方法应用在对抗性分类中,并证明了多分类器比单分类器更鲁棒。然而,在对抗性学习中,攻击者的先验信息对分类器的鲁棒性有较大的影响。基于此,通过在学习过程中模拟不同强度的攻击,并增大错分样本的权重,提出的多强度攻击下的对抗逃避攻击集成学习算法可以在保持多分类器准确性的同时提高鲁棒性。将其与Bagging集成的多分类器进行比较,结果表明所提算法具有更强的鲁棒性。最后,分析了算法的收敛性以及参数对算法的影响。

基于Lasso算法的中文情感混合特征选择方法研究39-46

摘要：中文情感分析中的一个重要问题就是情感倾向分类,情感特征选择是基于机器学习的情感倾向分类的前提和基础,其作用在于通过剔除无关或冗余的特征来降低特征集的维数。提出一种将Lasso算法与过滤式特征选择方法相结合的情感混合特征选择方法：先利用Lasso惩罚回归算法对原始特征集合进行筛选,得出冗余度较低的情感分类特征子集;再对特征子集引入CHI,MI,IG等过滤方法来评价候选特征词与文本类别的依赖性权重,并据此剔除候选特征词中相关性较低的特征词;最终,在使用高斯核函数的SVM分类器上对比所提方法与DF,MI,IG和CHI在不同特征词数量下的分类效果。在微博短文本语料库上进行了实验,结果表明所提算法具有有效性和高效性;并且在特征子集维数小于样本数量时,提出的混合方法相比DF,MI,IG和CHI的特征选择效果都有一定程度的改善;通过对比识别率和查全率可以发现,Lasso-MI方法相比MI以及其他过滤方法更为有效。

专家权重完全未知的区间直觉不确定语言多属性群决策方法47-54

摘要：针对专家权重信息完全未知且属性值为区间直觉不确定语言数的模糊多属性群决策问题,提出一种基于混合权重信息及决策者风险态度的群决策分析方法。在定义区间直觉不确定语言数差异度的基础上,分别利用专家在方案评价值上的贴近度以及方案排序上的一致度来计算两类专家权重,并基于均衡度得到专家的客观综合权重。进而通过融合专家客观综合权重以及基于相似度的个体综合评价值权重,提出一种混合加权集结方法,从而得到方案的群体综合评价值,并通过定义带有风险态度因子的期望值与精确函数实现对方案的比较和排序。最后,通过实例分析证明所提方法的有效性和合理性。

基于Nystrom采样和凸NMF的偏好聚类55-61

摘要：大规模的稀疏图数据在现实中大量出现,例如协同图、拉普拉斯矩阵等。非负矩阵分解（NMF）已经成为数据挖掘、信息检索和信号处理的一个非常重要的工具。随着数据量的不断增大,如何实现大规模数据的偏好聚类是一个重要的问题。采用两阶段的方法来实现大规模的偏好聚类,即首先利用Nystrom的近似采样方法,从大数据上获得数据的初始轮廓,获得部分用户-用户相似矩阵或电影-电影相似矩阵,从而可以将原始的高维空间降低到一个低维子空间;然后通过对低维相似矩阵进行凸的非负矩阵分解,从而得到聚类的中心和指示器,聚类的中心表示电影或用户的特征,指示器表示用户或电影特征的权重。该两阶段偏好聚类方法的优点是,初始数据轮廓的近似获取以及凸的非负矩阵分解,使得该方法具有较好的鲁棒性和抗噪性;另外,子空间的数据来源于真实的矩阵行列数据,使得偏好聚类结果具有良好的可解释性。采用Nystrom方法解决了大规模的数据无法在内存中存储的问题,从而大大节省了内存,提高了运行效率。最后在含有100000条电影的数据集上进行偏好聚类,结果表明了该聚类算法的有效性。

基于动态邻域的三支聚类分析62-66

摘要：目前,大多数聚类方法是二支聚类,即对象要么属于一个类,要么不属于一个类,聚类的结果必须具有清晰的边界。然而,将某些不确定的对象强制分配到某个类中将降低聚类结果的结构和精度。三支聚类是一种重叠聚类,它采用核心域和边界域来表示每个类别,较好地处理了具有不确定性对象的聚类问题。提出了一种使用样本邻域将二支聚类转化为三支聚类的方法。该方法利用二支聚类的结果和每个类中元素的邻域是否完全包含在该类中来对集合进行收缩,同时利用不在该类中的元素的邻域是否与该类有交集来进行扩张。收缩的区域称为核心域,扩张域和核心域的差集称为边界域。在UCI数据集上的实验结果显示,该方法在提高聚类结果的结构和F1值方面有较好的效果。

结合词向量和Bootstrapping的领域实体上下位关系获取与组织67-72

摘要：实体上下位关系是构建领域知识图谱不可或缺的一种重要的语义关系,传统抽取上下位关系的方法大多不考虑关系的组织。提出一种结合词向量和Bootstrapping的方法来实现领域实体上下位关系的获取与组织。首先,选取旅游领域的种子语料集;然后,采用基于词向量的相似度计算方法对种子集中包含的上下位关系模式进行聚类,筛选出置信度高的模式并对未标注语料进行上下位关系识别,得到候选关系实例,同时选择置信度高的关系实例加入到种子集中,进行下一轮的迭代,直到得到所有的关系实例;最后,根据领域实体上下位关系对的向量偏移并结合领域实体层级关系的特点,采用映射的学习方法进行领域实体层级关系组织。实验结果表明,与传统的方法相比,所提方法的F值提高了近10%。

基于单边区间集概念格的不完备形式背景的属性约简73-78

摘要：单边区间集概念的提出为不完备形式背景的数据分析奠定了理论基础,也为研究其属性约简提供了思路。首先给出了不完备形式背景上的4种约简,即保持单边区间集概念格结构不变的约简、保持并（交）不可约元外延不变的约简与保持对象单边区间集概念外延不变的约简,并研究了它们的关系,最后给出了基于差别矩阵与差别函数计算约简的方法。

串行概率粗糙集近似79-83

摘要：经典的概率粗糙集模型是基于等价关系和条件概率提出的。但在实际应用中,知识库存在多种不确定性因素,使得对象间的关系未必满足等价关系。因此在保证条件概率有意义的情况下,将等价关系推广到串行二元关系,讨论了串行关系下的概率粗糙集近似;研究了当目标概念发生变化时,串行概率粗糙下、上近似的性质;进一步,通过调整两个阈值,给出了对应的串行概率粗糙下、上近似的变化趋势。

概念格中基于粗糙熵的属性约简方法84-89

摘要：属性约简是概念格理论的研究重点内容之一。通过将粗糙熵引入概念格理论中,定义了一种粗糙熵约简。首先,基于所有概念外延定义了形式背景的粗糙熵,并分析了它的性质;其次,定义了形式背景的粗糙熵约简,并揭示了粗糙熵约简与概念格约简之间的关系;在此基础上,基于属性重要度设计了计算粗糙熵的启发式算法,并通过实验验证了该算法的有效性。

基于协同过滤的三支粒推荐算法研究90-96

摘要：为了降低传统协同过滤算法的推荐成本,并解决该算法评分信息单一的问题,提出了一种基于协同过滤的三支粒推荐算法。该算法在传统协同过滤的基础上,考虑项目特征对用户评分的影响,根据项目特征、粒化用户项目评分矩阵,形成用户对项目粒度的评分矩阵,并以此作为用户偏好的测度依据。同时,该算法在推荐过程中引入三支决策,考虑了推荐过程中产生的误分类成本和学习成本,并基于用户真实的评分偏好构建三支推荐。实验结果显示,基于协同过滤的三支粒推荐算法与传统协同过滤算法相比,不但提高了算法的推荐质量,而且降低了推荐成本。

基于Spark的点排序识别聚类结构算法97-102

摘要：点排序识别聚类结构（Ordering Points to Identify the Clustering Structure,OPTICS）的密度聚类算法能以可视化的方式导出数据集的内在聚类结构,并且可以通过簇排序提取基本的聚类信息。但是该算法由于时空复杂度较高,不能很好地适应当今社会出现的大型数据集。随着云计算和并行计算的发展,提供了一种解决OPTICS算法复杂度缺陷的方法和一种建立在基于Spark内存计算平台的点排序识别聚类结构并行算法。测试的实验结果表明,它能极大地降低OPTICS算法对时间和空间的需要。

带弱通配符的模式匹配及其在时序分析中的应用103-107

摘要：针对模式匹配的准确性和灵活性问题,提出了一种基于弱通配符的匹配算法,以快速定位重要的时间点,辅助用户决策。首先通过数据预处理得到编码字符串序列,然后定义具有特殊语义的弱通配符及区间长度,最后设计一种高效的模式匹配算法。在时序分析中,模式反映了数据的变化趋势,预示着事件的发生。传统的精确匹配受噪声的影响比较大,匹配的灵活性低。通过添加弱通配符可以兼顾匹配过程的灵活性和准确性。油田产量与股票交易数据实验表明,所提方法较精确匹配而言,能够更有效地找到符合用户要求的模式。

多李群覆盖学习优化算法108-112

摘要：目前,已针对李群多连通空间上的道路交叉问题提出了多李群核覆盖学习算法,降低了道路交叉情况,使得分类正确率有了显著提高。但是,核学习算法的性能依赖于核函数的选择。考虑利用李群同态映射将原始李群样本映射到目标李群空间中,使在目标李群空间中不同单连通空间上的道路的关联度最小化,同一单连通空间上的道路的关联度最大化,从而减少道路交叉问题。

对象更新环境下的多粒度决策系统的最优粒度选择113-117

摘要：多粒度决策系统是一类重要的关系数据库,最优粒度选择是研究多粒度决策系统的主要目的之一。讨论了对象更新环境下的多粒度决策系统的最优粒度选择。首先,介绍了多粒度信息系统和多粒度决策系统;然后,引入了广义决策函数,并利用此函数定义多粒度决策系统的协调性和最优粒度;最后,讨论了对象更新环境下不同协调性的多粒度决策系统的最优粒度的变化规律。

计算机科学杂志北大期刊 CSCD期刊 统计源期刊

Computer Science

魅力中国

科学通报

科学技术与工程

价值工程

计算机仿真

科学中国人

科学大众

当代教育科学

江苏农业科学

材料导报

期刊咨询

期刊推荐

文秘服务

计算机科学 2018年第01期杂志文档列表

计算机科学杂志 北大期刊 CSCD期刊 统计源期刊

Computer Science

魅力中国

科学通报

科学技术与工程

价值工程

计算机仿真

科学中国人

科学大众

当代教育科学

江苏农业科学

材料导报

期刊咨询

期刊推荐

文秘服务

计算机科学 2018年第01期杂志 文档列表

计算机科学杂志北大期刊 CSCD期刊统计源期刊

计算机科学 2018年第01期杂志文档列表