HI,欢迎来到学术点评,咨询热线:400-888-7501 订阅咨询:400-888-7502 股权代码 102064
计算机科学杂志社
分享到:
《计算机科学》由国家科技部西南信息中心主办,统计源期刊,综合影响因子:0.631。计算机科学报导国内外计算机科学与技术的发展动态,为计算机科学与技术达到国际先进水平而奋斗。
  • 主管单位:国家科学技术部
  • 主办单位:国家科技部西南信息中心
  • 国际刊号:1002-137X
  • 国内刊号:50-1075/TP
  • 出版地方:重庆
  • 邮发代号:78-68
  • 创刊时间:1974
  • 发行周期:月刊
  • 期刊开本:A4
  • 复合影响因子:0.94
  • 综合影响因子:0.687
更多期刊

计算机科学 2019年第04期杂志 文档列表

计算机科学杂志大数据与数据科学

动态数据流分析的在线超限学习算法综述

摘要:动态数据流分析是一个具有广泛应用价值的研究课题,在线学习方法是其中的一种关键技术。在众多在线学习方法中,在线贯序超限学习机(Online Sequential Extreme Learning Machine,OSELM)是一种新颖且实用的在线学习算法,目前已在动态数据流分析中得到了成功应用。首先,介绍了OSELM的理论基础和算法执行过程;然后,以动态数据流分析为应用背景,对各种改进OSELM算法进行了分类综述,包括基于滑动窗口的OSELM、基于遗忘因子的OSELM、基于样本加权的OSELM以及其他方法,重点论述了各类算法的设计思路和实现策略,并对其优缺点进行了比较和分析;最后,探讨了值得进一步研究的问题。
1-7

基于概率推断的质量控制智能体

摘要:实体解析(Entity Resolution,ER)是数据集成和清洗领域的基础问题,而不一致性消歧(Inconsistency Reconciliation,IR)通过对现存的不同ER算法产生的不一致记录对进行消歧,进一步提升解析效果。但是现有的IR方法有一个局限,即消歧结果没有质量保障。对此,首次提出了一个基于概率推断的质量控制智能体,记为QCAgent。该智能体不需要训练数据集,能够在满足给定查准率的约束条件下输出查全率最大的消歧结果。它的核心思想是:首先,使用异常点检测模型来估算不一致记录对匹配的概率,并依据这些概率估算查准率和查全率,再将计算出的查准率和查全率作为环境端的反馈;其次,使用二分搜索算法,选择满足查准率要求且查全率最大的翻转方案,作为QCAgent的下一次行动;然后,用更新后的一致结果训练异常点模型,并估算查准率和查全率。按此循环,当新估计的查准率满足约束条件时,该迭代过程停止。在真实的数据集上,实验结果表明:QCAgent能够有效解决消歧结果的质量控制问题。
8-13

交通事故时空模式可视分析方法

摘要:随着城市化进程的推进,城市人口和车辆迅速增长,城市交通事故日益频发,成为社会关注的热点.以合肥市近十年的交通事故记录数据为研究对象,运用可视分析方法分析交通事故记录数据中事故发生的时间和地点信息,探究交通事故的时空模式,构建交通事故可视分析系统,以辅助相关部门改善交通事故频发问题.文中首次提出了道路事故危险度的概念,并以之为判定依据,结合多尺度时间统计折线图和周期性时间统计环形图等可视化方法,构建了一种新的事故多发路段的识别方法.与传统事故多发路段识别方法相比,本方法无需对道路进行分段处理,从而避免了分段优劣对识别结果的影响.在此基础上,将交通事故数据与城市路网数据相结合,运用可视分析技术构建交通事故可视分析系统.本系统可以帮助相关部门了解总体城市交通事故和单条道路的时间模式及事故多发路段,并探究连续时间限定或周期时间限定下的事故多发路段.除时间条件外,本系统还能识别不同天气等其他限定条件下的事故多发路段,从而使得交警部门能根据不同情况下的道路事故危险度来进行决策管理,并合理部署救援警力,降低事故危害.所提系统对缓解和遏制交通事故增长势头、减少和预防道路交通事故具有重要的现实意义,并且也有利于道路交通的科学有效管理.
14-21

基于层次聚类的不平衡数据加权过采样方法

摘要:不平衡数据对传统分类算法的性能有一定影响,使得少数类的识别率降低。过采样是处理不平衡数据集的常用方法之一,其主要思想是通过增加少数类样本,使得少数类与多数类的数量能够在一定程度上达到平衡,但现有的过采样方法存在合成重叠样本以及过拟合的问题。文中提出一种基于层次聚类的不平衡数据加权过采样方法WOHC(Weighted Oversampling method based on Hierarchical Clustering)。该方法首先使用层次聚类算法对少数类进行聚类,将少数类样本划分为多个类簇,然后计算出类簇的密度因子来确定各类簇的采样倍率,最后根据每个类簇中样本与多数类边界的距离确定采样权重。利用该方法采样并结合C4.5算法在多个数据集上进行分类实验,结果表明使用该方法能够使分类算法在F-measure和G-mean指标上分别提升7.6%和5.8%,体现了该方法的有效性。
22-27

面向大规模图数据的分布式子图匹配算法

摘要:图数据规模的爆发式增长使在单机上的子图匹配变得较为困难.尽管现有的分布式算法可以在一定程度上解决大规模图数据的子图匹配问题,但分布式环境中的网络通信代价仍然影响着算法的性能.为此,文中提出了DSGsearch分布式子图匹配算法,包含查询图拆分、数据图预处理、候选顶点过滤、中间结果合并4个步骤.其中,在数据图预处理步骤中使用图划分和完善邻居顶点策略来降低匹配过程中分布式计算节点之间的通信代价;在过滤候选顶点阶段设计DSgraph存储结构存储候选顶点,通过推迟笛卡尔积来减少冗余的中间结果.最后设计了对比实验并在具有7个计算节点的Spark分布式集群上使用真实数据集进行验证.实验结果表明,DSsearch算法能够在秒级时间内完成对百万规模顶点的数据图的子图匹配,尤其是在处理复杂查询图和稠密数据图方面更高效.数据图预处理策略的实验结果说明了通过顶点复制来降低分布式环境中网络通信代价这一策略的可行性.相比TwinTwigJoin、PSgL等算法,随着查询图顶点数量的增加,DSsearch算法的运行时间增长得更缓慢,当查询图顶点数量达到14时,其运行时间是TwinTwigJoin和PSgL算法的一半.实验数据充分说明,分布式环境中的网络通信代价和中间结果数量是影响分布式子图匹配算法的主要因素.实现数据图的预处理和推迟笛卡尔积解决了分布式子图匹配的性能瓶颈问题,有效地完成了大规模图数据的子图匹配.
28-35

面向隐式反馈的标签感知推荐方法

摘要:为进一步提高面向隐式反馈的标签感知推荐性能,针对隐式反馈数据的稀疏性问题以及标签数据的冗余、语义模糊等问题,提出了一种基于用户细粒度偏好和增量加权矩阵分解的个性化推荐方法.为缓解隐式反馈数据稀疏不平衡的影响,提出使用协同近邻用户关系从大规模未观测数据中挖掘目标用户可能感兴趣的潜在项目,即近邻用户感兴趣但目标用户未选择的项目,进而提出了用户对项目的细粒度偏好假设:观测项目>潜在项目>其他未观测项目,改进传统成对偏好假设的粗糙性.为获取更为可靠的近邻用户,利用基于深度学习的方法来抽取用户G标签的低维、抽象的深层语义特征,缓解了原始标签数据的冗余、语义模糊等对用户表征的影响.最后,基于用户的细粒度偏好提出一种增量加权矩阵分解模型,并进行快速优化求解与推荐.实验结果表明:提出的算法在多个排序推荐准确性的评价指标(Pre@5,NDCG@5,MRR)上分别提升了约9%,8%,9%,验证了所提算法的有效性.
36-43

基于分布式无共享架构的海量数据并行查询平台

摘要:针对海量数据查询所面对的数据加载和并行查询控制等难题,提出了一种基于分布式无共享架构的海量数据并行查询平台.该平台利用分布式无共享架构为海量数据查询提供结构化与非结构化数据的统一处理,实现平台内数据的聚合计算.平台的核心技术如下:首先提供了多类型数据的跨平台存储与统一数据加载;然后给出了基于负载均衡的多节点数据查询任务流分配技术,生成全局查询执行策略;最后采用Hash和Range两种方式实现查询任务流的并发控制.根据测试验证,本技术在查询时间上相比于无并行方式节约了近40%.实验结果表明,该技术在海量数据查询的正确性、可靠性、并发性上具有较好的性能.
44-49

基于上下文相似度矩阵的Single-Pass短文本聚类

摘要:在线社交网络已经成为人们信息交流的重要渠道和载体,形成了与现实世界交互影响的虚拟社会。众多的网络事件通过社交网络进行快速传播,可以在短时间内成为舆论热点,而负面事件会对国家安全和社会稳定造成冲击,从而引发一系列的社会问题。因此,挖掘社交网络中蕴含的热点信息,无论是从舆论监督方面还是舆情预警方面都具有重要的意义。文本聚类是挖掘热点信息的一种重要方法,然而,使用传统长文本聚类算法处理海量短文本时准确率将变低,复杂度急剧增长,从而导致耗时过长;现有的短文本聚类算法的准确率偏低、耗时过长。文中基于文本关键词,提出了结合上下文和相似度矩阵的关联模型,从而判断当前文本与上一文本的关联性。此外,根据该关联模型对文本关键词权重进行调整,以进一步降低噪声。最后,在Hadoop平台上实现了分布式的短文本聚类算法。与K-MEANS,SP-NN,SP-WC算法的比较实验验证了所提算法在话题挖掘速度、准确率和召回率等方面都具有更好的效果。
50-56

面向多尺度数据挖掘的数据尺度划分方法

摘要:多尺度挖掘在图形图像、地理信息、信号分析、数据挖掘等领域已有应用,多尺度数据挖掘在关联规则、聚类、分类挖掘领域也有相关研究与应用,但对如何对数据集进行普适性的多尺度划分以及如何构建多尺度数据集仍未展开研究,已有相关研究缺乏深度.文中从多尺度数据挖掘任务入手,定义了尺度概念,并给出了多尺度化数据集模型,以及基准尺度评分模型;依据概率密度估计的离散化方法提出了多尺度划分算法,扩展了可划分尺度的数据类型,划分结果更贴近数据的多尺度特性,且具有较低的时间复杂度;提出了多尺度化数据集方法、构建多尺度数据集算法和基准尺度选择算法,将多尺度熵与信息熵作为评价方法,在扩充多尺度化数据集方法的基础上,有效减弱了多尺度数据挖掘中因尺度推衍而产生的尺度效应,算法的时间复杂性也较为可控.利用H省真实人口数据集、UCI公用数据集和T10I4D100K数据集对所提算法和模型进行验证与实验分析,结果表明多尺度划分算法和多尺度化数据集方法是可行的,提出的多尺度化数据集方法和基准尺度评分模型是有效的,多尺度划分方法、构建多尺度数据集方法和基准尺度选择方法的应用平均提高了尺度推衍过程中1.6%的覆盖率、2.1%的F1Gmeasure和3.7%的正确率,且具有较低的平均支持度误差.
57-65

一种用于影像遗传学关联分析的高阶统计量结构化稀疏算法

摘要:神经影像技术和分子遗传学的发展产生了大量的影像遗传学数据,极大地促进了复杂精神疾病的研究.但因为该数据的特征维度过高且相关性的度量都是假设数据服从高斯分布,所以传统的算法往往无法很好地解释两类数据之间的依赖关系.为了解决传统算法的问题,文中提出了一种对大量SNP和fMRI数据进行关联分析的方法,该方法通过构建稀疏的特征网络结构来指导fusedlasso进行特征选择,与此同时,该方法利用高阶统计量提取出具有统计显著性的变量,从而识别出与精神疾病有关的生物标记物.实验结果表明,在模拟数据中所提算法得到的典型向量值的分布与实际数据中值的分布几乎一致且得到的相关系数与数据集中实际的相关系数最接近,所提算法的平均相关系数最高达到81%,比L1GSCCA提高了约20%,比FLGSCCA提高了约3%;在真实数据中,相比另外两种算法,所提算法可以找出更多的对精神分裂症有潜在影响的基因与脑区.实验结果证明:该算法可以在合理时间内有效识别出风险基因和异常脑区.
66-72

基于模糊神经网络的异常网络数据挖掘算法

摘要:异常网络数据受到聚类中心的模糊加权扰动的影响,导致数据挖掘的聚类性不好.文中提出一种基于模糊神经网络的异常网络数据挖掘算法,该算法根据异常网络数据的混合分类属性进行相似度分析,提取异常网络数据的数值属性特征和分类属性特征,采用联合关联规则分析方法进行异常网络数据的模糊融合处理,采用基于模糊质心相异性的度量方法构建异常网络数据的分类模糊集,并在模糊数据集中进行异常网络数据混合加权和自适应分块匹配,进而提取异常网络数据的弱关联化特征量,最后将提取的特征量输入到模糊神经网络分类器中进行数据分类识别,完成异常网络数据的优化挖掘.仿真结果表明,采用所提方法进行异常网络数据挖掘的数据聚类性较好,挖掘过程的收敛性和抗干扰性较强.
73-76

基于多信息融合表示学习的关联用户挖掘算法

摘要:随着互联网技术的迅速发展和普及,越来越多的用户开始通过社会网络进行各种信息的分享与交流。网络中同一用户可能申请多个不同账号进行信息发布,这些账号构成了网络中的关联用户。准确、有效地挖掘社会网络中的关联用户能够抑制网络中的虚假信息和不法行为,从而保证网络环境的安全性和公平性。现有的关联用户挖掘方法仅考虑了用户属性或用户关系信息,未对网络中含有的多类信息进行有效融合以及综合考虑。此外,大多数方法借鉴其他领域的方法进行研究,如去匿名化问题,这些方法不能准确解决关联用户挖掘问题。为此,文中针对网络关联用户挖掘问题,提出了基于多信息融合表示学习的关联用户挖掘算法(Associated Users Mining Algorithm based on Multi-information fusion Representation Learning,AUMA-MRL)。该算法使用网络表示学习的思想对网络中多种不同维度的信息(如用户属性、网络拓扑结构等)进行学习,并将学习得到的表示进行有效融合,从而得到多信息融合的节点嵌入。这些嵌入可以准确表征网络中的多类信息,基于习得的节点嵌入构造相似性向量,从而对网络中的关联用户进行挖掘。文中基于3个真实网络数据对所提算法进行验证,实验网络数据包括蛋白质网络PPI以及社交网络Flickr和Facebook,使用关联用户挖掘结果的精度和召回率作为性能评价指标对所提算法进行有效性验证。结果表明,与现有经典算法相比,所提算法的召回率平均提高了17.5%,能够对网络中的关联用户进行有效挖掘。
77-82
计算机科学杂志网络与通信

语义驱动下的网络资源符号设计方法

摘要:网络空间资源是认知网络空间的基本单元.系统化和结构化的网络资源符号体系可为正确认知和理解网络空间态势,快速共享和辨识网络态势标绘,客观把握和了解网络资源分布情况、所处状态和归属关系提供至关重要的帮助.为此,文中参考语义驱动下的地图符号设计方法,将自然语义学理论引入网络资源符号设计过程中,提出了一种语义驱动的网络资源符号设计方法.首先,分析和梳理了网络资源的构成,给出了网络资源符号结构和符号语义模型;其次,具体阐述了网络资源符号设计流程与方法;最后,进行了网络资源符号认知实验,并与美军网络态势标号进行了对比评价.实验结果表明,文中所设计的网络资源符号具有形象化和系统化的特点.
83-88

物联网服务的语义化描述:一种WSDL到OWLGS的转换方法

摘要:对于物联网服务的描述,现有的标准是基于XML(Extensible Markup Language)的WSDL(Web Services Description Language)语言,但WSDL语言不能对物联网服务进行语义方面的描述,从而影响了服务发现的准确率。在现有的语义服务描述语言中,OWL-S(Ontology Web Language for Services)语言的影响力最为深远。为了对物联网服务进行语义化描述,提出一种从WSDL到OWL-S的转换方法。通过操作映射和本体映射,该方法能够将已有WSDL文件转换为OWL-S文件。通过一些测试集合和实例验证了所提方法对文件转换的有效性,而且转换结果的查准率和查全率优于MWSAF方法。
89-94

复杂网络上多智能体系统的一致性研究

摘要:如何有效提高多智能体系统的一致性收敛速度是一致性问题中的一个重要研究内容.一致性收敛速度可通过拉普拉斯矩阵的最小非零特征值来衡量,文中通过计算机仿真发现,对于不同的复杂网络模型,影响其一致性收敛速度的因素也不同.提高网络一致性收敛速度的具体方法是:在最近邻耦合网络中,减少节点数N或增大耦合数K;在NW小世界网络中,增加节点数N或者增大随机化加边概率p,因为收敛速度与二者具有良好的线性关系;在Waxman随机图网络中,增加节点数N或增大其模型中的参数α和β,当β增大时,收敛速度整体上呈线性增长,但会出现较小的波动.该研究结果对优化多智能体网络的一致性收敛速度有一定的指导作用.
95-99

RFID环境下基于自适应卡尔曼滤波的高速移动车辆速度预测

摘要:针对高速移动车辆的速度预测问题,提出了一种射频识别(Radio Frequency Identification,RFID)环境下的基于自适应卡尔曼滤波的车辆速度预测方法。在RFID系统中,当车辆通过标签时,首先,阅读器需要获取该标签上最后一辆车的状态信息(即当前速度和时间戳),同时将自己的状态信息发送到该标签;然后,根据所获得的状态信息来构造状态空间模型;最后,通过带有变遗忘因子的自适应卡尔曼滤波算法来预测和调整车速。自适应卡尔曼滤波算法是利用期望输出值与实际输出值之间的误差来实现自适应遗忘因子的自适应更新,从而实现预测模型的在线更新。数值结果进一步表明,与最小二乘法和传统的卡尔曼滤波算法相比,该算法分别提高了87.5%和50%的速度预测精度,从而证明该算法可以为实际应用提供更好的实时性。
100-105

基于移动sink的农田无线传感器网络数据收集策略

摘要:为解决农田无线传感器网络可扩展性较差及节点能量消耗不均匀的问题,针对农田传感器网络节点众多、网络面积大和移动sink网络对节点密度要求较低的特点,提出了适合农田应用的无线传感器网络的移动sink节点移动策略和抗干扰路由策略.算法通过划分可变子网,并利用跳数限制的汇聚树集路由算法选择路由;同时,针对sink节点附近数据传输量大而容易发生碰撞的问题,对节点的稀疏化处理和区域分时的路由能有效减少数据传输中的相互干扰.仿真结果表明,算法在抗干扰传输的同时能够延长网络的生存期.
106-111

基于用户间干扰的分子通信模型的信道容量分析

摘要:在扩散的多用户分子通信模型中,被释放的分子遵循布朗运动规则,不可避免地存在分子间码间干扰ISI(Inter-Symbol Interference)和用户间干扰IUI(Inter-User Interference)。因此,如何提高该系统的信道容量是目前分子通信模型研究的挑战之一。针对扩散的OOK(On-Off Keying)调制的多用户分子通信模型,分析了ISI和IUI,并通过最小平均错误概率准则得到了接收方纳米机器检测过程中的最优判决阈值,从而优化了信道容量。最后使用MATLAB仿真展示了不同的参数对该分子通信模型的信道容量性能的影响。仿真结果表明,通过设置适当的先验概率、增加扩散系数和时隙持续时间、减少发送方纳米机器和接收方纳米机器之间的距离和用户数,能够提高基于用户间干扰的分子通信模型的信道容量,并降低误码率。
112-117