计算机科学杂志-2017年第10期-学术点评

计算机科学 2017年第10期杂志文档列表

旅游推荐系统研究综述1-6

摘要：为用户提供个性化推荐服务并提高推荐的准确度和用户满意度,是当前旅游推荐系统的主要研究任务。文中分析了旅游推荐系统与传统推荐系统的异同点,并从基于内容的推荐、基于协同过滤的推荐、基于知识的推荐、基于人口统计的推荐、混和型推荐以及基于位置感知的推荐共6个方面考查了旅游推荐的研究现状。在此基础上,给出了旅游推荐系统的一个总体框架。最后,总结分析了旅游推荐系统面临的6个重点和难点问题,并指出了下一步需要关注的研究方向。

多目标蚁群优化研究综述7-13

摘要：多目标蚁群优化是一类重要的多目标进化算法,它在解决多目标优化问题,尤其是多目标组合优化方面,具有优异的性能。首先,通过总结多目标蚁群优化的研究成果,将多目标蚁群优化分为基于帕累托的方法、基于指标函数的方法和目标分解法3类,并阐述了每类方法的特点和代表性算法;然后,展现了多目标蚁群优化在实际问题中的广泛应用;最后,探讨了目前多目标蚁群优化存在的问题。

基于ARIMA模型的虚拟资源动态调度方法14-18

摘要：将应用部署到云端已经成为业界越来越普遍的做法,高并发、大流量已经成为多数云应用的一大特征。如何应对不断增长的高并发和用户流量的激增、合理利用资源、保障应用的稳定运行是云资源管理需要解决的重要问题。针对基于监控数据进行资源调整的方式容易引发资源调整滞后的问题,提出了一种基于ARIMA预测模型进行资源调整的虚拟资源动态调度方法。该方法能够根据预测的请求量,结合当前资源的负载能力来计算所需的资源规模,从而进行虚拟机资源的配置或释放。实验结果表明,所采用的预测模型能够较好地拟合实验的场景,通过使用基于预测模型的资源调度算法能够及时、有效地保证云服务质量。

数据中心虚拟机节能管理机制19-25

摘要：大规模数据中心需要消耗大量的电能,由此带来了高额的运营成本以及环境污染等问题。为了降低数据中心的能耗,在构造了数据中心管理模型的基础上,提出了虚拟机静态安置算法与动态调整算法。虚拟机的动态迁移技术能够有效地降低数据中心能耗,提升资源利用率。然而,过度地迁移虚拟机,会影响应用的运行质量,造成SLA违背。动态调整阶段,采用了动态阈值的方法来控制虚拟机的迁移,降低能耗。最后,利用CloudSim平台进行了大量的模拟实验。实验结果表明,所提出的数据中心虚拟机节能管理机制（EAMVM）能够降低能源消耗,减少虚拟机的迁移次数。

引力波cWB处理流水线的GPU加速26-32

摘要：引力波是爱因斯坦广义相对论的一个重要预言。大爆炸,特别是双黑洞、双中子星等双星系统是理论上最容易探测到的引力波波源。因为可以通过引力波了解这些重大的天体现象,所以对引力波的探测具有十分重要的科学意义。为此,建造了多个耗费巨资的基于激光干涉原理的引力波观测站（Laser Interferometer Gravitational-Wave Observatory,LIGO）,以期能够首次直接探测到引力波。cWB（coherent Wave Burst）是一条能对多个观测站的数据进行实时分析处理的流水线。如何提高cWB程序的计算能力,成为了探测引力波的道路上亟待解决的问题。在分析cWB流水线特点的基础上,找到其性能瓶颈,设计并实现了一种有效的并行方法,在具有很强并行处理能力的GPU硬件上实现了对cWB流水线的加速。实验结果表明,与原来基于SSE优化加速的CPU实现相比,该CPU可以达到至少10倍的加速,这对于实现多个站点引力波信号的实时处理具有重要意义,在实时数据处理技术上为使用高精度的探测设备发现引力波提供了支持。

SBV：基于SVG的生物信息可视化软件33-37

摘要：生物信息可视化是从生物大数据中挖掘有效信息的重要手段。针对生物信息的海量性、可视化效果的精确性、各种可视化需求的多样性等挑战,设计并实现了一款基于SVG矢量图的生物信息可视化软件SBV（SVG for Bioinformatics Visualization）。SBV充分利用了SVG的可伸缩性、DOM和CSS表现形式的可定制性,实现了10余种常用的生物信息用图,可支持现有的大部分生物信息可视化,是一款易于操作的综合型生物信息画图软件。目前该软件已经在Github上开源,为后续开发更多功能奠定了较好的基础。

基于改进的PSO算法的关键蛋白质识别方法研究38-44

摘要：关键蛋白质是生物体内维持所有生命活动最重要的物质基础。随着高通量技术的发展,如何从蛋白质相互作用网络中识别出关键蛋白质成为目前蛋白质组学的研究热点。针对大部分现有方法仅仅基于网络拓扑结构信息进行识别以及蛋白质相互作用数据假阳性高的问题,提出了改进的粒子群算法来识别关键蛋白质。通过综合考虑网络拓扑结构特性和多源生物属性信息构建了高质量的加权网络,还考虑使用蛋白质节点间联系的紧密程度来衡量蛋白质的关键性,并扩展局部网络拓扑至二阶邻居,大大提高了预测的准确率。提出了衡量top-p关键蛋白质的整体性指标,降低了计算复杂度。在标准数据集上的实验结果表明,与其他经典算法相比,所提算法更具优势,能够识别出更多的蛋白质,具有较高的准确率。

基于一种改进的LBP算法和超限学习机的肝硬化识别45-50

摘要：肝硬化的计算机辅助诊断对肝脏疾病的早期治疗和诊断具有重要意义。针对B超图像中肝硬化病变区域边缘模糊和回声不均匀、尺度因素影响等问题,提出了改进的LBP算法并提取了相应的SLBP特征。该特征较传统的纹理特征更准确地描述了B超图像中肝硬化病变的特征,结合二维Gabor变换,解决了上述难题。鉴于传统的机器学习方法的训练时间较长,采用基于超限学习机的训练方法,并首次将其应用于肝硬化识别。实验结果表明,所提方法对测试集的分类准确率达到95.4%,在时间效率上较传统方法有很大提高。ROC曲线表明,提出的分类方法在准确率和泛化能力上均优于传统方法,有助于肝硬化的临床诊断。

隐蔽脉搏波潮波定位研究51-54

摘要：中心动脉压的临床医学意义虽大于传统肱动脉和桡动脉血压,但其推算方法一直以来受基于有创伤数据的通用转换函数（General Transform Function,GTF）的建立和桡动脉脉搏波中隐蔽潮波位置的确定的约束。提出利用公开的有创伤中心动脉数据（麻省理工学院医学院的MIMIC重症监护数据,MIT MIMIC）,通过傅里叶变换获得GTF,根据中心动脉收缩压数值,结合小波变换,反推脉搏波的隐蔽型潮波位置。研究发现,桡动脉脉搏波经小波sym4和haar变换后,其各自第3阶差值波的最大值后的第6个过零点为隐蔽型潮波位置。实验结果表明,利用所提方法获得隐蔽型潮波位置的识别准确率达到91.11%。

多序列星比对算法的改进及其在Spark中的并行化研究55-58

摘要：多序列星比对算法在确定中心序列时需要计算任意两个输入序列的距离及分数,其较高的时间复杂度耗费了大量时间,因此提出了通过综合计算每个序列产生的k-mers及各个k-mer在各序列中出现的次数来确定k-mers的拼接选择,由k-mers进行拼接从而得到中心序列。进而,在双序列比对过程中采用搜索两个序列最大相似子串的思想,改进的星比对算法的精度在一定程度上得到了明显提升。接着,将改进的星比对算法在Spark中进行并行化设计与实现。采用Spark的Yarn-Client运行模式,对正常人线粒体的多组数据进行实验,分析了算法性能上的不足及改进方向。

基于Openstack的高能物理虚拟计算集群系统及应用59-63

摘要：高能物理计算是典型的高性能计算的应用,运行时需要大量的CPU资源。如果系统的CPU资源利用率不高,会使得计算效率大大下降。传统的高能物理计算环境资源管理是静态的,很难同时满足突发、批处理、CPU密集型、数据密集型等不同类型的作业对于不同的物理资源的需求。文中基于Openstack构建的虚拟计算集群系统,实现以CPU核为粒度进行调度作业,根据当前的作业和虚拟资源情况,动态调度资源,大大提高了资源的利用率。首先介绍本系统的相关研究工作,包括KVM虚拟机的测试优化、高能物理作业在虚拟机上的性能测试及高能物理公共服务云IHEPCloud,这些工作进一步表明了高能物理实验的数据分析在虚拟机上的性能是完全可以被接受的;然后详细介绍了虚拟计算集群系统的设计与实现;最后给出虚拟机计算集群在高能物理计算中的实际应用情况,证明了虚拟计算集群系统能很好地满足高能物理的计算需求。

神威太湖之光上OpenFOAM的移植与优化64-70

摘要：神威太湖之光是最新一期Top500榜单上排名第一的超级计算机,峰值性能为125.4PFlops,其计算能力主要归功于国产SW26010众核处理器。OpenFOAM（Open Source Field Operation and Manipulation）是计算流体力学领域使用最广泛的开源软件包,但是由于其基于C＋＋实现,与神威太湖之光上的异构众核处理器SW26010的编译器不兼容,因此无法直接在该架构上有效运行。基于SW26010的主核/从核的体系架构移植了OpenFOAM的核心计算代码,并采用混合语言编程实现的方式来解决编译不兼容的问题。此外,通过寄存器通信、向量化和双缓冲等优化手段,单核组的性能较优化后的主核代码提高了8.03倍,较Intel（R）Xeon（R）CPU E5-2695v3的串行执行性能提高了1.18倍。同时,将单核组的实现扩展到了神威太湖之光的大规模集群上,并进行了强可扩展性测试,256个核组上实现了184.9倍的加速。采用的移植方式和优化手段也可以为其他复杂C＋＋程序在神威太湖之光上的应用提供借鉴。

多核/众核平台上推荐算法的实现与性能评估71-74

摘要：用OpenCL语言标准设计并实现了推荐系统领域的两种经典算法：交替最小二乘法（Alternating Least Squares,ALS）与循环坐标下降法（Cyclic Coordinate Descent,CCD）。将其应用到CPU,GPU,MIC多核与众核平台上,探索了在该平台上影响算法性能的因子：潜在特征维数与线程个数。同时,将OpenCL实现的两种算法与CUDA和OpenMP的实现进行比较,得出了一系列结论。在同等条件下,与ALS算法相比,CCD算法的精度更高,收敛速度更快且更稳定,但所耗时间更长。ALS和CCD算法基于OpenCL的实现性能不亚于CUDA（CCD上加速比为1.03x,ALS上加速比为1.2x）和OpenMP的实现（CCD与ALS上加速比大约为1.6~1.7x）,并且两种算法在CPU平台上的性能均比GPU与MIC好。

高能物理环境中混合存储系统的设计与优化75-79

摘要：高能物理是典型的数据密集型计算环境,数据处理包括模拟计算、重建计算以及物理分析。其中大文件计算占据较大比重,并且高能物理文件访问模式以跳读为主,因此大文件的高速访问成为整个系统性能的重要影响因素。首先剖析传统高能物理计算环境的典型架构及其文件访问模式的特点,介绍混合存储模式在高能物理计算环境中的优势,总结其数据访问方式的特点,对其各种读写方式进行数据测试;然后提出针对该环境的混合存储系统的部署设计和优化,使该环境下的数据读写性能得到明显提高;同时将成本因素考虑到系统设计中,实现了一个低成本高性能的存储系统。测试表明,混合存储系统在高能物理等大数据存储系统中具有高效的I/O性能。文中全面分析了影响其性能的各种因素,实现了最优化配置的低成本高性能混合存储系统,并对该系统的未来发展趋势进行了分析和展望。

星系分组算法的并行设计与优化：SGI系统与分布式集群对比80-84

摘要：Halo-based Galaxy Group Finder（HGGF）是一种有效的星系分组算法,它根据星系的空间位置、红移、质量等多种属性将星系分组,从而为星系组的形成与演化研究提供重要依据。但是,算法当前的OpenMP实现版本仅能利用单节点提供的资源,在大规模星系分组问题上的应用受到限制。一种优化思路是采用多机并行,使其可以利用更多资源来解决更大规模的星系分组问题,并缩短执行时间。因此,有必要对算法重新进行设计与实现。实现此目标的一大挑战是程序中存在大量半随机性远端内存访问,其在多机并行环境下会对性能造成重大影响。为克服这一难题,设计中提出了邻接星系链表思想,并采用Unified Parallel C（UPC）进行程序实现。对于核代码部分,使用4,8,16节点时,可分别取得2.25,2.78,5.07倍的加速比;同时,对单个节点的内存需求也显著减少。OpenMP版本在SGI UV2000上的实验结果显示,受限于程序的访存特性与机器体系架构的特点,类似HGGF算法这种具有随机数据访问特征的程序,很难有效利用NUMA结构的共享内存系统中提供的大规模线程与内存资源来直接取得高加速比。在分布式内存集群上采用两级并行设计,以更好地利用局部性原理,可能是更好的解决方案。

大型高能物理计算集群资源管理方法的评测85-90

摘要：高能物理数据由物理事例组成,事例之间没有相关性。可以通过大量作业同时处理大量不同的数据文件,从而实现高能物理计算任务的并行化,因此高能物理计算是典型的高吞吐量计算场景。高能所计算集群使用开源的TORQUE/Maui进行资源管理及作业调度,并通过将集群资源划分成不同队列以及限制用户最大运行作业数来保证公平性,然而这也导致了集群整体资源利用率非常低下。SLURM和HTCondor都是近年来流行的开源资源管理系统,前者拥有丰富的作业调度策略,后者非常适合高吞吐量计算,二者都能够替代老旧、缺乏维护的TORQUE/Maui,都是管理计算集群资源的可行方案。在SLURM和HTCondor测试集群上模拟大亚湾实验用户的作业提交行为,对SLURM和HTCondor的资源分配行为和效率进行了测试,并与相同作业在高能物理研究所TORQUE/Maui集群上的实际调度结果进行了对比,分析了SLURM及HTCondor的优势和不足,探讨了使用SLURM或HTCondor管理高能物理研究所计算集群的可行性。

CRH2型动车组列车信息传输网络流量建模与预测91-95

摘要：针对CRH2型动车组列车网络流量数据日益复杂的特性,提出了一种将主成分分析法（PCA）与后馈神经网络（BP网络）相结合的网络流量建模预测思路。基于已搭建好的CRH2型列车通信仿真平台,对该仿真网络各条链路进行流量采集。为了降低分析的复杂度,流量数据先进行PCA降维预处理分析,再将数据输入到BP神经预测网络模型进行仿真预测。经验证,该思路能有效拟合列车主体网络流量的变化趋势,为CRH2型动车组通信网络的故障诊断分析提供了一定的参考。

一种改进的加权网络链接预测方法96-98

摘要：目前,复杂网络的链接挖掘问题已得到了广泛研究,而加权网络的相关研究还较少且结果不甚理想。鉴于此,提出一种新的针对加权网络的链接预测方法,对以往方法中的加权相似性度量进行改造。新方法主要基于这一假定：链接xz为强关系而链接zy为弱关系时,链路〈x,z,y〉对节点x和y之间形成链接的贡献最低。因此,新方法中链接xz为强关系而链接zy为弱关系时,链路〈x,z,y〉对节点x和节点y之间的相似性得分S（x,y）的贡献度的削弱程度最大。在带权网络数据集USAir和NetScience上的比较实验表明,新方法在AUC指标上具有一定的优势。

计算机科学杂志北大期刊 CSCD期刊 统计源期刊

Computer Science

魅力中国

科学通报

科学技术与工程

价值工程

计算机仿真

科学中国人

科学大众

当代教育科学

江苏农业科学

材料导报

期刊咨询

期刊推荐

文秘服务

计算机科学 2017年第10期杂志文档列表

计算机科学杂志 北大期刊 CSCD期刊 统计源期刊

Computer Science

魅力中国

科学通报

科学技术与工程

价值工程

计算机仿真

科学中国人

科学大众

当代教育科学

江苏农业科学

材料导报

期刊咨询

期刊推荐

文秘服务

计算机科学 2017年第10期杂志 文档列表

计算机科学杂志北大期刊 CSCD期刊统计源期刊

计算机科学 2017年第10期杂志文档列表