计算机工程与科学杂志-2013年第11期-学术点评

计算机工程与科学 2013年第11期杂志文档列表

计算机工程与科学杂志高性能计算专辑

2013年中国高性能计算机发展现状分析及系统测评技术简析

摘要：根据2013年11月的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了深入分析.同时,对高性能计算机系统的测评技术,尤其是对用作排行榜性能测试的Linpack和国内外最近关注的HPCG两个软件包进行了简要分析.

1-5

高性能计算机系统及平台发展状况分析

摘要：近年来,随着部级高性能计算平台的相继建立,超级计算中心的运维模式也从过去强调购置开销向注重运营管理成本转变.在分析相关技术与应用发展趋势的同时,从高性能计算机系统、芯片等硬件设施和超级计算中心自身及应用等软环境两方面对超级计算中心发展现状做出分析,探讨制约超级计算中心可持续发展的相关问题.

6-13

延时敏感的推测多线程调度策略

摘要：随着大规模片上多核处理器的发展,越来越多的核被集成到一个芯片上.一方面,总会有一些核处于空闲状态;另一方面,受功耗限制片上单核比较简单,导致单线程性能较弱.通过在片上多核处理器上支持推测多线程机制,可以利用空闲的片上资源来加速串行程序执行,提高单线程性能.决定推测多线程执行性能的一些额外开销,比如缓存缺失率上升、冲突检测开销、线程提交开销以及推测线程重新执行开销等,对片上多核处理器访存时延和核间通信时延非常敏感.传统的多线程调度算法因为没有考虑到推测多线程机制的特点,在用于推测多线程调度时效果不佳.提出的延时敏感的推测多线程调度算法,利用推测多线程在剖析、编译阶段产生的访存特性统计和实时访存记录,计算程序的数据重心,逐步将推测多线程调度到数据重心周围的相邻几个核中执行;同时,在推测线程调度过程中充分利用提交成功的线程和推测失败的线程留在缓存中的数据,提高缓存利用率.实验结果表明,推测多线程机制执行中,采用延时敏感的推测多线程调度策略相对于广泛采用的优先级调度策略能够取得平均16.8％的性能提升;相对于最近提出的基于非一致性数据访问优化的集群线程调度策略能够取得平均10.1％的性能提升.

14-21

新型适应性路由器微体系结构研究

摘要：路由器芯片是互连网络的核心部件.介绍一种支持完全适应性维度气泡路由的新型路由器微体系结构.针对维度气泡完全适应性路由算法的特点,优化设计了路由器的输入缓冲以及仲裁开关逻辑.采用DC工具评估了新型路由器的面积以及延迟.实验结果表明,相对基于Duato方法的适应性路由器芯片,新型路由器芯片更容易获得更高的主频.

22-26

一种基于聚类的大规模单体分型算法

摘要：大规模单体分型问题是生物遗传分析领域一个重要的基础性问题.针对现有算法求解大规模单体分型问题时存在的缺陷,在原有WinHAP算法的基础上引入聚类思想,提出一种基于聚类的Win-HAP算法.该算法在保证原算法精度不下降的前提下,大大提高了算法的计算速度,降低了空间消耗,并具有空间需求与序列条数无关这一优良特性,因此特别适合处理超大规模的数据集.在SIMD共享存储模型下对算法进行了并行化,并设计了基于贪心的线程任务分配策略,获得了接近线性的加速比.

27-33

大点数一维FFT的GPU设计实现

摘要：鉴于GPU强大的计算性能以及先进的并行处理器架构,主要研究一种将FFT的并行算法映射到CUDA模型的并行设计方法.该设计方法遵循如减少内核函数中的全局存储器访问、全局存储器合并访问、高效利用共享存储器、高密集度计算等GPU平台下主要的设计准则进行优化设计,并在基于NVIDIAFermi处理架构的Tesla C2075 GPU平台上进行了大点数一维FFT设计实现.实验结果表明了该方法的可行性及高效性,在256K点范围内性能优于CUFFT库,加速比最高达到CUFFT 4.0库的2.1倍.

34-41

非对称交叉开关优化与设计

摘要：高阶路由器设计面临的主要挑战之一是队头阻塞.提出了一种有效缓解队头阻塞的高阶路由器组织结构OE-ASC.OE-ASC使用两种技术来解决队头阻塞,一是采用非对称交叉开关的交换结构ASC,N×N交叉开关可以使用N/m个小型的m×N交叉开关来实现,降低输入端口间发生冲突的概率;二是奇偶队列机制,高效地利用存储资源,降低输入端口内冲突的概率,从而获得很高的吞吐率.对异构交叉开关的吞吐率模型进行了理论分析和模拟验证,给出了OE-ASC交叉开关的逻辑结构和瓦片化微结构.模拟结果表明,OE-ASC基本消除了队头阻塞,在有限输入队列长度时吞吐率可以达到98.6％.与采用队列长度为16的ASC相比,吞吐率提高了7.9％,使用一半的缓冲区即可达到与ASC相近的性能.

42-47

基于集群平台的SAR成像算法多级通信延迟隐藏技术

摘要：实时合成孔径雷达（SAR）成像技术是当前军事和遥感领域的研究热点.SAR成像算法具有庞大的数据量和运算量,对高性能计算的需求巨大,适合采用以集群系统为代表的高性能计算机进行性能加速.依据集群系统的分布存储特性,通信延迟是集群上程序性能提升的首要优化因素.为此,以集群系统为平台,深入研究SAR成像算法的多级延迟隐藏技术,重点对线程安全队列、非阻塞通信和多线程分块通信三种关键技术进行研究,并确定了适合于通信延迟隐藏的最优通信块规模.实验结果表明,经过通信延迟隐藏优化的SAR成像程序具有较高的网络利用率,能显著提升性能.

48-53

多集群计算环境故障监控管理系统

摘要：随着高性能计算集群系统的数量及其节点规模的不断扩大,系统运行维护的难度和工作量也随之加大.介绍的软件系统工作在多套不同软硬件环境的Linux集群系统中,采用命令行脚本程序对各集群中重要的运行状态和指标进行自动监测,并利用socket通信的方式及时将发现的故障信息集中发送到系统管理员Windows终端,切实提高了系统运行维护工作的效率,加快了故障处理响应时间.该系统还利用数据库对故障事件数据进行记录管理,规范了故障处理的流程.

54-61

大规模粒子团簇识别分析

摘要：团簇识别是分子动力学数值模拟数据后处理团簇分析中的一个共性问题.面向JASMIN粒子数值模拟程序输出的可视化数据,设计实现了团簇识别并行算法与团簇分析并行工具.工具提供了三种并行模式：时间维并行、空间维并行、时空维混合并行.使用基于PIC网格加速的广度优先搜索算法,通过虚拟网格片索引直接在多网格片数据上实现团簇识别.团簇分析并行工具应用在千万粒子规模的实际数值模拟数据时具有很好的并行扩展性.

62-67

非合约对地观测数据源的动态汇聚

摘要：互联网上存在大量的免费、公开、有价值的非合约形式的对地观测数据源,这些数据源具有网页查询入口、海量数据隐藏在后台的大型数据库且数据共享平台多样、不同种类空间数据平台难以互联等特点,难以利用传统技术实现数据汇聚和共享.在阐述目前遇到的问题后,提出了一种基于暗网爬虫架构的非合约异构分布式数据源被动汇聚架构;设计出一套数据源识别标准、非合约式数据源发现机制、非合约式数据源搜索条件树构建模式、非合约式数据源索引机制以及数据源异步更新规则,成功汇聚了分布在国际上不同网络域的五个大型对地观测数据源,包括NASA、USGS、ASAR等三个国际上使用较为广泛的运行性数据源;形成了对地观测数据资源自动化汇聚和更新工具集,最终使用户可以通过统一查询界面获取非合约对地观测数据资源信息.

68-75

分数阶微分方程的一种细粒度数据级并行算法

摘要：在GPU上基于CUDA编程模型提出针对Riesz空间分数阶扩散方程显式有限差分法的细粒度数据级并行算法.对算术逻辑操作的基本CUDA核心的细节及网格点值的计算优化进行了描述.实验结果表明,本文提出的并行算法与精确解符合得很好,在NVIDIA Quadro FX 5800 GPU上的运行速度超过多核Intel Xeon E5540 CPU并行算法的运行速度四倍有余.

76-79

性能不对称多核处理器负载均衡调度研究

摘要：同等面积条件下,性能不对称异构多核处理器比同构多核处理器具有更好的性能功耗比,重要前提是操作系统要能够进行合理的任务调度.针对已有算法的不足,基于Linux现有调度框架提出了一种全面的异构感知负载均衡策略,保证了处理器核负载均衡优先原则,无需定义阈值区分程序类别.测试结果表明,该算法既能做到负载均衡,又能实现异构感知.

80-86

一种混合计算环境下的MapReduce并行模型

摘要：提出了一种混合计算环境下的MapReduce并行计算模型,利用该模型可以将高性能集群节点与Internet或Intranet下异构的桌面PC组成混合计算环境,在该混合环境下运行MapReduce任务进行海量数据分析处理,充分利用了大规模桌面PC的计算与存储能力.与Hadoop类似,该模型分为存储层和任务层两层.对该模型及其核心的HybridDFS分布式文件系统和MapReduce算法进行了简单描述,进而设计并实现了一个原型系统,并对其进行了性能测试.测试结果表明,提出的混合计算模型不仅能够实现可靠的MapReduce计算,而且降低了计算的成本开销,具有非常大的潜力.

87-93

PEAK：一种面向弱节点集群的并行可演化管理框架

摘要：弱节点集群Ant Ⅱ是一种面向低功耗数据密集型计算的体系结构,由若干低功耗嵌入式处理器和固态存储紧耦合而成.面向弱节点集群特殊的应用需求和硬件架构,提出了一种具备自愈、热升级的分布式存储和计算框架PEAK.用原生并行编程语言Erlang开发,利用监控树和代码热替换技术等,保证系统的自愈、可演化;采用了去中心化可伸缩容错的Dynamo架构,保证分布式环境下系统的可用性和最终一致性;提出分布式元服务管理框架,提供高效灵活的基础服务部署与管理,可利用若干元服务快速构建PEAK;提供了key-value的存储方式和基于MapReduce的查询功能.测评结果显示PEAK可以很好地平衡计算和I/O能力,满足大规模并行数据访问需求.

94-99

基于NVIDIA Kepler的PIC方法并行

摘要：PIC方法是计算等离子体物理中广泛使用的一种计算方法.通常情况下需要使用大量的计算粒子以达到高的计算精度,这导致非常庞大的计算量.因而PIC方法的加速研究对于减少其时间成本非常有意义.设计了一个基于NVIDIA Kepler GPU的PIC算法,并使用CUDA在GPU上实现了该算法.在PIC方法中最耗时间的两个函数collision和mover被移植到GPU上.在实验中使用了NVIDIA新的Kepler K20 GPU进行这两个函数的性能测试,相比于Intel Sandy Bridge E5-2650,最高获得了30倍的加速.

100-104

ANSYS和Abaqus软件GPU加速性能典型算例测试与分析

摘要：在高性能计算领域,CPU/GPU异构协同处理技术已经成为快速获得计算结果的有效手段之一.典型结构力学计算软件ANSYS和Abaqus最新版本中加入了CPU/GPU协同处理技术,以进一步提高问题的求解效率.利用NVIDIA公司Tesla系列M2090 GPU和上海超级计算中心“蜂鸟”超级计算平台,通过求解典型结构问题,对ANSYS和Abaqus软件在开启GPU加速功能前后对求解效率的影响进行了对比和分析.结果表明,当并行规模低于16核时,GPU加速能够不同程度地减少各类结构问题的求解时间,但加速效果随着并行规模的增加逐渐减弱,多GPU协同求解对加速性能的提高并不明显,在实际应用中,需要结合问题类型以及当前硬件架构选择合适的并行方式和协同处理模式.

105-110

高阶互连网络拓扑结构性能分析与研究

摘要：高性能计算机峰值性能的不断攀升给高性能互连网络带来新的挑战;同时,串行传输技术的发展使芯片引脚带宽增长,使用高阶路由器应对高性能互连网络新挑战的时机已经成熟.因此,如何利用高阶路由器所提供的丰富互连端口提升高性能互连网络的性能和减少高性能互连网络开销是设计高性能互连网络拓扑结构的关键.针对目前基于高阶路由器的典型拓扑结构进行了理论分析,并与传统k元n立方体进行了对比分析.通过在一个基于OMNeT＋＋平台自组开发的高阶互连网络性能测评模拟器上设定不同的通信负载,测评分析了不同的拓扑结构在通信系统下实际的网络延迟和吞吐率的走势,简要分析了典型高阶互连网络拓扑结构的局限性.

111-118

计算机工程与科学杂志

期刊咨询

期刊推荐

文秘服务

计算机工程与科学 2013年第11期杂志文档列表

计算机工程与科学杂志

期刊咨询

期刊推荐

文秘服务

计算机工程与科学 2013年第11期杂志 文档列表

计算机工程与科学 2013年第11期杂志文档列表