发表咨询:400-808-1731
订阅咨询:400-808-1751
北大期刊
影响因子 0.51
人气 23749
北大期刊
影响因子 0.94
人气 20397
部级期刊
影响因子 1.03
人气 13569
北大期刊
影响因子 3.18
人气 11698
统计源期刊
影响因子 0.55
人气 11096
北大期刊
影响因子 0.79
人气 9750
省级期刊
影响因子 0.41
人气 9519
省级期刊
影响因子 0.57
人气 9490
省级期刊
影响因子 0.15
人气 9358
统计源期刊
影响因子 0.35
人气 8472
摘要:网络性能一直是制约高性能计算技术发展的瓶颈,无论是面向计算的网络还是面向存储的网络,通信速度的发展远落后于CPU的发展.InfiniBand互连结构能够缩短网络和CPU之间的性能差距,使高性能计算机的性能趋于平衡.2000年在InfiniBand协议发展初期,国家并行计算机工程技术研究中心就在国家"八六三"计划的支持下开始对InfiniBand协议展开了深入研究,旨在改进高性能计算特别是集群系统的互连性能,研制出符合InfiniBand标准规范的高性能互连部件,并最终开发出了具有自主知识产权的InfiniBand互连网络产品.论述了以自行研制的InfiniBand部件技术为基础的高性能集群计算机系统的组成、结构和应用,并对系统性能进行了实验分析.
摘要:在被高性能计算采用较多的CC-NUMA结构中,IO资源的常见组织形式是分散在各计算结点下,由各结点分散管理.这种组织形式有一些潜在的问题.首先对这些问题进行了分析,然后利用现有的IO链路技术和存储网络技术,提出了一种新的IO系统结构,并介绍了关键模块的设计.经过功能分析表明,新的IO系统结构能取得较高的性能,为全局共享分布并行IO技术的发展提供了参考.
摘要:网格计算机是计算机体系结构未来的发展方向之一,网格使能部件是构成网格计算机系统的重要元素.网格使能部件具有网格实体、功能服务、智能互连3大特征,计算机部件网格使能中的关键问题包括设备描述、互连互通、资源共享与复用、安全等诸多方面.gDevice协议是一个用来解决计算机外设部件网格使能问题的协议.在网格计算机控制台系统Grid Console中,该协议已经得到了部分验证.
摘要:大数模幂是许多公钥算法中的主要操作和计算瓶颈.SEA是一种针对大数模幂的高性能协处理器,其主要采用如下3种加速方法:①采用二进制并行模幂算法(PBME)和以基数长度为处理字长的高基数Montgomery算法(RBHRMMM);②将算法映射到脉动阵列处理结构,并交替计算平方和乘以掩盖RBHRMMM算法中的相关,同时应用定向技术消除PBME算法中的相关;③基于"先拆分乘法、后将累加压缩"的思想优化关键路径.SEA完成1024b完整大数模幂仅需72738个时钟周期,采用基于标准单元的正向设计流程实现,其面积为4.2×4.2mm2,等效门数为739933.目前,SEA已经在0.18μm1P6M CMOS工艺上流片成功,主频133MHz,峰值功耗为962.26mW,使用SEA后,完成一次1024b RSA签名仅需316.9μs.
摘要:人类基因组测序工作完成后,对基因数据的处理和分析能力提出了更高的要求.生物信息学的基本研究方法之一就是计算,其算法的特点是数据量较大、算法比较简单、运算类型单一、重复性较强、潜在的并行度较高.用现有的大规模并行机或超级服务器等通用系统解决这些问题,既浪费系统的资源,使用维护也比较复杂,有些问题甚至无法在限定的时间内完成.提出了一种比较通用的算法可重构硬件加速卡的体系结构,以全局Smith-Waterman算法为例,阐述了从算法到硬件实现的映射过程,并指出了将其他类型算法映射到该加速卡上的可行性.
摘要:针对大字符集语言的特点,提出一种并行硬件模型实现基于网络内容的近似流分类.由于采用并行设计和流水线设计,该模型在大规则库下仍有较好的性能,并可适用于高速网络.该并行模型有如下特点:①通过采用不同的规则组合器可完成插入、删除、替代和交换错误的近似匹配;②通过配置参数,可灵活控制近似匹配的程度;③可直接应用于大字符集语言下的网络内容流分类;④针对中文环境做了概率建模,分析了并行硬件模型对网络分组的匹配概率,证明该模型在一般情况下具有较好的可应用性.
摘要:提出一种新的基于GPU(graphics processing unit)的辐射度方法.该方法利用可编程图形处理单元GPU的并行计算能力,将辐射度方法中形状因子计算以及线性方程组求解的全过程完全在可编程图形硬件中完成,避免了原有基于GPU的辐射度方法需要CPU参与的问题,绕开了计算机主内存与GPU纹理内存之间数据交换的瓶颈;在基于半立方体法的形状因子计算和绘制过程中,解决了基于GPU硬件加速的遍历、分类和累加问题.此外,该方法采用新的矩阵和向量在GPU中的存储方法,利用GPU实现Jacobi迭代法快速求解线性方程组.实验结果证明,该方法能够快速有效地实现辐射度的计算和绘制.
摘要:PATRICIA算法是一种经典的信息检索算法,但是插入性能差、硬件实现困难.研究发现,PATRICIA算法在用于定长匹配时如果不保持NBT值的有序性,可以有效地降低硬件设计复杂度,提高插入性能.提出了一种易于硬件实现的定长匹配PATRICIA算法,证明了该算法是时间性能最优的二叉trie算法.针对状态检测技术中的状态表操作,设计了专用硬件结构实现该算法.理论和实验结果表明,该算法易于硬件实现,能够有效地对千兆网络环境的状态表进行操作.
摘要:作为系统域网络接入设备,适配器的功能和性能对整个机群系统的性能有着至关重要的影响.鉴于嵌入式技术的发展,提出了基于Intel IOP310 I/O处理器的曙光4000A超级计算机DCNet系统域网络适配器设计.适配器在原嵌入式系统基础上将本地内存总线扩展为用于网络互连的局部总线,并基于该总线设计实现了网络接口部件.DCNet适配器不但实现了与Myrinet,SCI和QsNet适配器相近的性能,而且证明了基于嵌入式系统和内存总线扩展网络接口方法实现高性能适配器是有效可行的.
摘要:拓扑结构和路由算法是影响多级交换网络性能的重要因素.在比较多种多级互连拓扑属性的基础上,提出将3D Torus结构应用于大规模交换网络设计.然后针对3D Torus交换网络中报文路由面临的两个关键问题:多路径负载均衡和报文保序,提出一种基于维序的多路径路由算法DMR(dimension-order-based multi-path routing).该算法可在保证报文顺序的同时在多条路径上平衡负载,提高交换网络吞吐率.最后通过模拟验证了算法的性能,并与维序路由和随机路由算法进行了比较.模拟结果表明,DMR算法的性能优于维序路由算法,能够达到随机路由算法性能水平,同时具有随机路由算法所不具备的报文保序特性.
摘要:网络通信系统是机群的一个重要组成部分,也是影响机群整机处理效率的关键因素.随着单个结点计算能力的增强,网络通信能力也需要相应地提高.一种提高网络通信能力的方法是引入多个网卡同时进行消息发送,即并行通信.通常,并行通信是基于RMA机制实现的,对于小于17KB的消息,由于RMA机制的握手过程使得并行通信性能的提高很有限.提出了基于智能网卡支持的并行通信协议.该协议将消息重组所需的握手过程下移到网卡上实现,从而减少了握手开销,扩展了并行通信的范围.实验数据表明,与基于RMA机制的并行协议相比,该协议提高了3KB~17KB消息段的通信性能;对应用程序,如FT程序,该协议将其执行时间减少了9.4%,而基于RMA机制的并行协议只减少了7.8%.最后分析了限制并行通信性能提高的主要因素.
摘要:从操作系统的角度完备地定义了一体化机群功能软件Phoenix的体系结构,将机群操作系统分为异构资源、机群操作系统核心、用户环境3个层次,综合用户环境的核心需求,定义了机群操作系统核心的结构,并且基于组服务保证了机群操作系统核心的容错和可扩展特性.在机群操作系统核心的基础上构造了满足于不同用户需求的用户环境.Phoenix在曙光4000A高性能计算机系统上得到了应用.
摘要:分布式检查点系统是大规模并行计算系统容错的重要手段.协议开销和检查点映像存储成为困扰并行检查点系统可伸缩性的两大瓶颈.针对并行应用程序的执行特征和高性能集群的体系结构特点,C系统分别采用动态虚连接技术和分布存储检查点映像的方法来有效降低协同式检查点的开销,增强检查点系统的可伸缩性.初步测试结果表明,C系统的设计策略适合大规模并行计算的容错.
摘要:高可用和容错已经成为衡量机群系统(简称机群)的一个重要指标,随着机群的规模越来越庞大,如何实现大规模机群下的容错管理软件成为了技术难点.以传统分布式系统中的组通信技术为基础,采用将复杂的系统"分而治之"的思想,提出了组服务技术,可以解决容错管理软件的可扩展性和高可用性.同时,在组服务技术的基础上,结合实时的事件服务技术实现了一个大规模机群下的容错管理系统DCFT-Kernel,介绍了实现组服务和DCFT-Kernel的主要技术问题,并且对DCFT-Kernel的性能进行了分析.
摘要:良好的可扩展性使得人们可通过扩大机群系统的规模来达到所需要的计算能力,但随着机群系统节点数目的增多,节点失效对机群系统性能的影响已经成为大规模机群系统使用过程中一个不可回避的问题.机群作业调度作为机群操作系统软件的重要组成部分,完成高效资源管理与合理作业调度,机群作业调度系统功能上可分为作业选取策略和节点分配策略两部分.结合机群系统节点失效的特征,提出了正常运行时间最长节点优先(longest uptime node first,LUNF)的节点分配策略.仿真结果表明,相对于节点随机分配策略,LUNF策略的作业平均响应时间与作业平均slowdown降低10%左右.