发表咨询:400-808-1731
订阅咨询:400-808-1751
北大期刊
影响因子 0.65
人气 24535
省级期刊
影响因子 0.67
人气 24300
北大期刊
影响因子 0.51
人气 23740
北大期刊
影响因子 0.99
人气 23225
北大期刊
影响因子 0.94
人气 20390
部级期刊
影响因子 0.98
人气 18726
北大期刊
影响因子 0.95
人气 18044
部级期刊
影响因子 1.03
人气 13568
部级期刊
影响因子 0.38
人气 12806
省级期刊
影响因子 0.16
人气 12301
摘要:半导体工艺的进步使片上可以集成更多的处理核心,对于消耗较多面积和功耗的存储单元,如何有效地减小面积、降低功耗是片上多核研究的一个重要方向。软件指令缓存技术是降低指令存储复杂性,以及降低功耗的有效方式,本文深入对比了硬件Cache结构和软件指令缓存结构,并且详细分析了两款典型的软件指令缓存结构,总结了其特点和需要解决的关键问题,为片上多核的指令存储设计提供了参考。
摘要:高性能计算机和通信系统的互连传输速率超过10Gbps,信号频谱高端已达数10GHz(MGH)以上。本文分析了MGH背板的互连方式,讨论了高性能PCB板材和连接器的性能和应用能力。针对MGH背板高速率串行传输的信号完整性设计要求,提出采用小角度布线、反钻和双直径过孔的设计技术,并在工程设计中得到了成功应用。
摘要:本文通过高性能计算机直流分布式供电系统的一个实际案例,分析了DC-DC变换器输入纹波电流导致母线电流振荡的机理,从而强调电源解耦在大型直流分布式供电系统中的重要性。文中论述了直流分布式供电系统母线解耦的原理和方法,推导出DC-DC变换器输入解耦电容的取值公式。
摘要:本文提出了云计算机体系架构,对此架构下云应用的实现进行了研究,并通过一个模型云脑系统进行了验证。在云脑系统的实现方法中引入了云并行存储的技术,实现了文件的并行上传与并行下载,克服了以往存储服务器的负载不均衡及传输瓶颈等问题。
摘要:片上网络NoC以其高可扩展性成为片上多核的互连解决方案。IP核到NoC结点的映射是片上网络设计的重要阶段。映射对芯片的性能和功耗有重要的影响。本文详细阐述了映射算法的研究现状,给出了映射算法的分类方法,并且分析各种方法的特点。最后,给出一种采用顺序表示的基于遗传算法的NoC映射算法。实验结果表明,该映射算法能够取得较好的准确性和较高的效率。
摘要:多核体系结构加深了并行编程的难度。为开发高效的多核并行调试工具,本文分析了传统并行调试技术面临的问题,提出按并行粒度分级的调试方法,该方法可充分利用并行编程的经验,不断优化调试技术。
摘要:x86是目前应用最广泛的复杂指令(CISC)系统,对大量非典型特性进行支持,从而花费大量硬件资源。而非典型特性的支持往往会影响典型功能的效率,不利于硬件资源的优化配置,限制处理系统性能的提升。本文首先分析了x86指令集及x86程序的固有特性,进而提出了一种基于RISC超标量处理系统核心的软硬件协同设计的实现方案。新处理系统的面积仅为采用硬件译码设计的x86处理系统的78.3%,性能达到采用硬件译码设计的x86处理系统的90.6%以上,并有较大的提升空间。
摘要:随着GPU的发展,其计算能力和访存带宽都超过了CPU,在GPU上进行通用计算也变得越来越流行,这样就构成了CPU-GPGPU的新型异构体系结构。虽然这种新型体系结构表现出了强大的性能优势并受到了学术界和产业界的广泛关注,但如何更好地在这种结构上高效地编写和运行程序仍然存在很大的挑战。本文综述了针对这一体系结构现有的可编程性技术、可靠性技术和低功耗技术,并结合这些技术展望了CPU-GPGPU这种异构系统的发展趋势。
摘要:高性能计算机在各个领域得到了越来越广泛的应用,而这些系统的体系结构特征却有着巨大的差异。IC工艺的进步使得通信机制逐渐超过计算单元,成为了影响系统性能参数、功耗和系统规模的主要因素,使得高性能计算机的设计从以计算能力为主向以数据传输和通信能力为主,并在系统层次上产生了深远的影响。由于通信机制越来越难设计,所以通信往往成为开发的瓶颈,如何使高性能计算平台运行得更快、更高效一直是研究的热点。本文对高性能计算的通信机制进行了研究和分析,给出了近年来高性能计算系统发展趋势,进一步探讨适应新需求的通信机制。
摘要:在微处理器或SOC芯片设计过程中,DMA控制器的硬件仿真验证是难以解决的问题之一,因为DMA控制器与包括微处理器核和内存控制器在内的几乎所有部件都有数据通信,如将所有部件集成后进行仿真测试,则一旦发现错误后,定位错误会非常困难。本文为此提出了一种简化测试模型和验证方法,可以有效解决上述问题。
摘要:本文研究了WFA仲裁算法,WFA采用的固定轮转优先级的仲裁算法,没有考虑到各端口队列的长度和消息包的缓急情况。本文针对WFA算法存在的这种不足提出了一种改进算法,该算法易于实现、仲裁更公平,通过软件建模的方式进行了模拟,模拟结果表明,优化具有较好的效果。
摘要:随着计算机技术的飞速发展,多核处理器已得到广泛的应用。本文详细介绍了某高性能计算机中多核处理器的电压调节模块的实现方法,并对主电路、输出滤波器、反馈补偿电路等部分进行了详细设计和参数计算。应用结果表明,该电压调节模块完全满足多核处理器的供电要求。
摘要:神威3000A海量存储系统采用基于文件分条的网络数据冗余方法,支持网络RAID1和RAID5冗余模式,能够对存储服务器及盘阵故障在线容错,是一个高可用的分布式存储系统。
摘要:本文提出了一种数据驱动处理器阵列结构,该结构能有效平衡存储和计算,适合用于在FPGA上实现高性能的算法加速,同时提出了一个面向该结构的自动综合框架,通过该框架可以将常规循环有效地映射到数据驱动处理器阵列上。实验结果表明了该自动综合框架的有效性,且生成的设计性能优于通用处理器。
摘要:在分子动力学模拟(MD)中,对非绑定力的计算需要花费大量的时间。本文提出了基于CUDA和Brook+的两种双精度算法,分别在NVIDIA和AMD两款主流GPU上实现了非绑定力的计算,借助GPU的计算能力加速了整个MD程序。算法对MD进行了任务分割,采用区域分解的方法将非绑定力的计算映射到GPU的计算核心上,同时针对两款GPU的各自特点提出了线程块内共享存储、最小化数据集两种优化方法。性能测试结果表明,与Intel Xeon2.6GHzCPU的单核相比,43.2万粒子的高速粒子碰撞模拟,在配置NVIDIA Tesla C1060的系统上性能提高了6.5倍,在配置AMDHD4870的系统上性能提高了4.8倍。
摘要:胖树拓扑结构是搭建集群和HPC比较流行的结构,它具有无阻塞传输和对分带宽的优点。本文介绍了InfiniBand子网管理和胖树结构,分析了胖树路由算法的计算过程和相关改进。
摘要:CAVLC是H.264中熵编码的一种重要实现方式,具有可挖掘的数据级并行特征,但同时具有较强的串行特点。本文分析了CAVLC的程序特征,提出了CAVLC的流式实现方法,并在流处理器STORM-1上进行了实现。实验结果表明本方法能够满足实时高清H.264编码的性能需求。
摘要:Cache一致性协议作为CC-NUMA系统的硬件基础,在CC-NUMA系统的设计过程中占有举足轻重的地位。对于复杂的CC-NUMA系统,由于其Cache一致性协议十分复杂,通常难以进行形式化验证,而常规的伪随机模拟又存在验证效率低下的问题。本文提出了一种对复杂CC-NUMA系统中Cache一致性协议进行模拟验证的方法。该方法通过对验证覆盖目标进行相关性分析,使用偏置技术对传统伪随机模拟验证方法进行了改进。实际验证结果表明,改进后的方法使得模拟验证覆盖率的增长速率有了明显提高。