超级计算机作为人类尖端技术的最佳代表,在世界各个领域都发挥着重要作用。一套优秀的超级计算机,可以大大提高科研效率,甚至促进一个行业的发展进步。近年来,我国在超级计算机领域下了很大功夫,推出了天河系列、“神威太湖之光”等多种超级计算机,甚至长期处于世界领先地位。
从现实来看,除了我国,美国在超级计算领域的实力不容小觑。2018年6月,美国能源部在橡树岭国家实验室正式宣布新的超级计算机——Summit。
2018年6月25日,TOP500发布了第51届全球超级计算机排名。在这份名单中,由美国能源部资助的橡树岭国家实验室的Summit暂时位居超级计算机之首。
▲美国能源部橡树岭国家实验室超级计算发展史。
新的超级计算竞赛
峰会
根据500强排名数据,Summit超级计算机的峰值浮点性能为187.7PFlops,Linux pack浮点性能为122.3PFlops,功耗为8805.5kW,相比之下,中国神威太湖之光的峰值浮点性能为125.4PFlops,Linux pack浮点性能为93.0PFlops,功耗为15371kW。第三至第六名分别是美国的Sierra,中国的天河2A(升级了新的Matrix-2000处理器,去掉了之前的至强融核,性能提升到61.4PFLops Linpark),日本的ABCI,瑞士的Pizdiant。
▲峰会超级计算本体
除了500强之外,Summit在HPCG榜单上依然排名第一,HPCG表现为2925.75 tflops/s,第二到第五名分别是美国的Sierra,日本的K,美国的Trinity,瑞士的Pizdait。
▲ Summit荣登最新500强榜单榜首。
▲最新的HPCG排名还是Summit。
根据新的排名和性能,Summit正在取代TITAN成为世界上最强大的超级计算机。值得注意的是,由于计算机制造工艺和架构的进步,新Summit在功耗没有比TITAN高太多的情况下(从之前的9 MW提高到13 MW),性能提升到了上一代产品的10倍。需要注意的是,Summit的目标不是单纯的提升性能,而是在实际应用中实现5~10倍的性能提升。
此外,除了林帕克和HPCG的性能之外,Summit还使用目前深度学习领域最强的GV100芯片作为加速芯片,因此它具有强大的深度学习计算能力,每秒可以执行30亿次混合精度计算(30 exaops),是目前深度学习计算最强大的计算机。
仔细看看峰会
节点、机架和整体
在了解了Summit的基本信息后,本文将进一步分析Summit的硬件组成。
硬件架构方面,Summit仍然采用异构模式。其主CPU来自IBM Power 9,22核,主频3.07GHz,共使用103,752核,核数达到2,282,544。GPU配备27648 NVIDIA特斯拉V100计算卡,总内存2736TB,RHEL 7.4操作系统。从架构上看,Summit并没有完全创新超级计算的底层技术,而是通过不断使用先进的制造工艺,扩大计算规模,实现了更高的性能。
▲SXM2接口的特斯拉V100。
虽然扩大规模是提高超级计算性能的有效途径,但也很难有效结合这么多CPU、GPU和相关存储设备。在这一点上,峰会采取了多层次的结构。最基本的结构叫做计算节点。许多计算节点形成一个计算机机架,多个计算机机架形成Summit超级计算机本身。
计算节点
2CPU+6GPU
Summit中使用的计算节点型号是Power System AC922,之前代号为威瑟斯彭,我们以后简称为AC922,是19英寸2U机架式盘柜。根据内部布局,每个AC922都有两个CPU插座,满足两个Power 9处理器的要求。每个处理器配备3个GPU插槽,每个插槽使用一个GV100核心计算卡。这样两个处理器就可以配六个GPU。
▲Summit的一个计算节点及其内部设备。
内存方面,每个处理器设计8通道内存,每个内存插槽可以使用32GB DDR4 2666内存,可以给每个CPU带来256GB和107.7GB/s的内存容量和带宽。在GPU端,不使用传统的PCIe插槽,而是采用SXM2形状设计,每个GPU配备16GB HBM2内存,每个CPU-GPU组共有48GB HBM2视频内存和2.7TBps带宽。
NVLink 2.0来自风和水
AC922的主要技术问题是CPU和GPU的连接。在传统的英特尔系统中,CPU和GPU之间的连接采用PCIe总线,带宽稍显不足。然而,在峰会上,由于添加了IBM Power 9处理器,可以使用更强大的NVLink来代替PCIe总线。在之前的文章中,本刊也对NVLink的相关技术进行了深入分析,在此不再赘述。
▲NVLink 2.0在民用市场上无法竞争,但在超级计算市场上蒸蒸日上。图为IBM展示的NVLink 2.0的连接方案。
在单个Power 9处理器中有3组6个NVLink通道,每组2个通道。Power 9处理器的NVLink版本是2.0,所以单通道速度提高到了25 GB/s,双通道可以实现CPU和GPU之间100GB/s的双向带宽。此外,Power 9还额外提供了48个PCIe 4.0频道。
▲国外WikiChip机构制作的峰会NVLink 2.0连接示意图。
与CPU类似,GV100 GPU也有六个NVLink 2.0通道,也分为三组,其中一组连接到CPU,另外两组连接到其他GPU。就像CPU和GPU之间的链路一样,GPU之间的连接带宽也是100GB/s..
中央处理器之间的通信
x巴士出道
除了CPU和GPU之间的通信,由于每个AC922都有两个CPU插槽,所以CPU之间的通信也很重要。在Summit的每个节点上,CPU之间的通信依赖于IBM自己的X总线。x总线是4-4字节的16GT/s链路,可以提供64GB/s的双向带宽,基本可以满足两个处理器之间的通信要求。
▲国外WikiChip组织制作的Summit中CPU间通信结构示意图。
此外,在CPU的外部通信中,每个节点有四组PCIe 4.0通道,包括两组x16(支持CAPI)、一组x8(支持CAPI)和一组x4。两组x16通道分别来自两个CPU,x8通道可以从一个CPU配置,x4通道可以从另一个CPU配置。其他剩余的PCIe 4.0通道用于各种输入/输出接口,包括PEX、USB、BMC和1Gbps网络。
完整的节点性能
Summit的一个完整节点有两个22核Power 9处理器,总共44个物理核。每个Power 9处理器的物理内核支持同时执行两个矢量单精度运算。换句话说,每个内核在每个周期可以执行16次单精度浮点运算。在3.07GHz,每个CPU内核的峰值性能可以达到49.12GFlops,一个节点的CPU双精度峰值性能略低于1.1TFlops,GPU的峰值性能在47TFlops左右。
请注意,这里的值与最终发布的数据有一些差异。主要原因是发布数据的性能只包括GPU,这是大多数浮点密集型应用可以达到的最高性能。当然如果算上CPU,Summit本身的峰值性能会超过220PFlops。
除了中央处理器和图形处理器之外,每个节点都配备了1.6兆字节的NVMe固态硬盘和一个梅兰诺无限带宽EDR网络接口。
机架和系统
机架是由计算节点组成的并行计算单元。Summit的每个机架中安装了18个计算节点和Mellanox IB EDR交换机。每个节点都配有一个双通道Mellanox InfiniBand ConnectX5网卡,支持双向100Gbps带宽。节点的网卡通过插槽直接连接到CPU,带宽为12.5 GB x2——实际上,每个节点的网络是由两个CPU拆分的PCIe 4.0 x8通道合并而成,PCI-E 4.0 x8的带宽为16 GB/s,合并后的网卡可以为每个CPU提供12.5GB/s的网络直连带宽,可以最大限度地降低瓶颈。
▲国外WikiChip机构制作的Summit系统结构布局图。
一个机架中有18个计算节点,因此有9TB的DDR4内存和1.7TB的HBM2内存,总内存容量为10.7TB..一个机架的最大功率是59kW,如果包括CPU的话峰值计算能力是846次,如果只使用GPU的话是775次。
▲开放式机架有18个计算节点,交换机在中间和顶部。
机架后面是整个Summit系统。完整的Summit系统有256个机架、18个交换机机架、40个存储机架和4个基础架构机架。一个完整的Summit系统具有2.53PB DDR4内存、475TB HBM2内存和7.37 TB NVMe SSD存储空。
目前业界报道的Summit系统性能还是比较保守的。当然,最好的性能并不是最有意义的,实际负载性能才是最重要的。当橡树岭国家实验室根据基因组数据初步测试Summit的性能时,它达到了1.88艾普拉的混合精度性能。本次测试主要使用GV100的张量核矩阵乘法,这是目前为止报道的最高性能。
迈向数十亿次计算的时代
从上面的介绍可以看出,Summit通过强大的CPU和GPU,以及网络、系统等一些先进的技术合成和结构设计,已经成功登上了世界顶级超级计算的巅峰,这也许不是Summit的终点,但Summit只是美国能源部探索数十亿台超级计算机道路上的一个中间站。
目前的新闻显示,橡树岭国家实验室正在准备一台数十亿台名为Frontier的超级计算机,性能应该是Summit的5~10倍。目前还不清楚新的超级计算机是从Summit升级还是重新建立,但无论如何,数十亿台超级计算机正一步步向我们走来,时间节点在2021年左右。
▲橡树岭国家实验室超级计算发展路线图。
那么看完美国的超级计算,我们自己的超级计算会怎么样呢?目前看来神威太湖之光和天河系列超级计算机短期内都没有新的更新建设计划,包括新的神威系列超级计算机和天河三号,大家都在猜测。目前,中国也在全力冲刺数十亿级超级计算机。但是在技术和设计上仍然存在很多瓶颈和困难,数十亿级超级计算机还在不断研发建设过程中。
在这种情况下,有业内人士估计,Summit可能会在未来3~5个超算排名周期暂时领先,直到最新的数百亿超算正式出道。毕竟在超级计算霸主的战场上,没有谁是永远的赢家,只有不断出来的、性能更强的超级计算机。所以在这个战场上,没有最强,只有更强。
1.《summit 性能突破200PFLOPS!世界第一超级计算机Summit解析》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《summit 性能突破200PFLOPS!世界第一超级计算机Summit解析》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/1616872.html