AI芯片哪个强?现在有直接的比较和参考。
英国高级芯片工程师James W. Hanlon目前盘点了10大AI训练芯片。
这也是对各指标的横向对比和对目前AI训练芯片的最新讨论和梳理。(威廉莎士比亚,美国作家)。
其中华为上升到910是中国芯片制造商唯一选定的芯片,其性能如何,这一对比也显示了出来。
Cerebras Wafer-Scale Engine
该芯片于8月正式上市,被称为“历史上最大的AI芯片”,被称为“晶片引擎(Cerebras Wafer Scale Engine,WSE)”。
最大的特点是将逻辑运算、通信和内存集成到单个硅芯片中。这是深度学习的筹码。
一举创造了4项世界纪录。
1、晶体管最多的计算芯片:总共包含1.2万亿个晶体管。三星制造了2万亿个晶体管芯片,但这是用于存储的eUFS。
2.芯片面积最大。尺寸约为20厘米23厘米,总面积为46225平方毫米。
3、最大片上高速缓存:包括18GB片上SRAM内存。
4、最大计算内核:包含410,592个处理内核
这样引人注目的数据集成了84个高速互连芯片,在FP32上,单芯片的最高性能为40 Teraflops,芯片功率为15千瓦,相当于AI集群。
片上高速缓存也是18GB,是GPU高速缓存的3000倍。提供9PB/s的内存带宽,比GPU快10,000倍。
芯片规模的整合不是一个新想法,但由于与产量、电力传输和热膨胀相关的问题,很难商业化。在这方面,Cerebras提供了以下解决方案:
1.为了解决缺陷造成的良品率不高的问题,Cerebras在设计芯片时考虑到了1% ~ 1.5%的冗余,增加了额外的核心,如果核心出现问题,就将其切断,避免因存在杂质而报废整个芯片。
2、Cerebras与台湾半导体MANEP PARCILING合作,发明了一种新技术,用于处理带有曹操加晶体管芯片的刻蚀和通信问题。
3.在芯片上安装“冷却板”,使用垂直安装的多个水管直接冷却芯片。
Cerebras于2016年由Sean Lie(首席硬件设计师)、Andrew Feldman(首席执行官)等创办。后者创建了微服务器公司SeaMicro,以3.34亿美元卖给AMD。
该公司在加州拥有194名员工,包括173名工程师,迄今为止从Benchmark等风险投资机构获得了1.12亿美元的投资。
Google TPU(v 1、v2、v3)
Google TPU系列芯片于2016年正式发布,第一代芯片TPU v1仅用于推理,仅支持整数运算。
通过在PCIe-3之间发送命令、执行矩阵乘法和应用激活函数,可以加快主机CPU,大大节省设计和验证时间。主要数据包括:
1、芯片面积331平方毫米,28纳米工艺。
2、频率700 MHz,功耗28-40W。
3、片以28mb SRAM: 24MB激活,4MB是累加器。
4、芯片面积比例:35%内存,24%矩阵乘法单位,其余41%区域用于逻辑。
5、256x256x8b收缩矩阵乘法单位(64K MACs/cycle)
6、Int8和INT16算法(峰值92和23 TOPs/秒)
I/o数据:
8 GB DDR3-2133 DRAM可通过两个接口以34 GB/s的速度访问
1、PCIe-3x16 (14 GBps)
2017年5月,Google TPU V2增强了TPU v1的浮点运算能力,改善了内存容量、带宽和HBM集成内存,不仅可以用于推理,还可以用于教育。单个芯片的数据如下:
2、20纳米工艺,功耗200-250瓦(估计)
3、BFloat16性能45 TFLOPs,支持FP32
4、带有标量和矩阵设备的双核
5、4个芯片集成后,最高性能为180 TFLOPs
单核数据:
128x128x32b收缩矩阵单位(MXU)
2,8gb专用HBM,存取频宽300 GBps
3、BFloat16的最大吞吐量为22.5 TFLOPs
I/o数据:
4、16Gb HBM集成内存,600 GBps带宽(估计)
5、PCIe-3 x8 (8 GBps)
6、Google TPU V2发布一年后,Google再次发布了新芯片3354TPU v3。
但是,关于TPU v3的细节很少。对TPU v2的渐进式修改使性能翻倍,从而增加HBM2内存以增加容量。
和带宽翻倍。其单个芯片的数据如下:1、16nm或12nm制程,功耗估计在200W
2、BFloat16的性能为105 TFLOPs,可能是MXUs的2倍到4倍
3、每个MXU都能访问8GB的专用内存
4、集成4个芯片后,峰值性能420 TFLOPs
IO数据:
32GB的HBM2集成内存,带宽为1200GBps (推测)
PCIe-3 x8 (8 GBps)(推测)
Graphcore IPU
Graphcore成立于成立于2016年,不仅备受资本和业界巨头的青睐,还颇受业内大佬的认可。
2018年12月,宣布完成2亿美元的D轮融资,估值17亿美元。投资方有宝马、微软等业界巨头,还有著名的风投公司Sofina、Atomico等。
AI巨头Hinton、DeepMind创始人哈萨比斯,都直接表达了赞美。
Graphcore IPU是这家公司的明星产品,其架构与大量具有小内存的简单处理器高度并行,通过一个高带宽的“交换”互连连接在一起。
其架构在一个大容量同步并行(BSP)模型下运行,程序的执行按照一系列计算和交换阶段进行。同步用于确保所有进程准备好开始交换。
- BSP模型是一个强大的编程抽象,用于排除并发性风险,并且BSP的执行,允许计算和交换阶段充分利用芯片的能源,从而更好地控制功耗。可以通过链接10个IPU间链路来建立更大的IPU芯片系统。其核心数据如下:
- 16nm制程,236亿个晶体管,芯片面积大约为800平方毫米,功耗为150W,PCIe卡为300 W
- 1216个处理器,在FP32累加的情况下,FP16算法峰值达到125 TFLOPs
- 分布在处理器核心之间有300 MB的片上内存,提供45 TBps的总访问带宽
- 所有的模型状态保存在芯片上,没有直接连接DRAM
IO数据:
- 2x PCIe-4的主机传输链接
- 10倍的卡间IPU链接
- 共384GBps的传输带宽
单核数据:
- 1、混合精度浮点随机算法
- 2、最多运行六个线程
Habana Labs Gaudi
Habana Labs同样成立于2016年,是一家以色列AI芯片公司。
2018年11月,完成7500万美元的B轮募资,总募资约1.2亿美元。
Gaudi芯片于今年6月亮相,直接对标英伟达的V100。
其整体的设计,与GPU也有相似之处,尤其是更多的SIMD并行性和HBM2内存。
芯片集成了10个100G 以太网链路,支持远程直接内存访问(RDMA)。与英伟达的NVLink或OpenCAPI相比,这种数据传输功能允许使用商用网络设备构建大型系统。其核心数据如下:
- TSMC 16 nm制程(CoWoS工艺),芯片尺寸大约为500平方毫米
- 异构架构:GEMM操作引擎、8个张量处理核(TPCs)
- SRAM内存共享
- PCIe卡功耗为200W,夹层卡为300W
- 片上内存未知
TPC核心数据:
- VLIW SIMD并行性和一个本地SRAM内存
- 支持混合精度运算:FP32、 BF16,以及整数格式运算(INT32、INT16、INT8、UINT32、UINT8)
- 随机数生成、超越函数:Sigmoid、Tanh、GeLU
IO数据:
- 4x 提供32 GB的HBM2-2000 DRAM 堆栈, 整体达1 TBps
- 芯片上集成10x 100GbE 接口,支持融合以太网上的 RDMA (RoCE v2)
- PCIe-4 x16主机接口
Huawei Ascend 910
华为昇腾910,同样直接对标英伟达V100,于今年8月份正式商用,号称业内算力最强的AI训练芯片。主打深度学习的训练场景,主要客户面向AI数据科学家和工程师。
其核心数据为:
- 7nm+EUV工艺,456平方毫米
- 集成4个96平方毫米的 HBM2栈和 Nimbus IO处理器芯片
- 32个达芬奇内核
- FP16性能峰值256TFLOPs (32x4096x2) ,是 INT8的两倍
- 32 MB的片上 SRAM (L2缓存)
- 功耗350W
互联和IO数据:
- 内核在6 x 4的2d网格封包交换网路中相互连接,每个内核提供128 GBps 的双向带宽
- 4 TBps的L2缓存访问
- 1.2 TBps HBM2接入带宽
- 3x30GBps 芯片内部 IOs
- 2 x 25 GBps RoCE 网络接口
单个达芬奇内核数据:
- 3D 16x16x16矩阵乘法单元,提供4,096个 FP16 MACs 和8,192个 INT8 MACs
- 针对 FP32(x64)、 FP16(x128)和 INT8(x256)的2,048位 SIMD 向量运算
- 支持标量操作
- Intel NNP-T
这是Xeon Phi之后,英特尔再次进军AI训练芯片,历时4年,壕购4家创业公司,花费超过5亿美元,在今年8月份发布。
神经网络训练处理器NNP-T中的“T”指Train,也就是说这款芯片用于AI推理,处理器代号为Spring Crest。
NNP-T将由英特尔的竞争对手台积电(TSMC)制造,采用16nm FF+工艺。
NNP-T有270亿个16nm晶体管,硅片面积680平方毫米,60mmx60mm 2.5D封装,包含24个张量处理器组成的网格。
核心频率最高可达1.1GHz,60MB片上存储器,4个8GB的HBM2-2000内存,它使用x16 PCIe 4接口,TDP为150~250W。
每个张量处理单元都有一个微控制器,用于指导是数学协处理器的运算,还可以通过定制的微控制器指令进行扩展。
NNP-T支持3大主流机器学习框架:TensorFlow、PyTorch、PaddlePaddle,还支持C++++ 深度学习软件库、编译器nGraph。
在算力方面,芯片最高可以达到每秒119万亿次操作(119TOPS),但是英特尔并未透露是在INT8还是INT4上的算力。
作为对比,英伟达Tesla T4在INT8上算力为130TOPS,在INT4上为260TOPS。
英伟达Volta架构芯片
英伟达Volta,2017年5月公布,从 Pascal 架构中引入了张量核、 HBM2和 NVLink 2.0。
- 英伟达V100芯片就是基于此架构的首款GPU芯片,其核心数据为:
- TSMC 12nm FFN工艺,211亿个晶体管,面积为815平方毫米
- 功耗为300W,6 MB L2缓存
- 84个SM,每个包含:64个 FP32 CUDA 核,32个 FP64 CUDA 核和8个张量核(5376个 FP32核,2688个 FP64核,672个 TCs)。
- 单个Tensor Core每时钟执行64个FMA操作(总共128 FLOPS),每个SM具有8个这样的内核,每个SM每个时钟1024个FLOPS。
- 相比之下,即使采用纯FP16操作,SM中的标准CUDA内核只能在每个时钟产生256个FLOPS。
- 每个SM,128 KB L1数据缓存 / 共享内存和4个16K 32位寄存器。
IO数据:
- 32 GB HBM2 DRAM,900 GBps带宽
- 300 GBps的NVLink 2.0
英伟达Turing架构芯片
Turing架构是对Volta架构的升级,于2018年9月发布,但 CUDA 和张量核更少。
因此,它的尺寸更小,功率也更低。除了机器学习任务,它还被设计用来执行实时射线追踪。其核心数据为:
- TSMC 12nm FFN工艺,面积为754平方毫米,186亿个晶体管,功耗260W
- 72个SM,每个包含:64个 FP32核,64个 INT32核,8个张量核(4608个 FP32核,4608个 INT32核和576个 TCs)
- 带有boost时钟的峰值性能:FP32上为16.3 TFLOPs、FP16上为130.5 TFLOPs、INT8上为261 TFLOPs、INT4上为522 TFLOPs
- 片上内存为24.5 MB,在6MB的 L2缓存和256KB 的 SM 寄存器文件之间
- 基准时钟为1455 MHz
IO数据:
- 12x32位 GDDR6存储器,提供672 GBps 聚合带宽
- 2x NVLink x8链接,每个链接提供多达26 GBps 的双向速度
本文来自转载自公众号「QbitAI」和「量子位」,本文作为转载分享。
1.《【宝马x64座】世界10大AI训练芯片市长/市场亮点:华为上升至910是中国唯一的入选》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《【宝马x64座】世界10大AI训练芯片市长/市场亮点:华为上升至910是中国唯一的入选》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/auto/2914802.html