今天,对于大多数智能手机、平板电脑和部分笔记本电脑产品,ARM可以说是“一切的源泉”。高通和三星的SoC近年来一直使用ARM公版的CPU设计,公认为“翻身”的联发科依赖ARM公版的CPU和GPU结构,甚至一直标榜“自然”的苹果,实际上也离不开ARM的基本指令集许可。
因此,当ARM方面在2022年6月28日晚上,毫无征兆地突然公布新一代体系结构方案时,当然值得我们进一步分析。
性能概述:更强大的核心、更少的中央核心、在硬件追击中添加GPU
开门见山,我们首先直接为您带来有关ARM一代新体系结构的性能相关信息。另外,令人钦佩的是,ARM此次发布新旧体系结构性能比较数据时,不再“巧妙”。实际上,这些可能是历史上最详细的性能比较参数。(威廉莎士比亚,《北方专家》)。
首先,是全新的Cortex-X3核心。使用相同的半导体工艺、时钟速度和高速缓存设计,Cortex-X3的性能比Cortex-X2提高了11%。
使用相同的半导体工艺,但时钟速度和高速缓存设计与新的和现有体系结构的典型值相比,Cortex-X3性能比Cortex-X2提高了22%。
例如,假设Cortex-X3采用新的台湾半导体Manufacturing 3NM工艺,如果使用台湾半导体Manufacturing 4NM工艺,时钟速度和高速缓存采用现有设计的Cortex-X2,则新体系结构的性能优势将达到25%。
第二,增强的Cortex-A715中核,如果使用相同的半导体工艺、相同的主频和高速缓存设计,新的中核性能比现有设计提高5%,但目前的能效比现有体系结构提高20%。也就是说,实际功耗现在是Cortex-A710的87.5%,在稍微提高性能的前提下,节能12.5%,可以说是一个引人注目的进步。
在新体系结构中,Cortex-A510微核的改善比对核和中核的显著改善更为微妙。另一方面,顾名思义,此次新版核仍被称为“Cortex-A510”,连名字都没有变。但是应该说,新版本的微核功耗比以前的版本减少了5%,而更重要的是,这次增加了对32位应用程序的兼容性,所以完全不变,也不正确。
但是,此兼容性功能是可选的,不是标准的。选择选项会对性能产生负面影响,但具体影响有多大,ARM方面不清楚。
除了新版本的CPU外,ARM这次也在同期公布了世代交替GPU方案。此次新的GPU设计分为三部分:“最佳”Immortalis(不朽)-G715、中配Mali-G715和入门级Mali-G615。
与上一代Mali-G710和Mali-G610相比,新体系结构的基本效率提高了15%,而不考虑流程
增益的情况下),其次还支持了VRS可变着色率技术,能够在部分高刷游戏中显著降低渲染负载、对于XR应用也有很大的意义。不仅如此,作为ARM的全新旗舰GPU产品,Immortalis-G715更是首次引入了硬件光线追踪单元。根据ARM方面的说法,硬件光追单元在GPU核心中仅占据了4%的面积,但其相比Mali-G710采用的软件光追设计却能够带来300%以上的性能提升。考虑到真正支持Mali-G710光追效果的游戏至今尚未上市,所以ARM的这番表述属实是“背刺”自己了。
架构分析:大核更大、中核做减法,小核原地踏步
讲完了新架构的性能参数变化,接下来我们就进入按惯例的架构分析环节,来看看ARM到底是如何实现这些改进的。
首先是全新的大核Cortex-X3,它的改动无疑是此次新架构中最大的。其包括了比前代大10倍的L0 BTB(分支目标缓冲区)和大50%的L1 BTB,这意味着大幅提高的分支预测性能。根据官方的说法,Cortex-X3的分支预测延迟降低了12.2%,预测错误率降低了6%,同时减少了3%的前段停顿。由于分支预测性能大为提升,因此Cortex-X3的mop(微操作)缓存现在可以做得更小,同时流水线长度也进一步下降。
这还没完,与Cortex-X2相比,Cortex-X3的指令缓存提取宽度现在从5增加到了6、算术逻辑单元从4个增加到了6个,同时乱序窗口也进一步增大。而在后端部分,新架构的加载/存储宽度也增加了50%,并增多了数据预取引擎的数量。
更强的分支预测性能,更宽的执行窗口、更短的流水线级别,更快的存取速度,有没有觉得很眼熟?没错,这个改进方向,其实就是多年前已被Intel从奔腾4到酷睿的革新时,所证明的有效路径,只不过ARM如今将其在RISC处理器上“复刻”了一遍。
相比于Cortex-X3的锐意进取,Cortex-A715与(新版)Cortex-A510的改变就相对没有那么大了。其中,Cortex-A715的改进主要来自于放弃对32位指令集的支持,从而大幅简化了指令解码器的设计,空出更多的晶体管位置来提高了缓存大小。而Cortex-A510的变化则更是语焉不详,现在只知道它具备了可选的32位支持、同时功耗略微下降而已。
与CPU部分(特别是大核心)的改动相比,ARM此次的新GPU变化显得就不是那么显著了。一方面,无论是Immortalis-G715、Mali-G715,还是Mali-G615,它们其实都是共享的相同架构设计(只是Immortalis-G715内部多了硬件光追电路),主要区别还是在于核心数量上做了明确限制。
另一方面,与现有的Mali-G710相比,新款GPU在基础架构上将FMA乘加单元的数量翻了一倍,设计了用于抗锯齿的新型FP16计算单元。同时根据ARM方面的说法,新的GPU“在重负载场景下”的三角形生成率为现有的3倍,纹理映射速度是现有的2倍。不过,暂时还并不清楚这个倍数是来自底层架构的改进,还是来自于核心数量或频率的提升,因此仅仅做个参考就好。真正的GPU性能提升幅度,还得等到实际产品上市后才能有定论。
市场分析:ARM笔记本或将兴起,入门手机也有望翻身
值得一提的是,在发布新一代产品线的同时,ARM还给自家的软硬件方案起了一个新的名字,叫做“Arm Total Compute Solutions(直译为ARM整体计算解决方案)2022”,缩写为ARM TCS22。同时,ARM方面也将去年发布的上代架构随之“整合”为ARM TCS21,并同时预告了明年(TCS23)和后年(TCS24)的产品命名。
这意味着什么呢?从这个举动中,我们至少可以挖掘出两条信息点。一是ARM似乎并不打算用新架构完全取代上一代的产品线,Cortex-X2、A710和A510得到“重命名”或意味着它们的授权还将继续。
但更进一步来说,ARM从TCS21到TCS22的变化,以及目前官方已经“剧透”的TCS23和TCS24不难发现,一方面ARM在TCS22(也就是这一代的新架构上)删除了中核(Cortex-A715)对32位计算的支持,同时为“新版的”Cortex-A510小核增加了“可选的”32位计算功能。
另一方面,在TCS23和TCS24的预告图里可以清楚地看到,接下来的两年里,ARM每年都会更新大核与中核设计,但小核却只会在2023年迎来一次换代,2024年则是不更新、直接沿用。
与此同时,在此次TCS22官方“样板设计”中,ARM不仅将新架构支持的最大核心数量从8核扩展到了12核,而且还给出了多个以大核、中核为主的组合方案,甚至出现了完全不采用A510小核,仅由大核与中核构成的“超高性能设计”。
这或许意味着,ARM“仗着”新架构,特别是大核(Cortex-X3)、中核(Cortex-A715)性能与能效比的显著改善,明显在有意将其往更高的市场定位上推。或许,未来我们就会看到更多基于ARM新架构的笔记本电脑SoC方案了。
其实回溯历史不难发现,此前的Cortex-A53架构用了四年(2014-2017)才换代,而Cortex-A55架构更是“坚挺”了至少五年(2018-2022)之久。相比之下,去年的“初版”Cortex-A510架构因为完全不兼容32位代码,其实并不适合入门级设备与其他低功耗设备使用。
如此一来,今年的“新版”Cortex-A510实际上才是ARM v9指令集下,第一款真正可以用于入门级设备的低功耗CPU架构设计。而最快到明年,它就将会被更新的架构所取代。
换句话来说,面对如今智能手机市场高端产品大放光彩、而入门级设备却销量萎缩的局面,ARM一方面通过新的大核、中核为新旗舰注入了体验继续进步的动力,另一方面也史无前例地针对低端市场进行了“补救”。
或许在不久后,我们就会看到基于(新版)Cortex-A510架构,体验明显更加靠谱的入门级主控,或是性能与能效比都大幅进步,总算能与苹果掰掰手腕的Android智能手表平台了。
【本文图片来自网络】
1.《【光遇715复刻】对ARM新架构的深刻解读:大核进取,小核摆烂?》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《【光遇715复刻】对ARM新架构的深刻解读:大核进取,小核摆烂?》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/gl/2549849.html