Arm Cortex-A76的微架构改进了什么？

近日，在Arm Tech Day 2019上，Arm计算产品事业部高级技术副总裁及研究员Peter Greenhalgh详细讲述了最新推出的Cortex-A73处理器。Peter表示，采用该方案的笔记本性能水平相当于i5，实现了中档笔记本的性能，同时只需要移动设备水平的功耗。此前，有媒体报道，A76由Arm Austin团队设计，和A57/A72一脉相承。作为比较，A73/A75是Sophia团队，A53/A55是Cambridge团队。Peter表示:“Cortex-A76采用了全新的微架构，一方面突破了理论极限的性能瓶颈，同时利用更小的面积和功耗实现了更高的性能。”该产品是目前Arm处理器家族的最顶级产品，因此所面向的市场是最为复杂的用户体验市场，包括各种富含AR/VR以及AI/ML的边缘计算应用。该产品是继Cortex-A75之后，第二款与Cortex-A55结合的DynamIQ big.LITTLE技术，提供的IP物理库包括了最尖端的节点，诸如12nm、7nm和5nm之类。在性能方面，3GHz 7nm工艺的Cortex-A76相比2.8GHz 10nm的Cortex-A75有着较大幅度的性能提升，尤其是在机器学习方面，4倍于前一代产品，同样的在性能和功耗上也分别有着35%和40%的提升，相比较以往每次20%左右的性能提升，显得诚意满满。在Arm给出的Geekbench测评中，分别针对Cortex-A73、Cortex-A75以及Cortex-A76进行整数运算性能和浮点运算性能测评。而针对笔记本的性能评测AArch64 SpecInt2K6中，7nm Cortex-A76是16nm Cortex-A73性能的两倍。除了强大的处理性能，在功耗方面Cortex-A76实现了50%的功耗降低，或者是相同功耗下40%的性能提升。Cortex-A76微架构详解

如图所示，A76和A75在整体架构上，并无太大差别，最重要的是微架构的改变，实现了更高的执行能力和带宽，具有4通道Decode和8通道Fetch。

针对前端和fetch单元，为了提高带宽降低时延，把Fetch中的预测功能单独分立，所以在实际接受指令之前就进行Branch prediction，之后在Instruction Fetch上实现了每个周期4个指令。

在Decode和Commit部分，在前端和中端保证全指令，将计算尽量向下级移动，同时提供8uops/cycle。

由于指令窗口深度变小，所以功耗也变得越低，而在正式计算上有两个ALU。在浮点计算单元Neon方面进行了全新设计，相比Cortex-A75带宽提高两倍。缓存方面，在一级缓存上将地址生成和查找表分开，保留了64K 4通道一级缓存，但是带宽从两个64位变成了两个128位接口，实现更大限度的内存并行计算。为了进一步提升内存性能，使用了第四代Prefetcher，更完美地实现Cache hit。通过TLB buffer，尽可能使用缓冲，从而降低主内存的负载，整个缓存架构设计，都是针对带宽和时延做了优化。与Cortex-A75比较，Cortex-A76在L2-L1以及L3-L2通道带宽上提高至两倍。通过以上微架构改进，使整个缓存等级结构性能有了极大提升。根据Peter给出的结果，各级缓存和DRAM上都有着不小提升。根据不同的测试，结果显示无论是频率，单线程处理及移动体验上，A76都有了不小的提升。“Cortex-A76有着移动计算环境能效，笔记本的性能水平，可为OEM创造出更多全新概念产品，预计符合Win10 always on特性的全尺寸笔记本将于2019年问世。”Peter说道。

文章来源：电子工程世界 http://www.eeworld.com.cn/

如果想要了解更多相关信息，请多多关注eeworld，eeworld电子工程世界将给大家提供更全、更详细、更新的资讯信息电子行业，EEWORLD原文链接：http://www.eeworld.com.cn/xfdz/2018/ic-news062987879.html

1.《Arm Cortex-A76的微架构改进了什么？》援引自互联网，旨在传递更多网络信息知识，仅代表作者本人观点，与本网站无关，侵删请联系页脚下方联系方式。

2.《Arm Cortex-A76的微架构改进了什么？》仅供读者参考，本网站未对该内容进行证实，对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址，https://www.lu-xu.com/guonei/25956.html

Arm Cortex-A76的微架构改进了什么？

茶与健康的关系，这篇文章彻底把它说清楚了，期待了好久吧

浙江大学校花詹陈