在龙芯完成3A2000之后,虽然在同主频性能上已经优于同时期的技术引进CPU——龙芯GS464E内核设计非常成功,就性能来说,已经优于同时期从境外厂商引进的X86和ARM CPU核。但由于技术引进的X86和ARM CPU基本采用了台积电28nm工艺,优于龙芯采用的中芯国际40nm工艺,因而在主频上明显处于优势。

为了在技术上超越技术引进CPU,龙芯基于GS464E内核开发了龙芯3A3000。3A3000主要通过工艺优化提升性能,对龙芯3A2000的CPU核略作修改:

一是结合3A2000的性能瓶颈分析把定点/浮点发射队列从16/24项增加到32/32项;

二是把最后一级Cache从4MB提高到8MB。

因此,CPU内核设计的工作量较小,很快就完成了RTL源代码修改,全面展开物理设计阶段。

3A3000物理设计中继续需要定制包括HT-PHY、DDR-PHY、锁相环、多端口寄存器堆、CAM等全定制模块。

3A3000物理设计中另一个难点是时序收敛。3A3000使用的28nm FD SOI工艺晶体管确实比3A2000使用的40nm LL快60%左右,但连线延迟大,而且互相干扰也大,废了很多周折。物理组在2016年春节期间也没有休息,终于在2016年2月中旬交付流片。

2016年9月,龙芯3A3000成功流片,很快就运行了SPEC CPU2000和SPEC CPU2006等大型程序,均未发现异常。主频可以达到1.5GHz左右。进一步的测试结果比想象的好:

一是内存频率可以达到750MHz以上,而且信号眼图还非常好,STREAM测试带宽达到13GB/s;

二是虽然主频只提高了50%,但综合SPEC CPU2006和SPEC CPU2000分值可以提高60%,其中SPEC CPU2006单核分值为定点11分以上、浮点10分以上,四核分值为定点36分,浮点33分;

三是可以运行在很低电压下,例如运行在1.0V电压下主频1GHz时功耗还不到3A2000运行1GHz时的一半。对于党政办公中常见的打开几十MB的大文件,3A3000的用户体验比3A2000有显著提高。

3A3000研制成功对自主CPU来说具有里程碑意义。3A3000的通用处理性能已经跨过了国际通用处理器性能的第一个门槛,其单核SPEC CPU2006性能已经不低于ARM用于服务器的高端处理器、Intel的低端系列(凌动系列)处理器以及威盛处理器,而且3A3000的访存带宽达到13GB,已经与AMD以及Intel的高端酷睿系列持平。这样的性能玩复杂的3D游戏可能还有差距,但对于以党政办公为代表的事务处理应用是足够了。

目前,龙芯3A4000已经完成设计,正在流片中。按照以往的经验,一般半年后就会有结果。

根据在FPGA上的模拟成绩来看,龙芯在IPC上有望提升30%—40%,在主频上相对于龙芯3A3000提升30%左右,达到1.8—2G。

非常可贵的是,龙芯3A3000与龙芯3A4000同样使用28nm工艺。龙芯3A4000之所以使用28nm工艺的一个重要原因就是研发资金匮乏,毕竟,目前国家核高基01专项重点扶持的是引进X86和ARM技术的CPU公司,对龙芯的扶持力度微乎其微,龙芯基本拿不到多少国家经费扶持。

此前,当技术引进CPU普遍使用28nm工艺时,龙芯3A2000依旧在使用中芯国际的40nm工艺。在制造工艺上落后技术引进CPU 1至2代已经是龙芯的常态了。

不过,使用28nm工艺也有一个好处,那就是充分展示了龙芯在CPU设计上的实力。由于制造工艺本身没有进步,这就导致龙芯在IPC上的提升和在主频上的提升,完全依靠自身的前端设计和后端设计来实现。这与一些在CPU核升级上完全依赖从外商购买,在制造工艺上高度依赖台积电先进工艺的厂商形成鲜明对比。对于马甲CPU来说,龙芯3A3000和龙芯3A4000对于马甲CPU来说堪称打脸的存在。

1.《龙芯3 龙芯3A3000和龙芯3A4000对于马甲CPU来说堪称打脸的存在》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《龙芯3 龙芯3A3000和龙芯3A4000对于马甲CPU来说堪称打脸的存在》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guonei/62617.html