遥想2016年、2017年、2018年的时候,手机用户脑海里中端芯片市场的神U基本都是骁龙 625、660、710 之类的高通芯片,这段时期华为的麒麟芯片在该领域存在感还比较弱。
虽然2016年的麒麟650表现还不错,但若让其与骁龙625一较高下的话,确实是完全打不过。至于2017年推出的几款“超频版”,就更没有一战之力了。直至2018年七月份推出了一款在名字上“碰瓷”骁龙的麒麟710,情况才有了一点好转。
当然,麒麟710虽进步很大,但较骁龙710的差距也很大。就在世人以为华为在中端芯片市场上将一直被高通打压之时,2023年六月份竟蹦出了个石破天惊的中端芯片——麒麟810出来!
1,达芬奇架构达芬奇 NPU 最早是搭载于2018年之云端 AI 芯片——昇腾910和昇腾310上的,到了麒麟810这代才首次被运用于华为终端芯片上。之前在终端芯片的 NPU 部分,华为用的都是寒武纪 IP。
而这次在麒麟810上首次采用的自研达芬奇 AI 架构,其特点是在一个Core里面同时支持 3D(Cube)、2D(Vector)、1D(Scalar)的运算,以适应不同网络和不同层的运算分布之变化。
当然,把各种运算架构放在一个Core里面并不是特别困难的事情,更难的是设计参数的选择、运算和存储的比例,以及软件 mapping 工具等等。而华为给出的,正是这一整套解决方案。
如上图所示,在达芬奇Core中,存储单元为各个计算单元提供被转置过并符合要求的数据,计算单元返回运算的结果给存储单元,控制单元为计算单元和存储单元提供指令控制,三者相互协调合作完成计算任务。
而在Core的三个计算单元中,表现最出彩的就是华为深度优化之 3D 矩阵运算单元。其不仅拥有软件方面的极致后端优化手段,还拥有硬件方面的精巧设计之定制电路,可谓是达芬奇架构之精华所在。
打个简单比方,假如要计算一套矩阵的乘法 CPU 需要耗时 163 个时钟周期,那么 GPU 由于拥有并行计算能力就能把耗时减至 16 个时钟周期,而达芬奇架构的 3D 矩阵计算单元仅需耗时 1 个时钟周期即可完成!
华为官方表示其拥有超 240 个算子,在 16 位浮点运算精度和 INT8 量化精度方面皆处于业界领先地位。落到实处,麒麟810的 ETH AI Benchmark 跑分超过了 32000 分——大幅超越了高通旗舰骁龙855的25000分!
此外华为还推出了自研中间算子格式,支持华为 HiAI2.0 平台。可以通过云端收集数据进行反馈调整,反复迭代升级,不断完善硬件对基本算子的良好支持和软件编译的高效性和友好性,最终形成生态闭环。
说到 HiAI,其实际上就是为应用开发者提供麒麟芯片 AI 能力的接入平台,始于麒麟970那代。而 2.0 版本则支持