华为史上最牛的中端神U<麒麟810哪一年出来的啊知乎>

发表时间：2024-10-08 11:14:51

华为史上最牛的中端神U

导语：

遥想2016年、2017年、2018年的时候，手机用户脑海里中端芯片市场的神U基本都是骁龙 625、660、710 之类的高通芯片，这段时期华为的麒麟芯片在该领域存在感还比较弱。

虽然2016年的麒麟650表现还不错，但若让其与骁龙625一较高下的话，确实是完全打不过。至于2017年推出的几款“超频版”，就更没有一战之力了。直至2018年七月份推出了一款在名字上“碰瓷”骁龙的麒麟710，情况才有了一点好转。

当然，麒麟710虽进步很大，但较骁龙710的差距也很大。就在世人以为华为在中端芯片市场上将一直被高通打压之时，2023年六月份竟蹦出了个石破天惊的中端芯片——麒麟810出来！

1，达芬奇架构

达芬奇 NPU 最早是搭载于2018年之云端 AI 芯片——昇腾910和昇腾310上的，到了麒麟810这代才首次被运用于华为终端芯片上。之前在终端芯片的 NPU 部分，华为用的都是寒武纪 IP。

而这次在麒麟810上首次采用的自研达芬奇 AI 架构，其特点是在一个Core里面同时支持 3D（Cube）、2D（Vector）、1D（Scalar）的运算，以适应不同网络和不同层的运算分布之变化。

当然，把各种运算架构放在一个Core里面并不是特别困难的事情，更难的是设计参数的选择、运算和存储的比例，以及软件 mapping 工具等等。而华为给出的，正是这一整套解决方案。

如上图所示，在达芬奇Core中，存储单元为各个计算单元提供被转置过并符合要求的数据，计算单元返回运算的结果给存储单元，控制单元为计算单元和存储单元提供指令控制，三者相互协调合作完成计算任务。

而在Core的三个计算单元中，表现最出彩的就是华为深度优化之 3D 矩阵运算单元。其不仅拥有软件方面的极致后端优化手段，还拥有硬件方面的精巧设计之定制电路，可谓是达芬奇架构之精华所在。

打个简单比方，假如要计算一套矩阵的乘法 CPU 需要耗时 163 个时钟周期，那么 GPU 由于拥有并行计算能力就能把耗时减至 16 个时钟周期，而达芬奇架构的 3D 矩阵计算单元仅需耗时 1 个时钟周期即可完成！

华为官方表示其拥有超 240 个算子，在 16 位浮点运算精度和 INT8 量化精度方面皆处于业界领先地位。落到实处，麒麟810的 ETH AI Benchmark 跑分超过了 32000 分——大幅超越了高通旗舰骁龙855的25000分！

此外华为还推出了自研中间算子格式，支持华为 HiAI2.0 平台。可以通过云端收集数据进行反馈调整，反复迭代升级，不断完善硬件对基本算子的良好支持和软件编译的高效性和友好性，最终形成生态闭环。

说到 HiAI，其实际上就是为应用开发者提供麒麟芯片 AI 能力的接入平台，始于麒麟970那代。而 2.0 版本则支持