知方号

知方号

华为史上最牛的中端神U<麒麟810哪一年出来的啊知乎>

华为史上最牛的中端神U

导语:

遥想2016年、2017年、2018年的时候,手机用户脑海里中端芯片市场的神U基本都是骁龙 625、660、710 之类的高通芯片,这段时期华为的麒麟芯片在该领域存在感还比较弱。

虽然2016年的麒麟650表现还不错,但若让其与骁龙625一较高下的话,确实是完全打不过。至于2017年推出的几款“超频版”,就更没有一战之力了。直至2018年七月份推出了一款在名字上“碰瓷”骁龙的麒麟710,情况才有了一点好转。

当然,麒麟710虽进步很大,但较骁龙710的差距也很大。就在世人以为华为在中端芯片市场上将一直被高通打压之时,2023年六月份竟蹦出了个石破天惊的中端芯片——麒麟810出来!

1,达芬奇架构

达芬奇 NPU 最早是搭载于2018年之云端 AI 芯片——昇腾910和昇腾310上的,到了麒麟810这代才首次被运用于华为终端芯片上。之前在终端芯片的 NPU 部分,华为用的都是寒武纪 IP。

而这次在麒麟810上首次采用的自研达芬奇 AI 架构,其特点是在一个Core里面同时支持 3D(Cube)、2D(Vector)、1D(Scalar)的运算,以适应不同网络和不同层的运算分布之变化。

当然,把各种运算架构放在一个Core里面并不是特别困难的事情,更难的是设计参数的选择、运算和存储的比例,以及软件 mapping 工具等等。而华为给出的,正是这一整套解决方案。

如上图所示,在达芬奇Core中,存储单元为各个计算单元提供被转置过并符合要求的数据,计算单元返回运算的结果给存储单元,控制单元为计算单元和存储单元提供指令控制,三者相互协调合作完成计算任务。

而在Core的三个计算单元中,表现最出彩的就是华为深度优化之 3D 矩阵运算单元。其不仅拥有软件方面的极致后端优化手段,还拥有硬件方面的精巧设计之定制电路,可谓是达芬奇架构之精华所在。

打个简单比方,假如要计算一套矩阵的乘法 CPU 需要耗时 163 个时钟周期,那么 GPU 由于拥有并行计算能力就能把耗时减至 16 个时钟周期,而达芬奇架构的 3D 矩阵计算单元仅需耗时 1 个时钟周期即可完成!

华为官方表示其拥有超 240 个算子,在 16 位浮点运算精度和 INT8 量化精度方面皆处于业界领先地位。落到实处,麒麟810的 ETH AI Benchmark 跑分超过了 32000 分——大幅超越了高通旗舰骁龙855的25000分!

此外华为还推出了自研中间算子格式,支持华为 HiAI2.0 平台。可以通过云端收集数据进行反馈调整,反复迭代升级,不断完善硬件对基本算子的良好支持和软件编译的高效性和友好性,最终形成生态闭环。

说到 HiAI,其实际上就是为应用开发者提供麒麟芯片 AI 能力的接入平台,始于麒麟970那代。而 2.0 版本则支持

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lizi9903@foxmail.com举报,一经查实,本站将立刻删除。