达芬奇架构NPU

2024-02-15 10:32:16

达芬奇架构NPU

　　达芬奇架构的核心优势是什么？如何更好地赋能麒麟990？

　　达芬奇架构，是华为自研的面向AI计算特征的全新计算架构，具备高算力、高能效、灵活可裁剪的特性，是实现万物智能的重要基础。具体来说，达芬奇架构采用3D Cube针对矩阵运算做加速，大幅提升单位功耗下的AI算力，每个AI Core可以在一个时钟周期内实现4096个MAC操作，相比传统的CPU和GPU实现数量级的提升。　　

3D Cube

　　同时，为了提升AI计算的完备性和不同场景的计算效率，达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。支持多种精度计算，支撑训练和推理两种场景的数据精度要求，实现AI的全场景需求覆盖。

　　在如智能手机等实际端侧AI应场景中，AI算力与功耗的协调是至关重要的，一般来讲更高的AI算力意味着更大的功耗，因此智能手机的续航常常使AI算力受限。而有了达芬奇架构NPU，这一状况将得到改善，如果麒麟990能够搭载达芬奇架构NPU，麒麟芯片或将再次迎来震动行业的算力升级。

　　DaVinci Core是如何实现高效AI计算的？

　　华为推出AI芯片昇腾310，达芬奇架构，昇腾310相当于AI芯片中的NPU。其中，DaVinci Core只是NPU的一个部分，DaVinci Core内部还细分成很多单元，包括核心的3D Cube、Vector向量计算单元、Scalar标量计算单元等，各自负责不同的运算任务实现并行化计算模型，共同保障AI计算的高效处理。

3D Cube矩阵乘法单元：算力担当

　　刚才已经提到，矩阵乘是AI计算的核心，这部分运算由3D Cube完成，Buffer L0A,L0B,L0C则用于存储输入矩阵和输出矩阵数据，负责向Cube计算单元输送数据和存放计算结果。

Vector向量计算单元：灵活的多面手

　　虽然Cube的算力很强大，但只能完成矩阵乘运算，还有很多计算类型要依靠Vector向量计算单元来完成。Vector的指令相对来说非常丰富，可以覆盖各种基本的计算类型和许多定制的计算类型.

Scalar标量计算单元：流程控制的管家

　　Scalar标量运算单元主要负责AI Core的标量运算，功能上可以看作一个小CPU，完成整个程序的循环控制，分支判断，Cube/Vector等指令的地址和参数计算以及基本的算术运算等。

　　3D Cube计算方式，有哪些独特的优势？

　　不同于以往的标量、矢量运算模式，华为达芬奇架构以高性能3D Cube计算引擎为基础，针对矩阵运算进行加速，大幅提高单位面积下的AI算力，充分激发端侧AI的运算潜能。以两个N*N的矩阵A*B 乘法为例：如果是N个1D 的MAC，需要N^2（即N的2次方）的cycle数；如果是1个N^2的2D MAC阵列，需要N个Cycle；如果是1个N维3D的Cube，只需要1个Cycle。

　　（图中的计算单元的数量只是示意。实际可灵活设计）

　　华为创新设计的达芬奇架构将大幅提升算力，16*16*16的3D Cube能够显著提升数据利用率，缩短运算周期，实现更快更强的AI运算。这是什么意思呢？举例来说，同样是完成4096次运算，2D结构需要64行*64列才能计算，3D Cube只需要16*16*16的结构就能算出。其中，64*64结构带来的问题是：运算周期长、时延高、利用率低。

　　达芬奇架构的这一特性也完美体现在麒麟810上。作为首款采用达芬奇架构NPU的手机SoC芯片，麒麟810实现强劲的AI算力，在单位面积上实现最佳能效，FP16精度和INT8量化精度业界领先，搭载这款SoC芯片的华为Nova 5、Nova 5i Pro及荣耀9X手机已上市，为广大消费者提供多种精彩的AI应用体验。

　　更强算力的麒麟990，开启互联互通的智慧新场景

　　一直以来，麒麟芯片的AI实力之所以受到人们的认可，除了强劲的AI计算力领先行业，华为手机实现众多应用场景。达芬奇架构作为华为自研架构，在应用适应性方面与华为的理念一脉相承，基于灵活可扩展的特性，达芬奇架构能够满足端侧、边缘侧及云端的应用场景，可用于小到几十毫瓦，大到几百瓦的训练场景，横跨全场景提供最优算力，麒麟990所使用到的只是端侧AI最基本的一部分。

　　并且，想要真正实现万物互联的AI生态，离不开广大的AI开发者，那么选择开发统一架构就是一个非常关键的决策了。对于广大开发者来说，基于达芬奇架构的统一性，在面对云端、边缘侧、端侧等全场景应用开发时，只需要进行一次算子开发和调试，就可以应用于包括麒麟芯片在内的不同平台，大幅降低了迁移成本。

　　体验最多的AI应用大多来源于智能手机，但对于整个AI生态来说，智能手机只是一个开端，未来更多的AI应用涌现、跨平台迁移才能真正实现无处不在的智慧生活。因此，如果麒麟990真的搭载了达芬奇架构NPU，不止是手机算力提升那么简单，以AI之力加速万物互联的智慧时代。

　　采用达芬奇架构AI芯片Ascend 910，与之配套的新一代AI开源计算框架MindSpore。

码农公寓

相关文章