今天,寒武纪科技放出两个重磅“炸弹”:
寒武纪最新一代终端IP产品-Cambricon 1M寒武纪最新一代云端AI芯片MLU100和板卡产品
寒武纪创始人陈天石介绍,这次最新发布的寒武纪1M是公司的第三代IP产品,提供三种规模的处理器核(2Tops/4Tops/8Tops)以满足不同应用场景下不同量级的智能处理需求,并可通过多核互联进一步提高性能。
另一颗重磅炸弹是Cambricon MLU100云端智能芯片。
MLU100采用寒武纪最新的MLUv01架构和TSMC 16nm的先进工艺,可工作在平衡模式(1GHz主频)和高性能模式(1.3GHz主频)下,平衡模式下的等效理论峰值速度达每秒128万亿次定点运算,高性能模式下的等效理论峰值速度更可达每秒166.4万亿次定点运算。
Cambricon MLU100云端智能芯片:不再局限深度学习,让终端和云端协同处理
寒武纪在2016年推出的第一代终端智能处理器IP产品寒武纪1A是全球第一款商用终端智能处理器IP产品,已经应用于千万级智能终端中(包括华为Mate10、P20和荣耀10等手机)。
寒武纪1M处理器延续了寒武纪前两代IP产品(寒武纪1H/1A)卓越的完备性,单个处理器核即可支持CNN、RNN、SOM等多样化的深度学习模型,并更进一步支持SVM、k-NN、k-Means、决策树等经典机器学习算法,支持本地训练,为视觉、语音、自然语言处理以及各类经典的机器学习任务提供了灵活高效的计算平台,将广泛应用于智能手机、智能音箱、智能摄像头、智能驾驶等不同领域当中。
这场发布会的焦点是首次正式亮相的Cambricon MLU100云端智能芯片。
MLU100采用寒武纪最新的MLUv01架构和TSMC 16nm的先进工艺,可工作在平衡模式(1GHz主频)和高性能模式(1.3GHz主频)下,平衡模式下的等效理论峰值速度达每秒128万亿次定点运算,高性能模式下的等效理论峰值速度更可达每秒166.4万亿次定点运算,但典型板级功耗仅为80瓦,峰值功耗不超过110瓦。
与寒武纪系列终端处理器一样,MLU100云端芯片仍然延续了寒武纪产品一贯出色的通用性,可支持各类深度学习和经典机器学习算法,充分满足视觉、语音、自然语言处理、经典数据挖掘等领域复杂场景下(如大数据量、多任务、多模态、低延时、高通量)的云端智能处理需求。
MLU100的板卡使用PCIe接口,其外形设计灵感来自于寒武纪地质时代的远古海洋生物三叶虫,以黑色、蓝色为主色调,简洁而富有科技感。
寒武纪终端和云端产品均原生支持寒武纪NeuWare软件工具链,可以方便地进行智能应用的开发,迁移和调优。陈天石表示,寒武纪创立的初衷就是要让全世界都能用上智能处理器。
寒武纪在技术上贯彻“端云协作”的理念,这次发布的MLU100云端芯片,不仅可独立完成各种复杂的云端智能任务,更可以与寒武纪1A/1H/1M系列终端处理器完美适配,让终端和云端在统一的智能生态基础上协同完成复杂的智能处理任务。
寒武纪生态帝国崛起:联想、曙光、科大讯飞等软硬件公司发布基于寒武纪芯片的产品
寒武纪的芯片生态帝国正在形成。发布会上,联想、曙光和科大讯飞作为寒武纪的合作伙伴同时发布了基于寒武纪芯片的应用产品。
联想推出了基于Cambricon MLU100智能处理卡的ThinkSystem SR650,打破了37项服务器基准测试的世界记录。该产品为2U2路机架式规格,支持2个MLU100智能处理卡。这款云端智能服务器的面世将全面支撑起联想客户在机器学习/VDI/虚拟化/云/数据库/分析/SAP等方向上的业务需求。
中科曙光也在今日的发布会上同步推出了基于Cambricon MLU100智能处理卡的服务器产品系列“PHANERON”。PHANERON系列于2017年11月面世,基于寒武纪此前公布的一款原型测试芯片。
而此次发布的“PHANERON”新品跟随MLU100智能加速卡的发布进行了同步升级,性能更为强劲,可以支持2-10块寒武纪MLU处理卡,灵活应对不同的智能应用负载。以升级版的PHANERON-10为例,单台服务器可集成10片寒武纪人工智能处理单元,可以为人工智能训练应用提供832T半精度浮点运算能力,为推理应用提供1.66P整数运算能力,典型场景下的能效提升30倍以上。
此外,中科曙光还披露了人工智能管理平台SothisAI,可以与寒武纪的芯片及其开发环境实现无缝对接、深度融合。
智能语音应用的领头羊科大讯飞公司也在今日的发布会上披露了与寒武纪芯片的深度合作研发项目。根据介绍,一小时的语音数据在一个传统处理器上进行智能应用处理,需要一万小时才能完成,因此科大讯飞一直在跟踪人工智能专用芯片的前沿进展。早在2014年,科大讯飞就开始与寒武纪的早期研究团队开始沟通相关语音算法在处理器上的实现,并于2016年的天使轮注资寒武纪,2017年开始在寒武纪芯片上进行应用测试。
科大讯飞于发布会上披露的测试结果表明,寒武纪的智能处理器在语音智能处理上交出了优异的答卷,能耗效率领先竞争对手的云端GPU方案达5倍以上。寒武纪智能处理器的强大处理能力使得手机本地端可以处理更加复杂的机器学习算法,使得语音本地识别准确率相对于传统处理器领先了9.8%,显著提高了用户体验。
陈天石:做通用机器学习芯片的厂商,端云结合占领10亿智能终端
在发布会之前,寒武纪创始人陈天石接受了新智元的专访。
新智元:“2018年,寒武纪由端入云”,寒武纪为什么要由端入云?端和云分别有哪些重要性?AI的处理哪些放在云端,哪些放在终端?
陈天石:端侧的智能处理是非常重要的,因为端可以最快速的响应用户的需求,能以非常低的功耗、非常低的成本、非常小的延迟,帮助用户理解图像、视频、语音和文本。但是,云侧的智能处理可以把很多端的信息汇聚在一起。比如,在一个城市中有大量的摄像头,如果想要知道一个特定的物体在多个摄像头间的运动轨迹,就需要在云侧进行智能处理。
另外,终端的数据量有限,只能根据单个用户的数据对机器学习模型进行微调。而云可以看到大量用户的数据。因此,云端的智能处理在数据方面有其不可替代的巨大优势,可以利用海量数据,训练出非常强大的模型。
新智元:请您解释一下“端云一体”。为什么、怎样做到端云一体?目前是不是所有AI芯片厂商都仍然端是端,云是云?端云一体是必然的趋势吗?
陈天石:过去大部分芯片厂商都是主攻端(例如ARM),或者主攻云(例如Intel)。两者兼顾的很少,因为端云的任务生态都区别比较大。但是智能时代,我们认为这个局面会被全面打破,因为端和云的AI任务是一体的,编程和使用的生态也是一致的。作为一个通用机器学习芯片的厂商,寒武纪就是要端云结合,共同推动生态。
新智元:寒武纪2016年发布了国际上首个深度学习指令集Cambricon ISA,这项工作的重要意义是什么?指令集对芯片来说意味着什么?其他AI芯片是否都有自己的指令集?
陈天石:寒武纪研制的是通用的机器学习处理器,因为只有广阔的应用面才能在市场上有更大的发言权。例如在终端,我们需要自动翻译,需要图像识别,需要语音识别,而且这些算法还在不断演进。如果AI芯片没有指令集,就没有办法应对层出不穷的新应用新算法。因此,我们提出了第一个智能的指令集,能高效应对过去和未来的智能算法。
新智元:寒武纪在半年前的首次发布会上提出,未来3年的路线图是“占领10亿智能终端”,现在这个路线图有发生变化吗?实现到怎样的程度?寒武纪的野心是不是可以更大一点?
陈天石:没有变化,我们就一步步按照这个方向努力,目前进展很不错。我们未来三年除了占领终端,也有云端的目标。
新智元:寒武纪的机器学习处理器产品线有分别侧重推理和训练的,有没有可能或必要推出在推理和训练两方面都很优异的芯片?
陈天石:会的,敬请大家期待。
原文发布时间为:2018-05-3
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。