百度大脑已经升级为软硬一体的 AI 大生产平台,」王海峰在大会上介绍道。「纵观人类工业革命的历史,每一项科技改变世界的时候,往往会具备标准化、模块化和自动化的特性,从而具备了一定的通用性。而以深度学习为核心的人工智能技术,其实已经具备了这些特性,深度学习正在推动人工智能进入工业大生产阶段。」
今年 5 月,百度任命高级副总裁王海峰为百度集团首席技术官(CTO),同时继续担任 AI 技术平台体系(AIG)和基础技术体系(TG)总负责人。在这次大会上,王海峰宣布了百度大脑在 AI 算法和 AI 计算架构方面的重大突破,以及 AI 算法、计算架构和应用场景的融合创新。现在的百度大脑,已经形成了包括基础层、感知层、认知层、平台层和 AI 安全五大部分的核心架构。
在发布会上,百度大脑还宣布了飞桨(PaddlePaddle)与华为麒麟芯片上的重要合作,并全新推出了「鸿鹄」端侧 AI 芯片。
引入全新算法
王海峰博士的演讲在开场便带来了一段传统与科技碰撞的展示——机械臂倒大碗茶。这个机械臂既会茶艺,还能说会道。虽然演示过程简短,但「AI 茶博士」的背后却融合了机器人视觉、语音识别、自然语言处理等多种人工智能技术,也展示了百度 AI 技术储备的宽度和技术打磨的深度。百度已经把这些技术结合起来,并开放在了百度大脑 AI 开放平台上。
在大会上,王海峰介绍了百度最近推出的一些领先技术。
语音识别模型 SMLTA
今年初,百度发布了流式多级的截断注意力建模(SMLTA)方法,将在线语音识别准确率相对于上一代 Deep Peak 2 再次提升了 15%,并实现了基于 SMLTA 模型的在线语音识别服务大规模上线应用。新技术已经在百度输入法上实现。
百度输入法「中英*说」可在不影响中文语音输入准确率的情况下,实现高精度的中英文混合语音识别输入。在现场,百度语音技术部高级总监高亮展示了百度输入法中英混输技术。高亮说了一段接近 Rap 的话:「Hello Everyone,中英混合说是我们的 everyday work,Explore 技术的 depth 和 scope 是我们的 responsibility……」这段中英结合的话被百度输入法流畅、精准地识别出来,一些不易识别的单词也没有出错。
风格迁移的语音合成与实时合成虚拟形象
语音识别之外,百度还展示了语音合成能力。一个人的声音有很多不同的要素,包括音色、风格、情感。在百度的AI可以对要素进行解耦分离,最新的技术仅用20句话即可制作专属声音。
此外,结合语音识别、语音合成、计算机视觉等技术,百度推出了实时合成虚拟形象的能力。「百度大脑的实时合成虚拟形象技术,首先对语音信号和视频信号进行实时的识别与理解,再通过唇动生成,以及语音、面部和肢体的合成,实时合成一个虚拟形象。」王海峰表示。
语言与知识技术
百度大脑对语言与知识的认知技术也有显著的进步和突破。王海峰展示了基于知识图谱理解音乐纪录片《大河唱》的内容,影片中的角色、人物关系、音乐种类、取景地、影片主题等信息,都被精准解析。百度大脑结合视觉、语音和自然语言处理技术解析多模态信息,并与知识图谱的相关实体建立关联,通过计算和推理,得到电影内容的结构化语义表示,从而可以理解电影中出现的角色、音乐和民间艺术等内容。
在语言和知识技术方面,百度大脑还公布了机器同传的突破和创新,新的翻译系统带来了可对语音识别结果进行纠错的联合词向量编码技术,解决了多轮翻译一致性、连贯性问题的语篇翻译模型等。结合先进的语音技术,百度大脑实现了高准确、低时延的机器同传技术。
语言与知识技术中,语义理解能力是重要的基础。百度大脑的知识增强的语义理解框架 ERNIE 能够持续学习知识,在使用中不断提升识别效果。ERNIE 结合先验知识和海量数据,构建预训练任务,深入学习其中的语言、实体、关系、知识等信息,在自然语言处理任务上取得了领先的效果。
「目前 ERNIE 已经积累了 10 亿条知识,这个过程还在不断的进行中,」王海峰表示。
远场语音交互芯片鸿鹄
2012 年到 2018 年,芯片的计算能力提升了 30 多倍,而从 AlexNet 到 AlphaGo Zero,人工智能算法对于算力的需求提升了近 30 万倍。面对指数级增长的算力需求,我们不仅需要开发更先进制程的芯片,还需要从计算架构方向进行提升。
百度大脑发布端到端AI计算架构,通过芯片、连接、系统和调度的协同设计和技术创新,提供百万TOPS的算力,并紧密结合百度飞桨(PaddlePaddle)训练与推理框架,提供面向算法优化的极致效率,并做到异构、无感的使用。
AI 计算中,算法对于芯片的需求是与平常不同的,近年来很多科技巨头都在开发自有的专用 AI 芯片。去年,百度在第二届开发者大会上发布了全功能 AI 芯片「昆仑」,由百度自主研发,其中包含训练芯片昆仑 818-300 和推理芯片昆仑 818-100。百度表示,经过一年的努力,昆仑已经有了更多进展。
今天,百度全新发布了远场语音交互的芯片「鸿鹄」。鸿鹄芯片使用了 HiFi4 自定义指令集,双核 DSP 核心,平均功耗仅 100mW。
王海峰表示,这是一款面向远场语音交互的端侧芯片。支持高精度超低误报语音唤醒、离线语音识别,同时支持车规级标准,可以应用于智能家居和智能汽车等多种不同场景。
飞桨(PaddlePaddle) 与华为宣布重要合作
在芯片和应用之间,AI 还需要操作系统的承接。王海峰认为,深度学习框架就是智能时代的操作系统。「百度飞桨是国内唯一完整的深度学习平台,可以帮助开发者完成从训练框架到预测框架,到辅助工具的完整布局。现在的飞桨已支持动态图和静态图开发。有视觉、语音、自然语言处理及推荐算法模型库,并已有大量预训练模型。
「飞桨(PaddlePaddle) 的模型已经经过工业界的产业验证,支持大规模分布式训练,」王海峰介绍道。「目前,飞桨深度学习框架官方支持超过 70 个主流模型。」
强大的深度学习软件平台需要与强大的计算平台合作。王海峰与华为消费者 BG 软件总裁王成录博士在发布会上联合宣布,百度飞桨与华为麒麟芯片达成了深度合作。「基于麒麟强大的端侧 AI 计算能力,加上百度飞桨深度学习平台的能力,我们一定能够给端侧 AI 带来强大的计算能力,非常强大的模型训练能力,以及强大的预测能力。」王成录表示。
据悉,此次合作将充分发挥飞桨和麒麟的各自优势,双方合作内容包括三大方面:
-
百度飞桨将与华为麒麟芯片在 HiAI Foundation 底层全面对接,最大限度释放芯片硬件能力,为端侧 AI 提供最强劲的算力;
-
双方将共同优化经典模型,让搭载麒麟芯片的设备运行得更加流畅,为用户提供更佳体验;
-
通过深度学习框架的性能和功能诉求,驱使芯片不断提升算力,驱使下一代芯片的快速演进。
华为与百度的合作由来已久,早在前年两家公司就已签订了全面合作协议。为 AI 应用落地进行了很多努力。华为在两年前发布了麒麟 970 芯片,这是全球第一款集成了神经网络处理专用单元 NPU 的手机芯片。
百度在发布会上展示了 AI 大生产平台的一些应用案例。在气象领域,杭州气象的气象专家使用百度大脑的 EasyDL 在很短时间内开发出了自己的智能气象识别系统。
基于人工智能技术,百度地图也实现了信息获取、采集生产到数据修正全过程的 AI 化数据生产。百度地图有 300 余量采集车,每年都会根据计划更新地图,目前百度的自家地图部门已使用 AI 技术实现了智能化测绘车分配,可以在道路施工期间快速更新地图数据库。
在农业智能化方面,百度大脑也与京东方进行了合作实现了智能水培。通过传感器与识别算法,百度实现了对水培蔬菜生长态势的精细识别,从而大大节省了农业专家的精力。据称,智能化的水培可以提升产量约 15%,同时成本降低 10-15%。
王海峰表示,百度大脑的日调用次数和平台定制化模型的数量都在持续增长,目前平台上已经累计有 130 万开发者。
百度大脑自 2010 年开始,今天已经成为了软硬一体的 AI 生产平台,打通了从基础的深度学习技术,到通用 AI 能力、应用技术方案,再到定制化模型,以及最终的部署与集成,这些人工智能产业化落地相关的全部流程。实现了 AI 技术的标准化、自动化、模块化。
「授人以鱼,不如授人以渔。我们研发的这些最*的 AI 技术,打造了软硬一体的 AI 大生产平台,我们希望它能助力各行各业的产业开发者加速产业智能化。」王海峰说道。