最近,在微软联合全球八大研究院共同主办的首届微软研究峰会(Microsoft Research Summit 2021)上,微软董事长兼CEO萨提亚·纳德拉(Satya Nadella)表示,他现阶段正在关注的三个方向是:无处不在的计算、AI 大模型、虚拟在线,AI大模型这一方向,纳德拉关注“正在成为平台的大规模模型,这种大型模型背后的计算,如何继续构建系统。”
就在近期,微软和英伟达联合发布Megatron-Turing自然语言生成模型(MT-NLG),拥有5300亿参数,堪称“巨无霸”,官方宣称同时夺得单体Transformer语言模型界“最大”和“最强”两个称号。
高度关注AI大模型的不只是微软,AI大模型已然掀起新一轮AI竞赛。
大模型掀起新一波AI浪潮?
2018年谷歌发布了拥有3亿参数的BERT预训练模型,它将自然语言处理能力推向了全新台阶,凭借出众的成绩屠榜各类AI榜单和测试数据集,BERT开启了AI的大模型时代,接下来几年,大模型的“擂台”各路挑战者接踵而至:
2019年OpenAI推出NLP大模型GPT-2,拥有15亿参数,可生成连贯的文本段落,可进行初步的阅读理解和机器翻译,英伟达则发布了83亿参数的威震天(Megatron-LM),谷歌又发布了110亿参数的T5,微软发布170亿参数的图灵Turing-NLG。
2020年OpenAI推出NLP大模型GPT-3,拥有1750亿参数,首次将大模型参数规模提升到千亿级,逼近人类神经元数量,其在传统的NLP能力外,还可以算术、编程、写小说、写论文摘要。
2021年,国外的微软、英伟达、谷歌,国内的浪潮、华为和阿里……越来越多科技巨头都在布局AI大模型。其中国内AI大模型的代表之一是浪潮推出的“源1.0”,其拥有2457亿参数,参数量超越GPT-3,比肩“巨无霸”MT-NLG。源1.0在中文数据集拥有差异化优势,问鼎全球最大规模的中文AI巨量模型,它可以撰写对话、续写小说、新闻、诗歌、对联。在人工智能计算大会AICC2021现场,源1.0与观众互动对对联和“吟诗作赋”,通过互动形式让公众体验到AI大模型的威力。
为何全球科技巨头不约而同瞄准了AI大模型?
首先从市场环境来看,深度学习高速发展十年来,AI技术正无处不在。当AI工业化阶段来临,AI要支撑更加广泛普适的场景,要支撑更大更复杂的AI计算需求,要实现从弱人工智能到强人工智能的升级,依靠传统训练模式已很难满足,具有“巨量数据、巨量算力、巨量算法”特性的AI大模型生逢其时。
其次从技术原理来看,AI大模型本质是深度学习的“加强版”,通过给模型“填喂”大数据提高其自学习能力,进而具有更强的智能程度,比如在自然语言处理上表现更佳。
AI大模型更准确的称呼是“AI预训练大模型”,“预训练”字面意思很容易理解:预先训练好,这样应用开发者可得到相对现成的训练结果,基于此直接开发AI应用,不再需要从0到1训练数据、建立模型。
AI大模型通过堆叠数据集“贪婪式”地训练模式,拥有较强的通用性,理论上可泛化到多种应用场景,而小样本或零样本的技术实现,则可让应用开发者快速基于其构建工程应用。
最后从发展潜力来看,虽然AI大模型有被诟病的地方,比如数据多不一定就准、回报存在不确定性、依然存在认知缺陷……不过,全球巨头都意识到AI大模型不确定性背后是更大的可能性。AI大模型最终会带来什么样的成果无人知晓,它可能是强人工智能的终极模式,也可能只是过渡手段,但已经越来越清晰地呈现出魅力:在NLP等领域展现出肉眼可见的优势,是人类当前看到的最接近强人工智能的训练方式,是推进AI认知智能突破、挑战人类智能的关键。
纳德拉说:“在未来,无论是10年还是20年,我们有希望将大规模模型的数学原理与符号逻辑推理相结合并取得突破。下一代的模型架构又会是什么样?或者说深度学习在过去20年或10年取得了巨大进展,那么下一个大事件会是什么?我认为我们正处在突破的边缘,这(大模型)会是一个值得我们继续推进的绝佳领域。”
谷歌用AlphaGo将深度学习技术引入公众事业,推动AI进入黄金发展阶段,接着又用BERT将AI世界带入到大模型时代。AI大模型的价值已被众多科技巨头跟深度学习相提并论,各路巨头在AI大模型的竞赛中,推动着强人工智能时代的到来。
AI大模型不应成为巨头游戏
AI大模型风风火火,然而现在却成了巨头们的游戏。
深度学习理论上人人都可参与研发探索,然而,具有“巨量数据、巨量算法、 巨量算力”三大特征的AI大模型却成了门槛很高的技术竞赛。对于任何企业包括巨头来说,打造一个大模型都不是一件容易的事情,需要收集海量数据、需要采买海量算力、需要进行大量研发,金钱、时间、人力投入同样“巨量”,正是因为此构建AI大模型的企业几乎都是财力雄厚、技术强悍的巨头——微软甚至宣称其用了价值10亿美元的超级计算机来训练其AI大模型。在“土豪”的科技巨头外,少数有一定科研经费和实力的机构推出了小众的大模型,但不具备工业化条件。
AI大模型出现的原因正是因为AI工业化的需要,泛化通用等技术优势正是为AI产业化的海量应用场景而生,如何才能让AI大模型成为所有AI开发者(技术服务商、企业组织、智算中心)可以用到的AI能力?唯一的答案在于开源开放。
AI大模型就应该是开源开放的。其本质是大模型算法模型的集中化或者说中心化,如同“云”一样,将巨量数据、巨量算法、巨量算力整合到一个地方实现,再给不同场景提供通用底层预训练能力。然而,现在各路巨头都在投入资源建设自己的AI大模型,PK参数规模或数据集大小,争夺各类榜单位置,形成一个个割裂的AI大模型资源烟囱,却忽视了AI大模型诞生的初心。
在人工智能计算大会AICC2021上,浪潮宣布了“源1.0”的开放开源计划,据浪潮人工智能研究院首席科学家吴韶华介绍,源1.0第一阶段将面向三类伙伴(高校和科研机构的AI方向团队、浪潮合作伙伴以及智能计算中心)从数据、API到代码全面开源开放,并一起推动源1.0在国产芯片上应用。
虽然微软等巨头明确表示要将AI大模型打造成“可帮助其他人构建平台和技术解决方案”的AI平台,然而现在从底层彻底开源开放的AI大模型却凤毛麟角,虽然开发者可以申请试用部分AI大模型可以,然而申请门槛高、排队时间久、训练时间长,距离可满足工业应用的“开放”很远。源1.0要做的则是类似于谷歌TensorFlow一样的开源开放,后者是深度学习开发者的首选开源框架之一。源1.0想要成为行业都能用的AI大模型,做AI算法基础设施。
那么,什么样的AI大模型适合开放开源?
首先,要有足够强的技术性能。
任何平台开源开放要得到开发者拥护,前提都是平台本身要有足够强的技术优势,这样对开发者才有实质价值,也才有吸引力,AI大模型的开放同样不例外。
源1.0有底气建立开源开放生态在于技术的底气:单论参数规模其拥有2457亿参数,超过1750亿参数的GPT-3,且其解决了巨量模型训练不稳定的业界难题,提出了稳定训练巨量模型的算法。
在计算效率上,源1.0训练用了2128张GPU、且在16天内就完成了训练,看上去是不小的算力和时间投资,不过相对同等量级的AI大模型效率却高了不少。“巨无霸”“MT-NLG”的训练需要的算力相当于4480块A100显卡,GPT-3的训练则是在超过28.5万个CPU核心以及超过1万个GPU上完成,训练时间均超过一个月。源1.0的训练共消耗约4095PD(PetaFlop/s-day),相较于“GPT-3”的3640PD,计算效率得到大幅提升。源1.0做到这一点的核心原因在于其采用了张量并行、流水线并行和数据并行的三维并行策略,这背后则是用好了浪潮智慧计算的“看家本领”。
其次,要有显著的差异化能力。
AI大模型只比拼参数远远不够。巨量数据与巨量算法一样重要,因此更要关注数据集特性与质量。源1.0在中文数据集上有独到优势,是最大的中文AI大模型,其爬取2017-2021近五年来中文互联网的全部网页数据、公开中文语料库、中文百科及电子书等,经过清洗及处理,最终获得5000GB高质量数据集,是GPT-3的近10倍,成为迄今业界最大的高质量中文数据集,拥有2000亿个词。
源1.0强调中文,这对我国的AI产业化意义非凡。中文数据集相对于英文数据集而言少得可怜。由于西方世界AI技术发展较早且参与者众多,因此英文高质量文本数据集相当丰富,知名的有HackerNews、Github、Stack Exchange、ArXiv以及基于YouTube字幕生成的The Pile,比如The Pile有着包含825GB的多样化开源语言建模数据,中文数据集最大开源项目CLUECorpus2020只包含100GB高质量数据集。源1.0的5000GB高质量中文数据集,补齐了AI大模型中文数据集短板。
不过,中文NLP难度更大。中文是世界上最博大精深的语言,有着不同的分词方式、同一词组不同歧义以及新词汇等挑战,比如“武汉市长江大桥”就可以有截然不同的语义,机器训练难度比同等量级的英文大得多。
通过大量的研发工作,在强大的算力支持下,源1.0在精度上表现出色,在语言智能上表现优异,获得权威中文语言理解评测基准CLUE榜单的零样本学习和小样本学习两类总榜冠军。其对零样本和小样本支持较强,更适合不同场景的应用,其在零样本学习榜单中超越业界最佳成绩18.3%,在文献分类、新闻分类、商品分类、原生中文推理、成语阅读理解填空、名词代词关系6项任务中获得冠军;在小样本学习文献分类、商品分类、文献摘要识别、名词代词关系等4项任务获得冠军。在成语阅读理解填空项目中其表现超越人类。
而在对“源1.0”进行的“图灵测试”中,将源1.0模型生成的对话、小说续写、新闻、诗歌、对联与由人类创作的同类作品进行混合并由人群进行分辨,人群能够准确分辨人与“源1.0”作品差别的成功率已低于50%,换言之,超过一半的情况下人群根本无法分辨是源1.0的机器创作还是专人创作,这一指标在AI大模型中属于领先水平。
最后,要有较高的通用性。
一些科研院校的AI大模型走向了极致化的发展方向,在特定维度发力,通用性较差,只能用于小众学术圈,难以工程化,沦为一次性模型,浪费大量资源,与AI大模型的初衷背道而驰。开源开放的AI大模型则要有较高的通用性,以适应更多场景。
作为专注于自然语言技术的AI大模型,源1.0具有广泛的应用场景。NLP是“AI技术皇冠上的明珠”,不只是因为NLP是最难的AI技术之一,而是因其关系到知识图谱、语义理解和认知智能等AI技术,每一项都是AI从弱AI跨越到强AI的关键。
很多NLP大模型展示的是写文章、写新闻、写摘要、编程序等炫酷的应用,然而AI真正的应用场景却不是这些,相反,AI应用在我们的生活、工作和学习中无处不在,大多数都跟NLP有关:电商平台的智能客服、搜索引擎的智能搜索、短视频平台的千人千面、移动办公IM的智能会议纪要、智能设备的语音助理……底层都是NLP技术。
源1.0专注于NPL,却可面向多场景帮助开发者完成AI任务,在算法上其进行推理方法创新,进一步提升模型泛化能力,以更好地服务不同应用,实现“产学研用”的全场景覆盖。有着中文数据集的独特优势,拥有领先业界的参数规模、计算精度和训练效率,再加上较强的通用性,开源开放的源1.0有望成为产业挖掘AI大模型潜力的基础设施。
AI大模型开放之路去向何方?
各路科技巨头卯着劲建设AI大模型,将不会只将其用在各类AI竞赛的榜单争夺上。基于“强大的技术储备势必会形成溢出效应,最终以各种形式走向开放”这一逻辑,巨头们在纷纷布局AI大模型后,最终走向开放以及开源应该说是必然,就像它们在深度学习框架上走过的路一样。
那么,AI大模型开放开源的趋势是什么?
首先,AI大模型的发展趋势将是算力、算法与数据三位一体的高度融合。
AI大模型要走向工业化,提高性能、精度、效率与通用性,需要算力、算法与数据“三位一体”的高度协同。AI大模型需要在大规模计算集群上训练,提高大规模计算集群的计算效率至关重要。
源1.0表现出色的一大关键就是重视软硬件特别是算力、算法和数据的高度融合发展,其在模型分布式计算等各个层面上进行协同方面的一些设计、优化。
浪潮是智慧计算的主导者。算力层面浪潮在异构加速计算、大规模计算集群、AI服务器等领域有深厚积累,AI服务器市占率位居全球第一,中国市场连续四年占比超50%。算法层面浪潮积极布局深度学习框架等AI算法技术,推出Caffe-MPI、TensorFlow-Opt、全球首个FPGA高效AI计算开源框架TF2。浪潮在全球*AI赛事上率获佳绩,2020年在AI领域的专利贡献达到1174件,位居中国前列。
作为浪潮智慧计算战略的一环,源1.0是在浪潮AI算力与算法上的厚积薄发,其进行了大量的算法算力协同优化,优化巨量模型结构,使模型更利于AI算力性能发挥,大幅提升计算效率,在同比算力提升12%的情况下,参数集规模提升40%,达到业界第一训练性能的同时实现了精度的领先。
不只是源1.0,商汤科技推出的SenseCore商汤AI大装置同样强调算力、数据与算法的融合,其计算峰值速度达到3740 Petaflops,集大数据、大模型和超强算力三位一体。可以展望,未来AI大模型或许将与量子计算、超级计算机等计算技术融合发展,进一步提高训练效率和AI性能。
其次, AI大模型要重视工业化场景,在软硬件上进一步深度结合,所见即所得。
AI大模型现在有些过度追求参数规模、数据集大小或者算力模型性能等单一指标。浪潮人工智能研究院首席科学家吴韶华说,AI大模型“大不是目的,通用智能才是,因为AI的下一步是从系统1到系统2,从感知到认知,从专用智能走向通用智能。”而AI大模型的“大”可以带来算法、结构的改进,以及前沿技术的探索。
AI大模型的终点还是通用智能的应用,因此AI大模型设计时就要预先重视工业化需要关注的点。优秀的AI大模型要面向行业场景,重视软硬件结合,包括与芯片等底层计算模块结合,提升各方面能力,这样才能减少应用侧的算力负担、开发成本、应用成本和运行时间,甚至像云计算一样“所见即所得”地按需调用。
此外,如同深度学习成为AI芯片的一个模块一样,AI大模型未来或许会进一步走向边缘或者终端侧,成为AI服务器、AI板卡、AI芯片等终端计算设备的基础能力,这将进一步减轻开发者的负担,提升AI大模型的通用性。源1.0开源开放强调要与芯片深入结合或许也正是看到这一点。
最后,AI大模型将成为智算中心基础设施,成为AI新基建的核心组件。
随着AI成为如同“水电煤”一样的社会基础设施,支撑产业AI化的新型基础设施正在变得愈加重要。我国高度重视AI战略,依托制度优势充分发挥政策指引作用,集中资源办大事,大力建设AI基础设施,以更公共、普惠、安全的方式提供AI算力。不论是2020年掀起的新基建浪潮,还是2021年出台的“十四五规划纲要”,均有关于AI新基建的顶层设计,以数据中心、智能计算中心为代表的算力基础设施则是我国新型基础设施建设的重要组成部分。
《2021-2022中国人工智能计算力发展评估报告》显示,2021年各地区正加紧布局人工智能计算中心。IDC预测,2021年全球企业在人工智能软件、硬件和服务的总投资将超850亿美元,2021年中国在AI市场的支出规模将达到82亿美元,其中约70%的相关支出来自于AI硬件。
浪潮人工智能研究院首席科学家吴韶华在接受罗超频道专访时表示,“大模型的训练运行需要智算中心的基础设施,需要算力基础设施来作为算力平台,这两个基础设施协同工作,可以给产业AI提供一个强大的推动力。”AI大模型作为AI走向强人工智能的关键一环,将成为AI新型基础设施的核心组件,其将与智算中心一起给社会提供AI基础能力,加速AI工业化应用。
AI大模型结束“军备竞赛”走向“实用竞赛”,比拼产业应用,这是开源开放的意义。现在开始,AI大模型不再是巨头们秀肌肉的成果,也不再是少数企业或机构的奢侈品,而是成为普惠的AI基础设施,惠及全社会,让每个人都能从中获益。