智谱发布AI助理，帮人类敲响AGI的大门

2024-11-04 07:10:58

人工智能之父John McCarthy曾说：“只要AI可以开始正常工作，就不会有人再把它当AI了。”如今，这一预言正在逐渐变为现实。

10月25日，智谱AI推出了自主智能体AutoGLM，能够模拟人类操作手机，执行各种任务。

同时，智谱AI 还推出了端到端情感语音模型GLM-4-Voice，其能够理解情感，实现高度拟人的情绪表达，并且支持多语速、多语种的内容输出。

图源：智谱官网

产品一经推出，立刻引爆了资本市场，许多关联概念股持续走强：AI视频、AI教育、AI陪伴等多只个股受市场热捧。

在技术进步的支持和资本的热捧下，“个人AI助理”的时代终于要到来了吗？

AI助理概念再次火爆，为什么这次不一样？

谈到AI助理，就不得不提SIri——大部分人最早接触到的AI 助理。

自苹果最初推出Siri时，乔布斯就曾说过：“Siri属于人工智能，而不属于搜索。”但随着乔布斯的离去，如今，Siri的定位更像是一个自带语音功能的搜索引擎，而不是一个AI助理。它的迷失不仅仅意味着乔布斯远大愿景的终结，更意味着移动互联网时代的人类探索AI助理的失败。

当时间来到AI时代，Chatgpt的横空出世让人们再次燃起了对AI助理的幻想。2023年4月，AutoGPT上线，宣称能够在用户完全不插手的情况下自主执行任务。彼时，特斯拉前AI总监、Open AI联合创始人安德烈·卡尔帕西称，AutoGPT是“提示工程的下一个前沿”。更有人称AutoGPT将会替代ChatGPT。

然而，由于底层模型的推理能力不足，AutoGPT 最终也没能实现主动地识别和操作屏幕。它和茫茫多的“对话式AI大模型”一样，被困在一问一答的气泡中，没有自主操作的权力和能力——直到智谱AI 旗下AutoGLM的出现。

从评测博主们分享的画面来看，智谱AutoGLM已经能够精准识别并理解用户指令，无需用户手动操作示范，不受制于简单的任务场景或API调用，可替代用户在电子设备执行操作，可以自动完成点外卖、编辑评论、淘宝购物、朋友圈点赞、总结文章生成摘要等日常活动。

图源：数字生命卡兹克

同时，与其他的语言模型和AI助理不同的是，Auto GLM具备了一定自我纠错能力。据智谱AI团队介绍，基于自进化在线课程强化学习框架WEBRL，AutoGLM克服了训练任务稀缺、反馈信号稀少和策略分布漂移等网页智能体研究和应用难题，能够在迭代过程中不断改进、持续稳定地提高自身性能。

在智谱AI看来，理论上，AutoGLM将来可以完成人类在电子设备上做的任何事。只需要简单的语音指令，它就能够理解用户意图，自动调用工具，使用和人类相似的操作逻辑去操作手机，完成各种任务。

智谱AI将其称为“phone use”能力，有了 AutoGLM 的“phone us”，未来的手机应用将充满想象力，AI 技术也将真正惠及千万家。

从这个角度来看，AutoGLM的出现是里程碑式的。它的出现意味着，在整个AI革命的进程中，AI将不再被局限在聊天框内，而是能够真正地接管人们手中的设备。看似遥不可及的AGI，已经近在咫尺。

越开放、越智能：距离人手一个“贾维斯”还有多远？

在漫威作品《钢铁侠》中，斯塔克的AI助手“贾维斯”似乎无所不能；而反观此前市场上大多数的AI助理：他们似乎不过是垂直领域内“更专业一点”的Chatgpt，并且大多数人仍然不放心将核心工作交给AI助理来完成。

是什么限制了它们的发展？

最核心的原因，还是模型能力的不足。用智谱AI CEO张鹏的话来说，以初代GPT为代表的早期语言模型，“训练优势并不明显”。

直到OpenAI O1大模型、Claude3.5大模型等为代表的强推理模型的出现，才让AI大模型应用从简单对话生成时代，进入到Agent执行操作复杂多步骤任务时代。

过往的AI大模型更注重交互，同时在图像、视频等特定领域提供部分功能，以实现多模态的交互。而如今，大模型更注重理解和整合，即Agent能力。它要求模型具备独立思考、调用工具、完成目标的综合能力，在原有的模型基础之上，增加了规划、记忆、总结的工作流程。因此，只有这一能力得到彻底的提升，才能使得AI助理更泛化、更实用的渗透到用户日常工作和生活中去。

同时，据研究机构Gartner预测，2024年1月，在生产中接入AI助理的企业已经达到21%，到2026年，超过80%的企业都会接入AI助理。麦肯锡预测，到2030年前，它有望为全球经济贡献7万亿美元的价值，中国进一步释放生成式AI总效益的1/3。

由此可见，AI助理的需求仍然旺盛，而目前业界正在积极地对其进行布局和探索，正在努力地提高供给。如Open AI的 Agent，阿里的Mobile Agent、腾讯的App Agent、字节的豆包、荣耀的MagicOS 9.0操作系统、苹果的Apple Intelligence等。

从这个角度来看，随着AI助理渗透率的提高，AI终将成为所有人都可以使用的基础生产要素。彼时，所有的上层建筑都会重构，人类在工作和生活的协作方式、组织方式、商业模式都将迎来彻底的改变。

科技巨头们的“代理人战争”：如何解决通往AGI道路上最大的阻碍？

事实上，不仅是智谱AI，放眼整个AI行业，美国的科技巨头们都已经“转向”，开始加强自己在AI助理这一领域的产品力：

早在2023年，微软就已经开始尝试探索Copilot与办公软件的集成。今年10月，微软再次推出了Dynamics365中集成的10个自主AI助理，能够自动执行跨平台的超复杂业务，帮助企业节省时间和运营成本。

谷歌、Meta、Open AI在最近也同样在测试类似的AI助理产品，开始争夺这个市场。为什么科技巨头们放缓了在模型参数，API价格方面的内卷，转而开始加速布局AI助理？

核心的原因还是与商业化有关：

目前，顶流的AI大模型仍然保持着每年百亿美元级别的烧钱速度。Open AI预计：从2023年到2028年，公司将蒙受440亿美元的损失。如此巨大的投入，换来的却只有34亿美元左右的年化营收。

今年以来。更是有着许多大模型公司已经游走在并购、破产的边缘：Character.AI被谷歌收购；AI独角兽Inflection AI被微软收购；Stability AI单季度亏损超3000万美元，一度传出“卖身”消息。

此前，“红衣大叔”周鸿祎自硅谷交流归来，发出了一句感叹：“硅谷已经没有人在卖大模型了，大家都在卖产品。”当硅谷的创业公司都已经开始考虑推出产品盈利，足以见得盈利对于AI公司的重要性。毕竟，当泡沫逐渐退去，不管是投资人还是用户，最终都要关注自己的投入是否能够值回票价。

而针对商业化这一问题，智谱AI也给出了自己的答案：“全产品矩阵”。

自2022年开始，伴随千亿级超大规模预训练模型GLM-130B的诞生，智谱AI就基于这一千亿基座模型开始了商业化布局。

如今，从底层通用模型，到与国产算力芯片的适配，再到多模态生成和AI Agent智能体，智谱已经打通了AI产业链中全流程的技术和商业闭环，从而推出了国产大模型中最全的产品矩阵，让更多的用户和企业能够在智谱的平台上找到适合自己的产品和服务。

2023年以来，智谱AI与超过2000家的企业达成了合作，包括消费、制造、游戏、医疗、教育、文旅等多个领域的龙头企业，为C端提供个性化应用的同时为B端提供降本增效的方案。

图源：智东西

此前，博研咨询报告显示，截至2022年底，全球AI助理市场规模已达到约450亿美元，预计到2027这一数字将突破1200亿美元，复合年增长率高达22%。

从这个角度来看，面对这一广阔的市场前景，智谱AI或许已经为所有的AI企业提供了一种思路，用AI助理在产业层面的全面推广，为企业带来营收的同时，让投资者拥有继续烧钱的动力，把AI这个美好的故事继续讲下去。

来源：港股研究社

码农公寓

相关文章