八卦GPT-5的一切

2024-10-15 07:02:42

这篇超长文章——既是评论，也是探索——关于GPT-5
对最受期待的下一代 AI 模型的深入分析

但它不仅仅是关于GPT-5。
• 它涉及我们对下一代AI模型的期望。
• 它关于即将出现的令人兴奋的新功能（如推理和代理）。它不仅讨论GPT-5技术本身，还包括GPT-5产品。
• 它涉及OpenAI因竞争对手的压力和工程师面临的技术限制。
• 它涵盖了所有这些内容——这就是为什么它有24,000字长。

你现在可能在想，既然你已经听过有关GPT-5的泄密和传闻，为什么还要花接下来的一个小时阅读这篇迷你书大小的帖子。
答案是：

零散的信息在没有上下文的情况下毫无用处；只有当所有信息都集中在一起时，整体图景才会变得清晰。
这就是它。

在我们开始之前，这里有一些关于OpenAI成功历程的背景介绍，以及为什么GPT-5带来的巨大期待让他们承受了压力。
四年前，也就是2020年，GPT-3震撼了科技行业。像谷歌、Meta和微软这样的公司急于挑战OpenAI的领先地位。虽然他们确实推出了一些挑战（例如LaMDA、OPT、MT-NLG），但晚了两年。到了2023年初，ChatGPT取得成功后，OpenAI准备推出GPT-4。再一次，其他公司赶紧追赶。一年后，谷歌推出了Gemini 1.5，Anthropic推出了Claude 3.5，Meta推出了Llama 3.2。
OpenAI很快将发布GPT-5——但它的竞争对手又一次离它有多远？
差距正在缩小，竞赛再次陷入僵局。因此每个人——客户、投资者、竞争对手和分析师——都在注视着OpenAI，期待他们能否第三次成功跳跃，使他们领先一年。这就是GPT-5的隐含承诺；OpenAI希望在与历史上最强大的科技公司的竞争中继续保持影响力。想象一下，如果期待未能实现，AI世界将会多么失望（如比尔·盖茨等内部人士认为可能会发生的情况）。
这就是GPT-5正在酝酿的充满活力和期待的环境。一步走错，每个人都会猛烈抨击OpenAI。但如果GPT-5超出我们的预期，它将成为未来几年AI拼图中的关键部分，不仅对OpenAI和它相对绿色的商业模式重要，还对投资者和用户至关重要。如果这发生了，Gemini 1.5、Claude 3.5和Llama 3.2将退回到话语的边缘。

这就是背景。让我们进入文章。
为了清晰起见，我将其分为四部分：
• 首先，我写了一些关于GPT-5的元分析：其他公司是否会有对抗GPT-5的答案，关于编号的争议（即GPT-4.5 vs GPT-5），以及我称之为“GPT品牌陷阱”的问题。如果你只想了解GPT-5本身，可以跳过这一部分。
• 其次，我汇总了关于GPT-5的所有信息、数据点、预测、泄密、提示和其他揭示性细节。这部分专注于来自来源的引用（在不明确时加上我的解读和分析），以回答这两个问题：GPT-5什么时候发布，以及它会有多好？
• 第三和第四部分，我通过线索探索了我们尚未正式了解的GPT-5方面：扩展法则（数据、计算、模型大小）和算法突破（如推理能力、代理、多模态等）。这都是有根据的推测——所以是最有趣的部分。
我在大多数部分末尾添加了总结。如果你读累了，我建议你先去那里！

这里是确切的大纲，方便你浏览：
· 第1部分：关于GPT-5的一些元分析
∘ GPT-5模型系列
∘ GPT-5或GPT-4.5？
∘ GPT品牌陷阱
· 第2部分：我们对GPT-5所知的一切
∘ OpenAI何时发布GPT-5？
∘ GPT-5的表现会如何？
∘ OpenAI的目标如何塑造了GPT-5
· 第3部分：我们对GPT-5所不知的一切
∘ GPT-5与扩展法则的关联
∘ 模型大小
∘ 数据集大小
∘ 计算能力
∘ 我对GPT-5大小的估计
· 第4部分：GPT-5的算法突破
∘ 多模态
∘ 机器人技术
∘ 推理
∘ 个性化
∘ 可靠性
∘ 代理
· 结语
· 脚注

第1部分：关于GPT-5的一些元分析
GPT-5模型系列
在2023年3月至2024年1月之间，当你谈论跨学科的最先进AI智能或能力时，你指的是GPT-4。没有其他东西可以与之相比。OpenAI的模型是独一无二的。

自2024年2月以来，这种情况发生了变化。谷歌的Gemini（1.0 Ultra和1.5 Pro），Anthropic的Claude（3 Opus和3.5 Sonnet），以及Meta的Llama 3.x都是GPT-4级别的模型（GPT-4和GPT-4o属于同一类）。

这些长期迟到的竞争者终于出现了。它们的优缺点取决于你如何使用它们，但它们的表现都在同一个水平。这种新现实让人对OpenAI的领导地位产生了怀疑。

但我们不应忘记，OpenAI和其他公司之间有一年的差距；按AI进展速度的标准，GPT-4已经是一个老模型了。
很难说GPT-4版本之间的适度迭代改进（如GPT-4 Turbo和GPT-4o）是否可以与一个全新的最先进模型相提并论。GPT-4的架构——在质量上如此清楚地区分它和GPT-3的细节——已经有1.5年了。这就是为什么Gemini、Claude和Llama在利用最新研究方面（例如架构变化、算法改进等）比GPT-4通过仅仅更新微调或训练数据所能做到的更深入。

有趣的问题是：
在暗中构建GPT-5时，OpenAI是否保持了其领先优势？还是它的竞争对手终于缩小了差距？
一种可能性是，谷歌、Anthropic和Meta已经展现了它们的全部实力；Gemini 1.5、Claude 3.5和Llama 3.2是它们所能做到的最好。我不认为这是事实（我会跳过Meta，因为它们的情况很独特，需要单独分析）。

让我们从谷歌开始。
谷歌在发布Gemini Advanced（带有1.0 Ultra后端）一周后宣布了Gemini 1.5。我们只见过Gemini 1.5的冰山一角；他们宣布了中间版本1.5 Pro，这已经是GPT-4级别了，但我不认为这是他们的最佳表现。我相信Gemini 1.5 Ultra已经准备好了（而且已经准备了几个月）。
如果他们还没有发布它，那是因为他们学到了OpenAI从早期就开始利用的一个教训：掌握发布时机对成功至关重要。生成式AI竞赛的广泛传播使得无法忽视这一点。
考虑到1.0 Pro和1.0 Ultra之间存在较大的差距，合理的假设是，Gemini 1.5 Ultra将显著优于1.5 Pro（不过谷歌在命名方面还有待改进）。但Gemini 1.5 Ultra究竟有多好？达到GPT-5级别吗？我们还不知道，但考虑到1.5 Pro的评估分数，这是可能的。（也有可能谷歌直接跳到Gemini 2.0。）
Gemini 1.0与GPT-4级别完全一致并非偶然——这不是因为他们遇到了瓶颈或展示了谷歌的局限性，而是一个预先计划好的行动，向世界证明他们也能打造那种AI（让我提醒你，构建模型的团队并不是负责做市场推广的团队，而谷歌在这一方面常常表现不佳）。
Anthropic的情况对我来说不太清楚。他们比谷歌和OpenAI更少面对媒体，但我没有理由将他们排除在外，因为Claude 3.5的表现比GPT-4略高，这让人难以相信这是巧合。
另一个支持Anthropic的关键点是它成立于2021年。一个世界级的AI初创公司需要多长时间才能在最高层次上竞争？合作伙伴关系、基础设施、硬件、训练时间等都需要时间，而当OpenAI开始训练时，Anthropic刚刚起步。Claude 3和3.5是Anthropic的首次真正尝试，因此我不会惊讶于Claude 4比预期更早推出，并与OpenAI可能通过GPT-5实现的任何目标相匹配。
这个模式很清晰：每一代新的*模型（首先是GPT-3，然后是GPT-4，接下来是GPT-5）的差距在逐渐缩小。原因显而易见：顶尖的AI公司已经学会如何可靠地构建这种技术。打造*的大型语言模型（LLM）已经不再是OpenAI的秘密了。他们最初领先是因为他们掌握了一些别人还没弄明白的东西，但现在其他人也追上来了。
即使公司能够很好地保守商业机密，技术和创新最终还是会趋同于可实现和可负担的东西。GPT-5级别的模型可能会有一定的异质性（就像GPT-4一样），但它们的发展方向是一致的。
如果我是对的，这就削弱了GPT-5本身的重要性——这也是为什么我认为这篇14000字的分析应该被更广泛地解读，而不仅仅是对GPT-5的预览——重点应该放在这一整个模型的类别上。这是件好事。
总结：我相信Anthropic的Claude 4.0、谷歌的Gemini 2.0和Meta的Llama 4.0都会在OpenAI的GPT-5的水平线上。

GPT-5还是GPT-4.5？
三月初有传言说GPT-4.5的消息泄露了（只是公告，不是权重）。搜索引擎捕捉到了这个消息，后来OpenAI将其删除。网页上写着“知识截止点”（即模型知道世界状态的最新时间点）是2024年6月。这意味着假设的GPT-4.5将训练到6月，然后经过几个月的安全测试、风险控制和“红队攻击”流程，可能会推迟到2024年底发布（还有两个月）。
如果这是真的，这是否意味着GPT-5今年不会发布？有可能，但并非必然。
我们需要记住的是，这些名称——GPT-4、GPT-4.5、GPT-5（或者其他，比如o1）——只是代表OpenAI认为达到某种能力水平的占位符。OpenAI一直在改进其模型，探索新的研究方向，进行不同计算资源水平的训练，并评估模型的检查点。构建一个新模型并不是一个简单、直线的过程，需要大量的试错、微调细节，以及可能意外获得好结果的“YOLO运行”。
经过所有的实验，当他们认为准备好了，他们就会进行大规模训练。一旦模型达到“足够好”的表现水平，他们会以最合适的名称发布。如果他们称GPT-4.5为GPT-5，或者反过来，我们可能根本不会察觉到。
这个逐步检查的过程也解释了为什么Gemini 1.5和Claude 3.5略高于GPT-4，但并不意味着LLM的进步遇到了瓶颈。
我下面引用的所有关于“GPT-5发布”的消息可能是在讨论GPT-4.5或其他名称的东西（有些引用早于OpenAI宣布o1的时间，所以可能是它）。也许，GPT-4.5的泄露信息，截止到2024年6月的知识，会在经过一些改进后成为GPT-5（也许他们试图达到GPT-4.5的水平但没能成功，因此放弃了这个版本）。
这些决策取决于内部结果和竞争对手的动向（也许OpenAI没有预料到Claude 3.5在三月份成为公众的首选模型，因此决定放弃GPT-4.5的发布）。
有一个强有力的理由认为不会有GPT-4.5版本：当竞争如此接近、外界审查如此严格时，发布x.5版本没有意义（尽管Sam Altman说他希望通过迭代发布来避免给世界带来震惊，并给我们适应的时间）。
人们会下意识地将每一个重大版本视为“下一代模型”，无论它的编号如何，并根据自己的期望来测试它（我认为这就是为什么OpenAI称o1为一个新家族而不是GPT-5，因为它与GPT-4太相似了）。如果用户觉得它不够好，他们会质疑为什么OpenAI不再等等；如果他们觉得它很好，OpenAI又会思考是否应该命名为x.0而不是x.5。
并不是所有的事情都以客户的需求为导向，但生成式AI现在更像是一个产业而非科学领域。OpenAI应该推出GPT-5，并确保它表现出色。
不过，也有例外。
OpenAI发布了GPT-3.5模型，但如果你回想一下，那只是一个低调的变化（后来被ChatGPT所掩盖）。他们并没有像对待GPT-3、GPT-4、GPT-4o、o1，甚至是DALL-E和Sora那样大张旗鼓。
另一个例子是谷歌的Gemini 1.5 Ultra，发布于Gemini 1.0 Ultra后一周。谷歌想通过连续两次超过OpenAI最佳模型的发布来加固他们的胜利。然而，这并未成功——Gemini 1.0 Ultra并没有优于GPT-4（人们期望更多，而不是一个复杂的演示），而Gemini 1.5则被几小时后发布的OpenAI的Sora所取代（谷歌在营销策略上还有很多要向OpenAI学习）。
总之，OpenAI需要一个充分的理由来发布GPT-4.5。
总结：命名约定是任意的。无论如何，我不认为OpenAI会推出GPT-4.5，而是会直接发布GPT-5。

GPT品牌陷阱
最后，我想提一下GPT的陷阱。
与其他公司不同，OpenAI将其产品与GPT这个缩写紧密联系在一起，现在GPT既是一个技术术语（最初是这样），也是一个拥有某种声望和影响力的品牌，很难放弃。
GPT（生成式预训练转换器）是一种特定类型的AI架构，可能在未来的研究突破中存活下来，也可能不会。GPT能否摆脱“自回归陷阱”？能否为GPT注入推理能力，或者将其升级为一个智能代理？这些都不确定。
我的问题是：OpenAI是否会继续称其模型为GPT，以保持大多数人将AI与这一强大的品牌联系在一起，还是会保持严格的技术标准，在更好的东西出现时切换到新名称？如果OpenAI坚持这个无价的缩写（如其商标注册所示），是否会因为将未来锚定在过去而自我阻碍？
OpenAI可能会让人们错误地认为他们只是在与另一个聊天机器人交互，而实际上他们手上可能拥有一个强大的智能代理。
（我在2024年4月写下这些话：现在我们知道OpenAI将其最新模型命名为o1，因为他们认为它不属于GPT家族，这暗示着他们并不像我最初想的那样被GPT品牌陷阱所束缚。然而，我不认为这一策略会适用于GPT-5。人们——全世界——都在期待OpenAI推出一个GPT-5版本，OpenAI应该满足这一预期。）
总结：OpenAI需要决定是继续坚持强大的GPT品牌，还是转向新的事物，让人们能够欣赏他们正在与比聊天机器人更强大的东西互动。

第二部分：我们所知道的关于GPT-5的一切
OpenAI 何时会发布 GPT-5？
3月18日，Lex Fridman 采访了 Sam Altman。他透露了 GPT-5 发布日期的相关信息。Fridman 问道：“那么，GPT-5 什么时候发布呢？” Altman 回答：“我不知道；这是真话。”
我相信他是诚实的，但他的“我不知道”有多种可能的解释。我认为他确实知道 OpenAI 想做什么，但生活中固有的不确定性让他可以诚实地说他不知道。
在 Altman 所知道的范围内，他可能没有透露更多信息的原因有三：首先，他们还在决定是否发布 GPT-4.5；其次，他们在衡量与竞争对手的距离；第三，他不想透露确切日期，以免竞争对手有机会在发布时抢占先机，就像他们一直对 Google 做的那样。
他随后犹豫是否回答 GPT-5 是否会在今年发布，但他补充道：“我们今年会发布一个令人惊叹的新模型；我不知道我们会叫它什么。”（他肯定指的是 o1。）
我认为他在“GPT-5 的名字是任意的”这一节中提到的模糊性可以解释这个问题。Altman 还说，他们“还有许多其他重要的事情需要首先发布”。他可能指的是：公开发布 Sora 和语音引擎（是的），一个独立的网页/工作 AI 代理，一个更好的 ChatGPT UI/UX（是的），一个搜索引擎（是的），一个推理/数学模型（是的）。
因此，构建 GPT-5 是优先事项，但不是发布它。
Altman 还说，OpenAI 之前在“避免对世界造成冲击性更新”方面犯过错误（例如第一个 GPT-4 版本）。这可以解释他对 GPT-5 发布日期模糊的原因。他补充道：“也许我们应该考虑以不同的方式发布 GPT-5。”我们可以将此视为随意的评论，但我认为这有助于解释 Altman 为何不愿说出类似“我知道我们何时发布 GPT-5，但我不会告诉你”这样的话，这是公平的。
也许他们正在通过测试 GPT-5 的各个部分（例如，用 o1 测试新的数学/推理能力，用 Sora 测试视频生成，用高级语音测试语音功能等）来避免对世界造成冲击。在将这些部分整合为一个更强大的基础模型之前，不这样做是不负责任的，也与 Altman 的言论不一致。
让我们听听其他来源的说法。
3月19日，在 Fridman-Altman 采访的第二天，Business Insider 发布了一篇题为《OpenAI 预计在年中发布一个“显著更好的”GPT-5 用于其聊天机器人，消息人士称》的新闻文章，这与 Altman 前一天的说法完全相矛盾。既然 Altman 不知道日期，怎么会有非 OpenAI 的消息来源知道？如果 OpenAI 还有那么多东西要发布，GPT-5 怎么可能在年中发布？这些信息是不连贯的。以下是 Business Insider 的内容：
“由 Sam Altman 领导的生成式 AI 公司正计划在年中，即夏季期间发布 GPT-5，据两位熟悉公司情况的人士透露 [身份由 Business Insider 确认]。…… 一位知情人士称，OpenAI 仍在训练 GPT-5。训练完成后，它将进行内部安全测试，并进一步‘红队攻击’……”
因此，3月19日 GPT-5 仍在训练中（这是该文章中唯一的事实而非预测）。我们假设它在2024年4月完成训练，并且 OpenAI 自那时以来一直在进行安全测试和红队攻击。这个过程会持续多久？我们再次假设一个慷慨的估计，“与 GPT-4 相同”（假设 GPT-5 更复杂，这使得这是一个安全的下限）。GPT-4 在2022年8月完成训练，而 OpenAI 在2023年3月宣布了它。那是七个月的安全层测试。但请记住，微软的 Bing Chat 早已在后台使用了 GPT-4。Bing Chat 于2023年2月初宣布。因此，六个月是个合理的估计。
总的来说，最慷慨的估计将 GPT-5 的发布推到2024年10月——也就是现在！在最好的情况下。那是在美国大选前一个月。鉴于 AI 驱动的政治宣传的先例，OpenAI 当然不会如此鲁莽。
Business Insider 所谓的“GPT-5 年中发布”是否是个错误，实际上指的是 OpenAI o1？
这种观点可以协调我们分析的所有信息：它解释了 Altman 的“我不知道 GPT-5 何时发布”和“我们有许多其他重要的事情要先发布”。这也符合迭代发布的加倍承诺，以及一个“震撼性”新模型对选举的威胁。
根据所有这些信息（包括当我们理解“GPT-5”是一个任意名称时显得合理的那些不一致部分），我的猜测是：GPT-5 100%会在选举之后发布。OpenAI 将在接下来的几个月内发布一些新东西，但这不会是 Altman 说的今年最大的一次发布。（最近的事件表明更早的惊喜发布仍有可能。）
总结：GPT-5 不可能在2024年第四季度之前发布，但很可能会推迟到2025年第一至第二季度。

GPT-5 的性能如何？
这是每个人都在等待的问题。
这一部分的价值在于两个方面：首先，它汇集了一些你可能错过的来源。其次，它提供了信息的分析和解读，可以为我们预期的内容提供一些启示。
几个月来，Altman 一直暗示他对 GPT-5 相比现有 AI 的改进充满信心。2024年初，在达沃斯世界经济论坛期间的一次私人对话中，Altman 私下对韩国媒体《每日经济新闻》以及其他新闻媒体表示（通过谷歌翻译）：“GPT-2 很差。GPT-3 也很差。GPT-4 也很差。但 GPT-5 会很好。”他还告诉 Lex Fridman，GPT-4“有点糟糕”，而 GPT-5 将会“更聪明”，不仅仅是在一个类别上，而是在各个方面都如此。
接近 OpenAI 的人也以模糊的措辞谈论过这个问题。Richard He 通过 Howie Xu 说道：“GPT-4 的大多数局限性将在 GPT-5 中得到解决。”而一位未透露姓名的消息人士告诉 Business Insider，“[GPT-5] 真的是非常好，明显更好。”所有这些信息虽然很好，但也很琐碎、模糊，甚至不可靠（此时我们能相信 Business Insider 的消息来源吗？）。
然而，有一件事是 Altman 告诉 Fridman 的，我认为这是我们关于 GPT-5 智能最重要的数据点。他说的是：
我预计 GPT-5 和 GPT-4 之间的差距将与 GPT-4 和 GPT-3 之间的差距相同。
这一观点比其他观点具有更丰富的信号。如果这听起来有些神秘，那是因为它所讨论的并不是 GPT-5 的绝对智能水平，而是它的相对智能水平，这可能更难分析。
具体来说，它表明：GPT-3 → GPT-4 = GPT-4 → GPT-5。
要解释这个“等式”，我们需要技术手段来解读它。我们还需要了解很多关于 GPT-3 和 GPT-4 的信息。我只需要假设 Altman 知道他在说什么——他理解这些“差距”意味着什么——并且即使 GPT-5 还未完成，他也已经知道 GPT-5 智能水平的大致范围。
基于此，我得出了三种解读（为了简明起见，我只使用了模型的编号，而不加上“GPT”）。
第一种解读是，4-5 和 3-4 的差距指的是在基准评估中的类似跳跃，这意味着 GPT-5 将在广泛的评估中比 GPT-4 更智能，正如 GPT-4 比 GPT-3 更智能一样（这点有些难，因为众所周知，评估标准已不再可靠，但暂且搁置这一点）。这种结果无疑会让人们感到满意，因为随着模型变得更强，攀升基准变得更加困难。
困难到让我怀疑这是否真的可能。并不是因为 AI 无法变得如此智能，而是因为这种智能会让我们人类的测量标准变得太短——这些测试对 GPT-5 来说太简单了。

上图是 GPT-4 与 GPT-3.5 的比较（GPT-3 的分数会更低）。在某些领域，GPT-4 的提升不大，但在其他领域，它的表现已经如此之好，以至于高分可能让这些测试失去意义。即使我们接受 GPT-5 不会在所有方面都有提升，但在它确实有所改进的领域，它将超越基准测试的极限。这使得 GPT-5 不可能在使用这些基准的情况下达到与 GPT-4 和 GPT-3 之间相同的差距。
如果我们假设 Altman 正在考虑更困难的基准测试（例如 SWE-bench 或 ARC），其中 GPT-3 和 GPT-4 的表现都很差（GPT-4 在 SWE-bench 上，GPT-3 在 ARC 上，GPT-4 也在 ARC 上表现不佳），那么让 GPT-5 展现出类似的差距将会让人失望。如果你使用为人类设计的考试（例如 SAT、律师资格考试、AP 考试），你不能确定 GPT-5 的训练数据没有被污染。
第二种解读表明，这种差距指的是非线性的“指数”扩展规律（规模、数据、计算能力的增加），而不是线性增长的性能。
这意味着 GPT-5 将延续之前由 GPT-2、GPT-3 和 GPT-4 划定的曲线，不论这些曲线在性能上带来什么结果。例如，如果 GPT-3 有 1750 亿参数，GPT-4 有 1.8 万亿参数，那么 GPT-5 将拥有大约 18 万亿参数。但参数数量只是扩展方法中的一个因素——尤其是现在，一组新的扩展规律将主导接下来的发展——所以这个差距可能包括其他所有内容：他们使用了多少计算能力，提供了多少训练数据等。
这是 Altman 一个更安全的说法（OpenAI 控制这些变量），也是一个更合理的说法（新的涌现能力需要新的基准测试，之前的数据不存在，无法进行 GPT-3 → GPT-4 和 GPT-4 → GPT-5 的比较）。然而，Altman 说他“预计”这种差距，这表明他不确定，这就有些奇怪了。
第三种可能性是，Altman 所说的差距指的是用户感知，即用户将会感知到 GPT-5 比 GPT-4 更好，正如他们感知到 GPT-4 比 GPT-3 更好一样（问问那些重度用户，你会得到“好太多了”这样的答案）。这是一个大胆的说法，因为 Altman 不可能知道我们会怎么想，但他可能是在基于经验说话；这是他从最初评估中感受到的，他只是在分享他的个人评价。
如果这种解读是正确的，那么我们可以得出结论：GPT-5 将会令人印象深刻。如果那些最习惯于使用前几个版本的人——也是对新技术期望最高、对新鲜感最不敏感的人——确实有这样的感觉。
如果我心情好，并且不得不押注哪种解读最正确，我会选择这个。如果我心情不好，还有第四种解读：
Altman 只是在为公司下一个产品做宣传。OpenAI 过去已经兑现了他们的承诺，但激进的营销手段一直存在（例如在 Google 发布 Gemini 1.5 几小时后发布 Sora）。我们可以默认这种解读以确保安全，但我相信前面三种说法中有一些真实的成分，尤其是第三种。
然而，这是一种浅显的方式来评估 GPT-5 的优劣。下一部分将探索一种更全面的方式来理解 OpenAI 想要实现什么，以及这如何影响 GPT-5。
总结：要么 GPT-5 将比 GPT-4 好很多，要么 OpenAI 将失去人们的关注。然而，我相信 Altman 的许多言论是出于他对资金和*审批的需求而作出的。
OpenAI 的目标如何塑造 GPT-5
在进一步进入推测领域之前，让我分享一下我认为正确的框架，以理解 GPT-5 能做到什么和不能做到什么，也就是说，如何区分有根据的推测和幻想。这为理解 OpenAI 的整个 AI 方法提供了一个总体视角。
OpenAI 明确的目标是通用人工智能（AGI）。除了 AGI，OpenAI 还有两个“非官方目标”（如果你愿意，可以称之为工具性目标），它们更具体、更直接，是技术上前进的真正瓶颈（产品方面还有其他考虑，例如“做出人们想要的东西”）。
这两个目标是增强能力和降低成本。无论我们对 GPT-5 做出什么假设，都必须遵守平衡这两者的需求。
OpenAI 可以不顾一切地增强能力（只要他们的研究人员和工程师知道如何做），但这可能会带来无法接受的成本，Azure 云可能会因此而不满，微软的合作关系也会因此受到影响（这关系已经不再像过去那样排他）。OpenAI 无法承受成为资金的无底洞。DeepMind 曾是谷歌的“烧钱坑”，借口是“为了科学”。而 OpenAI 专注于商业和产品，因此他们必须赚取丰厚的利润。
他们也可以通过多种方式降低成本（例如定制硬件、压缩推理时间、稀疏性、优化基础设施以及应用像量化这样的训练技术），但盲目这样做会削弱能力（2023年春季，他们不得不放弃一个代号为“Arrakis”的项目，旨在通过稀疏性使 ChatGPT 更高效，因为效果不佳）。花更多钱总比失去客户的信任更好——或者更糟的是，失去投资者的信任。
总之，随着这两个相对的需求——能力和成本——位于 OpenAI 优先级的顶端（仅次于总是模糊不清的 AGI），即使我们缺乏官方信息，也可以缩小对 GPT-5 的预期范围——我们知道他们关心这两个因素。如果再加上限制他们选择的外部环境因素，情况对 OpenAI 更加不利：GPU 短缺（虽然没有 2023 年年中那么严重，但仍然存在）、互联网数据短缺、数据中心短缺以及对新算法的迫切需求。
最后一个直接影响 GPT-5 的因素推动 OpenAI 制作出最强大的模型：他们在行业中的特殊地位。
OpenAI 是最具知名度的 AI 初创公司，在经济和技术上处于领先地位，每当他们发布新东西时，我们都会屏息以待。所有的目光都集中在他们身上——竞争对手、用户、投资者、分析师、记者，甚至*——所以他们必须要做大。GPT-5 必须超越人们的期望，改变范式。尽管 Altman 说过迭代发布和避免震惊世界，但从某种程度上说，他们必须震撼世界。即使只是一点点。
总结：尽管成本和一些外部限制——计算能力、数据、算法、选举、社会影响——限制了他们能走多远，但对增强能力的无限渴望以及需要稍微震撼一下世界的需求将推动他们尽可能走得更远。让我们拭目以待。

第三部分：我们不知道的关于 GPT-5 的一切
GPT-5 与扩展法则的支配
2020年，OpenAI 制定了一种经验形式的扩展法则，自此以来，这些法则一直定义着 AI 公司的路线图。核心思想是三个因素足以定义甚至预测模型的性能：模型规模、训练数据量和计算/训练的浮点运算量（FLOPs）（2022年，DeepMind 精炼了这些法则以及我们对如何训练计算高效模型的理解，这就是所谓的“Chinchilla 扩展法则”，即最大的模型严重训练不足；你需要按模型规模的同等比例扩展数据集规模，才能最大限度利用现有的计算资源并实现最强的 AI 性能）。
我上面提到的新一套扩展法则指的是，在公司可以在训练时间和测试时间之间权衡计算能力的情况下，模型如何扩展（首次在 OpenAI o1 中展示）。这意味着模型可以在实时回答问题时花费更多的计算能力，从而在不增加训练时间的情况下提高性能。我会将这一部分的分析排除在本文之外，因为这是未知领域——目前没人知道它将如何影响模型的表现。

标准扩展法则（无论是 OpenAI 的原始形式还是 DeepMind 的修订版本）的底线意味着，随着预算的增长，大部分预算应该用于扩展模型（规模、数据、计算）。(即使这些法则的具体细节存在争议，它们的存在，或不论常数如何，现在都毋庸置疑。)
Altman 在2023年声称“我们正在接近巨型模型时代的终点，我们会用其他方式让它们变得更好。”这一方法的诸多体现之一影响了 GPT-4 的设计——它几乎可以肯定会影响 GPT-5——即在不放弃扩展的情况下，将模型设计为专家混合（MoE），而不是像 GPT-3 和 GPT-2 那样的密集模型。
专家混合模型（MoE）是由多个小型的专业模型（专家）组成的巧妙组合，根据输入的性质激活这些专家（你可以想象它有一个数学专家来回答数学问题，有一个创意专家来写作小说等），通过一个门控机制，该机制也是一个神经网络，学习如何将输入分配给专家。在固定预算下，与较小的密集模型相比，MoE 架构提高了性能并加快了推理时间，因为对于任何给定的查询，仅有一小部分专门的参数被激活。
Altman 所说的“巨型模型时代的终结”或从密集模型转向 MoE 是否与扩展法则相矛盾？一点也不。相反，这是聪明地应用扩展法则的成果之一，借助架构优化等其他技巧（我误以为 OpenAI 将 GPT-4 设计为 MoE 是错误的）。扩展在生成式 AI 中仍然占主导地位（尤其是在语言和多模态模型中），因为它确实有效。你能通过改进模型的其他方面让它更有效吗？太好了！
在最高层次上竞争的唯一途径是以整体的视角对待 AI 创新：如果更多的计算能力和数据可以填补性能差距，那么深入研究更好的算法就没有意义。同样，如果更简单的架构或优化技术可以节省一半的资金，浪费数百万去购买 H100 也不明智。如果将 GPT-5 做大10倍有效，那就做；如果让它成为超级 MoE 模型有效，那也可以。
Friedman 问 Altman，构建 GPT-5 的主要挑战是什么（是计算能力还是技术/算法），Altman 说：“总是所有这些。”他补充道：OpenAI 做得非常好的一点是，“我们将200个中等规模的东西组合成一个巨大的东西。”
人工智能一直是一个权衡的领域，但一旦生成式 AI 投放市场并成为一个盈利的行业，更多的权衡也随之而来。OpenAI 正在处理这些问题。当前，寻找更优路径的首选启发式方法是遵循 Richard Sutton 在《痛苦的教训》中的建议，这是一种扩展法则的非正式表述。以下是我对 OpenAI 应对这些权衡的整体方法的总结：坚定相信扩展法则，但在面对有前景的研究时持开放态度。
GPT-5 是这一整体观点的产物，因此它将在最大程度上利用扩展法则——以及任何能让 OpenAI 更接近其目标的其他东西。扩展以何种方式定义 GPT-5？我的猜测很简单：所有方面。增加模型规模，增加训练数据集，增加计算/浮点运算量。让我们来做一些粗略的估算。

模型规模
GPT-5 也将是一个 MoE 模型（AI 公司现在大多在构建 MoE 模型，因为它们的高性能与高效推理相得益彰。Llama 3 是一个有趣的例外，可能是因为它被设计为可以本地运行——尤其是较小的版本——以便那些 GPU 资源有限的用户可以将其适配到他们有限的内存中）。GPT-5 将比 GPT-4 更大（总参数数量方面，这意味着，如果 OpenAI 没有找到比 MoE 更好的架构设计，GPT-5 将拥有比 GPT-4 更多的专家或更大的专家，无论哪种方法能带来最佳的性能和效率组合；还有其他增加参数的方法，但对我来说这是最合理的）。
GPT-5 将比 GPT-4 大多少还未知。我们可以简单地外推参数数量的增长趋势：GPT（2018，1.17亿参数）、GPT-2（2019，15亿参数）、GPT-3（2020，1750亿参数）、GPT-4（2023，估计为1.8万亿参数），但这些跳跃并没有对应任何明确的曲线（尤其是因为 GPT-4 是 MoE 模型，因此无法与其他模型进行类比）。另一个原因是，模型合理的增长规模取决于训练数据集的大小和你能用来训练它的 GPU 数量（记住我之前提到的外部限制：数据和硬件短缺）。
我发现其他地方发布了关于规模的估算（例如 2-5 万亿参数），但我认为没有足够的信息来进行准确的预测（尽管如此，我仍然做了我的估算，以便给你一些即使最终不完全准确也能引起兴趣的内容）。
让我们看看为什么做出知情的规模估算比听起来更难。例如，上述 Alan Thompson 提到的 2-5 万亿参数的数字是基于这样一个假设：OpenAI 使用了两倍的计算资源（“10,000 → 25,000 个 NVIDIA A100 GPU 加上一些 H100”）以及两倍的训练时间（“大约 3 个月 → 大约 4-6 个月”）来训练 GPT-5，相比 GPT-4。
GPT-5 已经在11月开始训练，最终的训练仍在一个月前进行，因此训练时间翻倍是合理的，但 GPU 数量有误。当他们开始训练 GPT-5 时，尽管 H100 GPU 短缺，但 OpenAI 已经可以访问微软 Azure 云的大部分计算资源，即“10k-40k H100”。因此，GPT-5 的规模可能比 2-5 万亿大 3 倍。我在下文中记录了我的计算细节。

数据集规模
Chinchilla 扩展法则揭示了最大的模型训练严重不足，因此在没有更多数据来支持额外参数的情况下，GPT-5 的规模超过 GPT-4 是没有意义的。
即便 GPT-5 的规模与 GPT-4 相似（我不认为这会发生，但这并不违反扩展法则，并且在新的算法范式下可能是合理的），Chinchilla 法则表明，仅仅增加数据也会带来更好的性能（例如，Llama 3 的 80 亿参数模型在 15 万亿个标记上进行了训练，这严重“过度训练”，但在停止训练时它仍在学习）。
据估计，GPT-4（1.8 万亿参数）大约训练了 12-13 万亿个标记。如果我们保守地假设 GPT-5 的规模与 GPT-4 相同，那么 OpenAI 仍可以通过提供多达 100 万亿个标记来改进它——如果他们能找到收集那么多数据的方法！如果它的规模更大，那么他们需要那些极其宝贵的标记。
OpenAI 的一个选择是使用 Whisper 来转录 YouTube 视频（他们已经在违反 YouTube 服务条款的情况下这样做了）。另一个选择是合成数据，这在 AI 公司中已经是一种常见做法，并将在人类创造的互联网数据“耗尽”后成为常态。我相信 OpenAI 仍在挖掘最后的可访问数据残余，并寻找确保合成数据质量的新方法。
（他们可能已经找到了一种有趣的方法来实现后者，在不增加预训练标记数量的情况下提高性能。我在“算法突破”部分的“推理”子部分中探讨了这一点。）

算力
更多的 GPU 允许更大的模型和更多的轮次训练相同的数据集，在这两种情况下都会带来更好的性能（至少到目前为止他们还没找到极限）。要从这整个表面的分析中得出一个粗略的结论，我们应该关注在 2022 年 8 月至 2023 年 3 月期间（GPT-4 训练运行的跨度）和现在之间的一个我们确实知道改变了的事情：OpenAI 可以使用 Azure 上数千个 H100 以及随之而来的可用 FLOPs 增加来训练下一个模型。
也许 OpenAI 还找到了进一步优化 MoE 架构的方法，在相同的训练/推理成本下容纳更多的参数，也许他们找到了将合成 AI 生成的数据转换为高质量 GPT-5 级别标记的方法，但我们不能确定这两者。无论如何，Azure 的 H100 提供了不可忽视的优势。如果有一家 AI 初创公司能够摆脱 GPU 短缺，那就是 OpenAI。计算是成本发挥作用的地方，但只要 GPT-5 取得了出色的成果（并且尚未达到 AGI），微软暂时会照顾这一部分。

我对 GPT-5 的规模估算
假设 OpenAI 使用了 2.5 万个 H100 来训练 GPT-5，而不是 Thompson 所建议的 2.5 万个 A100（微软云为 OpenAI 保留的“1 万至 4 万个 H100”中的平均值）。粗略计算，H100 训练大型语言模型的速度是 A100 的 2 到 4 倍（成本相似）。OpenAI 可以用这些计算资源在一个月内训练一个 GPT-4 大小的模型。如果 GPT-5 需要他们 4 到 6 个月的时间，那么估算其规模为 7 至 11 万亿参数（假设相同的架构和训练数据）。这比 Thompson 的估计多了两倍。但将其做得这么大是否有意义，或者更好的做法是对较小的模型进行更多 FLOPs 训练？我们不知道；OpenAI 可能在今年取得了另一项架构或算法突破，以在不增加规模的情况下提高性能。
现在假设推理是限制因素（Altman 在 2023 年表示，OpenAI 在训练和推理方面都受限于 GPU 资源，但他更希望将后者的效率提高 10 倍，这表明推理成本最终将超过训练成本）。通过 2.5 万个 H100，OpenAI 在 GPT-5 相比 GPT-4 拥有两倍的最大 FLOPs，更大的推理批处理大小，并且能够以 FP8 而不是 FP16（半精度）进行推理。这意味着推理性能提高 2 到 8 倍。GPT-5 可能会大到 10 到 15 万亿参数，比 GPT-4 大一个数量级（前提是现有的并行配置能够在推理时跨 GPU 分布模型权重，不会在这个规模上崩溃，这一点我不清楚）。OpenAI 也可以选择使其高效一倍，这等同于更便宜（或者是两者的某种权衡混合）。
另一种可能性是，考虑到 OpenAI 一直在改进 GPT-4，部分新增的计算资源将用于使 GPT-4 更高效/更便宜（甚至免费，完全取代 GPT-3.5；我们可以梦想一下，对吧？）。这样，OpenAI 可以从那些知道 ChatGPT 存在但不愿付费或者不了解免费 3.5 版和付费 4 版之间巨大差距的用户那里获取收入。关于服务价格我不会再多做评论（也不确定 GPT-5 是否会出现在 ChatGPT 中），因为没有确切的规格，就无法确定（规模/数据/计算是第一层的不确定性，但价格是第二层的不确定性）。
总结：我估计 GPT-5 的规模将在 7-11 万亿参数之间，或者 10-15 万亿参数之间，具体取决于我使用的估算方法。

第四部分：GPT-5 的算法突破
这是最令人兴奋的一部分（是的，甚至比上一部分更令人兴奋），按照令人兴奋的定律，这也是最具推测性的一部分。从 GPT-4 到 GPT-5 推断扩展法则是可行的，虽然有些棘手。鉴于该领域目前的高度不透明，试图预测算法的进展是更大的挑战。
最佳的启发式方法是关注与 OpenAI 相关的人物，潜伏在信噪比高的 alpha 圈子中，并阅读顶尖实验室发布的论文。我只是部分地这样做了，所以如果有任何离奇的说法，请原谅。如果你已经读到这里，你已经陷得很深了。所以感谢你。我在这里给出了一些我们可以期待的线索（即 OpenAI 自 GPT-4 以来一直在研究的内容）：

这是 Altman 的营销话术，但我们可以利用这个结构化的愿景来汲取有价值的见解。其中一些能力更侧重于行为方面（例如推理、代理），而另一些则更偏向于消费者方面（例如个性化）。所有这些都需要算法突破。问题是，GPT-5 是否会成为这种愿景的体现？让我们分解它并做出有根据的猜测。

多模态
几年前，多模态还只是一个梦想。今天，它是一个必须具备的功能。所有顶尖的 AI 公司（无论是否对 AGI 感兴趣）都在努力使它们的模型具备捕捉和生成各种感官模式的能力。AI 研究人员喜欢认为没有必要复制所有让我们智能的进化特性，但大脑的多模态性是他们无法忽视的。两个例子：GPT-4 可以接收文本和图像并生成文本、图像和音频。Gemini 1.5 可以接收文本、图像、音频和视频并生成文本和图像。
显而易见的问题是：多模态性将走向何方？GPT-5（以及下一代 AI 模型）将具备哪些额外的感官技能？我们天真地认为人类有五种感官，一旦这些感官被整合，我们就完成了。这不是真的，人类实际上还有一些更多的感官。这些对 AI 来说都必须具备吗？我们是否应该实现动物拥有而我们没有的那些感官？这些是有趣的问题，但我们现在讨论的是 GPT-5，所以我会集中讨论 OpenAI 暗示已经解决的那些直接可能性。
语音引擎表明情感/人类合成音频已经相当成熟。它已经在 ChatGPT 中实现，因此它也会在 GPT-5 中（也许不是一开始就有）。尚未解决但接近解决的最热门领域是视频生成。OpenAI 在2月宣布了 Sora，但并没有发布。据《信息报》报道，Google DeepMind 的 CEO Demis Hassabis 说：“Google 可能很难赶上 OpenAI 的 Sora。”鉴于 Gemini 1.5 的能力，这不是对 Google 无法发布 AI 产品的确认，而是对 Sora 的壮举印象深刻的认可。OpenAI 会将它纳入 GPT-5 吗？他们正在艺术家和 TED 中测试最初的印象；至于一旦每个人都可以创建任何内容的视频会发生什么，谁也说不准。
《The Verge》报道，Adobe Premiere Pro 将整合 AI 视频工具，可能包括 OpenAI 的 Sora。我敢打赌，OpenAI 首先会将 Sora 作为独立模型发布，但最终会将其与 GPT-5 合并。这将是对“不要震撼世界”承诺的一种致敬，因为我们对文本模型与视频模型的习惯程度差距太大。他们会像以前对 GPT-4 Vision 那样逐步开放 Sora 的访问权限，之后再赋予 GPT-5 生成（和理解）视频的能力。

机器人技术
Altman 并没有在他的“AI 能力”幻灯片中提到人形机器人或实体化，但与 Figure 的合作（以及你不应该完全相信的那个光滑的演示，即使它是真的）表明了 OpenAI 在该领域的未来押注（请注意，多模态不仅仅涉及眼睛和耳朵，还涉及触觉、位置觉以及运动系统，即行走和灵巧性。从某种程度上说，机器人技术是多模态和代理的共同因素）。
我最有信心的一点（尽管在 AI 圈子中不太被接受）是，无论是基于硅还是基于碳的实体，拥有一个身体是达到人类智能水平的必要条件。我们倾向于认为智能存在于我们的脑袋里，但这种想法忽视了我们的身体（以及其他人的身体）在感知和认知中扮演的关键角色。Melanie Michell 在一篇关于通用智能的《科学》评论中谈到了实体化和社会化：
“许多研究生物智能的人也对所谓的‘认知’智能的某些方面能够脱离其他模式并在非实体机器中被捕捉持怀疑态度。心理学家已经证明，人类智能的许多重要方面都根植于个体的身体和情感体验中。证据还表明，个体智能在很大程度上依赖于参与社会和文化环境的能力。理解、协调和向他人学习的能力可能比个体的‘优化能力’对实现目标的成功更为重要。”
我敢打赌 OpenAI 正在回归机器人领域（我们会看到 GPT-5 在多大程度上表明了这一转变）。他们放弃这一领域并不是出于哲学上的信念（尽管公司中的一些成员仍会说诸如“通过模拟一切，视频生成将导致 AGI”的话，这表明身体是不必要的），而是出于务实的考虑：没有足够的现成数据，模拟的丰富度不足以将结果外推到现实世界，现实世界的实验既昂贵又缓慢，Moravec 悖论等。
也许他们通过将工作外包给专注于该领域的合作伙伴，正在回归机器人领域。一个内部装有 GPT-5 的 Figure 02 机器人，能够执行代理行为和推理——并且能走直线——将是一个巨大的工程壮举，也是一个令人惊叹的景象。

推理
这可能是 GPT-5 带来前所未有变化的一大亮点。Altman 告诉 Fridman，GPT-5 将比以前的模型更加智能，这简而言之就是它将具备更强的推理能力。如果说人类智能在某方面超越动物智能，那就是我们能够进行推理。推理的定义是，通过将现有知识与新信息结合，遵循逻辑规则（如演绎或归纳）得出新的知识，从而更接近真理。这就是我们如何构建世界的心智模型（这是 AI 领域的热门话题），以及我们如何制定实现目标的计划。简言之，这就是我们建造周围那些被称为文明的奇迹的方式。
有意识的推理是困难的。准确地说，我们觉得推理很难。这是有道理的，因为与我们做的大多数其他事情相比，它在认知上更具挑战性；在脑海中进行四位数的乘法运算只为最聪明的头脑所能做到。如果这很难，为什么简单的计算器能瞬间完成比我们能命名的数字还大的运算？这可以追溯到 Moravec 悖论（我刚刚提到过）。Hans Moravec 观察到，AI 很容易完成对我们来说看似困难的事情，比如高位数运算，但却在完成看似最平凡的任务时（如走直线）困难重重。
但如果愚笨的设备能瞬间完成神级的运算，为什么 AI 在解决新任务或问题上的推理能力远不如人类？为什么 AI 的泛化能力如此之差？为什么它表现出卓越的结晶智能，却表现出糟糕的流体智能？目前围绕现有最先进的 LLM（如 GPT-4 或 Claude 3）是否具备推理能力的讨论仍在进行。我认为有趣的数据点是，它们不能像我们一样进行推理，缺乏相同的深度、可靠性、稳健性或泛化能力，而只是“以极其有限的方式”，正如 Altman 所说的那样。（在 MMLU 或 BIG-bench 等推理基准上得分很高与具备类人推理能力并不相同；这些基准可以通过记忆和模式匹配捷径实现，更不用说数据污染的影响。）
我们可以争辩说这是一种“技能问题”，或者“采样可以证明知识的存在，但不能证明其不存在”，这些都是合理且有效的理由，但不能完全解释 GPT-4 在诸如 ARC 挑战中的绝对失败，而人类可以解决这个挑战。进化可能为我们的推理提供了不必要的障碍，因为它是一种低效的优化过程，但有大量的经验证据表明 AI 在某些方面仍然落后于我们，超出了 Moravec 的预见。
这一切都是为了引入我认为是导致 AI 推理缺陷的深层技术问题。我认为最大的问题是，AI 公司过于专注于模仿学习，即获取大量的互联网人类数据并将其输入大型模型，以便这些模型通过模仿我们的写作方式和解决问题的方式来学习（这就是纯 LLM 的工作方式）。他们的理由是，通过让 AI 吸收数百年来人类创造的数据，它就能像我们一样进行推理，但这并没有奏效。
模仿学习方法有两个重要的限制：首先，互联网上的知识大多是显性知识（知道是什么），但隐性知识（知道如何做）无法通过文字准确传递，因此我们甚至不会尝试——你在网上找到的主要是复杂迭代过程的成品（例如，你阅读我的文章，但你全然不知我曾经经历了几十次草稿）。(我会在代理部分回到显性知识与隐性知识的区别。）
其次，模仿只是人类儿童学习工具箱中的众多工具之一。儿童还会进行实验、尝试错误、自我玩耍——通过与世界互动并通过反馈循环更新知识和整合机制，他们有多种学习方式，而这些方式超越了模仿。LLM 缺乏这些关键的推理工具。然而，这些工具并非闻所未闻：DeepMind 的 AlphaGo Zero 就是通过这种方式击败 AlphaGo 的——没有任何人类数据，只是通过深度强化学习（RL）和搜索相结合的方式与自己对弈。
除了这种强大的试错循环机制之外，AlphaGo 和 AlphaGo Zero 还具备另一个特性，这一点目前甚至连最好的 LLM（如 GPT-4、Claude 3 等）都不具备：它们能够思考接下来该做什么（即通过搜索算法对比并整合新信息与先前知识，区分坏的、好的和更好的选项以实现目标）。根据问题的复杂性分配计算能力是人类时常做的事情（DeepMind 已经测试了这种方法，并取得了有趣的结果）。这是 Daniel Kahneman 在其畅销书《思考，快与慢》中所称的系统 2 思维。Yoshua Bengio 和 Yann LeCun 也试图赋予 AI“系统 2 思维”能力。
我相信这两个特性——自我对弈/循环/试错和系统 2 思维——是缩小 AI 与人类推理差距的有前景的研究方向。有趣的是，具备这些能力的 AI，如 DeepMind 的 AlphaGo Zero——以及 AlphaZero 和 MuZero（甚至没有给它游戏规则）——的存在，与当今最好的 AI 系统缺乏这些能力的事实形成了鲜明对比。原因在于，现实世界（即使仅是语言世界）比棋盘更难“解决”：信息不完备的游戏、不明确的规则和奖励、以及一个拥有近乎无限*度的无限制行动空间，接近于科学中所能遇到的最难的挑战。
我相信，弥合推理游戏 AI 与现实世界推理 AI 之间的差距是所有当前推理项目的核心。种种迹象表明，OpenAI 尤其专注于通过将搜索和强化学习（RL）的力量与 LLM 集成来摆脱纯粹的模仿学习。OpenAI 的 o1 是对此的初步尝试，但不足以宣称 AI 推理问题已经解决。
也许在 OpenAI 中，最值得关注的关键人物是 Noam Brown，他是 AI 推理专家，于 2023 年 6 月从 Meta 加入该公司。在他的宣布推文中，他这样说：
“多年来，我研究了 AI 自我对弈和推理在扑克和外交等游戏中的应用。现在我将研究如何使这些方法真正通用。如果成功，我们或许有一天会看到比 GPT-4 强 1000 倍的 LLM。2016 年，AlphaGo 在 AI 领域取得了里程碑式的胜利，但关键在于 AI 在每步之前能‘思考’大约一分钟……如果我们能发现通用版本，收益将是巨大的。是的，推理可能会变慢 1000 倍，成本更高，但为了研发出新癌症药物或证明黎曼假设，我们愿意支付多少推理成本？”
我猜，一旦你有了我提供的背景，他就把一切都解释清楚了。最近，他发布了一条推文（后来被删除），他说：“通过对人类数据进行更好的模仿学习，你无法获得超人类表现。”
在 Sequoia 的一次演讲中，最近离开 OpenAI 的 Andrej Karpathy 也表达了类似的观点：
“我认为人们仍未真正看到这个领域的潜力……我认为我们只完成了 AlphaGo 的第一步。我们完成了模仿学习的部分。AlphaGo 的第二步是强化学习，而人们还没有做到……这是它真正发挥作用并超越人类的关键……模型需要自己练习……它需要弄清楚什么对它有效，什么对它无效[他暗示我们目前的教学方式并不适合 AI 的心理学特点]。”
Brown 和 Karpathy 关于模仿学习局限性的言论呼应了 DeepMind 联合创始人 Shane Legg 在 Dwarkesh Patel 播客上所说的一句话，依旧引用了 AlphaGo：
“要想获得真正的创造力，你需要搜索可能性的空间，并找到那些隐藏的宝石[他指的是 AlphaGo 与李世石第二局比赛中的著名第37步]……我认为当前的语言模型……并没有真正做到这种事情。它们实际上是在模仿数据……模仿互联网上的人类创造力。”
因此，要超越模仿学习，你必须将其与搜索、自我对弈、强化学习等结合。有几篇论文探讨了如何将搜索能力引入 LLM，或如何在游戏中普遍化自我对弈以及其他提示（例如，通过潜变量推理训练链式思维，ReFT：通过强化微调进行推理，ARES：通过多样化 AI 反馈交替进行强化学习和监督微调的多模态链式推理增强，多模态链式推理的交替强化学习与监督微调等等）。但没有确凿证据表明 OpenAI 除了 o1 之外在用什么来增加 GPT-5 的推理能力，我们也不知道它的具体工作原理（一些人试图对其进行逆向工程，取得了适度的成功）。
GPT-5 + o1 的推理能力会如上述暗示的那样令人印象深刻吗？
Yann LeCun 说我们应该“忽略关于 Q* [Q* = o1] 的无稽之谈”，他声称所有* AI 实验室都在研究类似的东西（技术趋同于可能性是有道理的）。他指责 Altman“长期自欺”，批评 Altman 的言论，显然是指 Altman 在被解雇的前一天在董事会会议中说的：“[这是第四次] 我有幸参与推动无知的面纱，推动发现的前沿。”
但 LeCun 可能也在为 Meta 的工作辩护，或者他只是对 OpenAI 招揽了 Brown 而感到心怀不满，Brown 在 LeCun 的 FAIR 实验室中创造了 Libratus（扑克）和 CICERO（外交）。(支持 LeCun 警告的论点是，Karpathy 说这还没完成，而 Brown 只是在暗示他的未来工作，而不是已经存在的东西。）
总结：我敢打赌，GPT-5 将是一个多模态的大型语言模型，具有显著增强的推理能力，借鉴了 o1 的能力。除此之外，OpenAI 将继续探索如何将这两条尚未完全融合的研究路径结合在一起。

个性化
我会简要讨论这一点。个性化是关于让用户与 AI 建立更亲密的关系。用户无法将 ChatGPT 完全定制为他们理想中的助手。系统提示、微调、RAG 和其他技术确实允许用户引导聊天机器人朝他们期望的方向发展，但这在 AI 对用户的了解程度和用户对 AI 的控制（以及 AI 向云端发送数据以从服务器获取响应的控制）方面仍然不足。如果你想让 AI 了解更多关于你的信息，你需要提供更多数据，这反过来会降低你的隐私。这是一个关键的权衡。
如果 AI 公司不希望客户冒险转向开源（尽管这需要更多的努力，Llama 3 让这种转向比以往任何时候都更具吸引力），它们就需要找到一个能够同时满足公司和客户的折衷方案。在权力和隐私之间是否有一个令人满意的中间地带？我认为没有；如果你追求大规模，就必须走向云端。OpenAI 甚至没有试图让个性化成为 GPT-5 的强项。原因之一是：该模型将非常庞大且计算密集，因此不要指望本地处理和数据隐私（大多数企业不会乐意将数据发送给 OpenAI）。
除了隐私和设备上处理之外，还有另一件事将开启个性化的新水平（其他公司已经实现了这一点，尤其是 Google 和 Magic，尽管只有 Google 公布了具备这一特性的模型）：数百万标记的上下文窗口。
当你从向 ChatGPT 提问两句话到能够用包含十年工作成果的 400 页 PDF 填充提示窗口时，其应用性将出现巨大飞跃，这样 ChatGPT 就可以帮助你检索其中隐藏的任何内容。为什么这还没有实现？因为对如此多的输入提示进行推理的成本非常昂贵，并且每增加一个单词，其成本的增长几乎呈指数级，这被称为“二次注意力瓶颈”。然而，似乎这一瓶颈已被破解；Google 和 Meta 的新研究表明二次瓶颈不复存在。
“问问你的 PDF”将成为一个很棒的应用，一旦 PDF 的长度可以是无限的。但还有一件事是百万标记窗口可以实现的，而十万标记窗口不能实现的：“问问我的生活”类应用。我不确定 GPT-5 的上下文窗口大小会是多少，但鉴于像 Magic 这样的年轻初创公司似乎已经在多百万标记窗口方面取得了良好结果——并且鉴于 Altman 明确提到个性化是必须具备的 AI 能力——OpenAI 至少必须在这一点上达到同等水平。

可靠性
可靠性是怀疑论者最喜欢的论点之一。我认为大型语言模型（LLM）不可靠（例如，幻觉现象）是人们对生成式 AI 的价值主张没有看得足够清楚从而付费的主要原因之一，也是增长停滞和使用量趋于平稳的原因，以及一些专家认为它们只是“有趣的干扰”而不是提升生产力的工具（即使它们有时能提升生产力，也并不总是顺利）。这不是每个人对 LLM 的体验，但它足够显著，以至于公司不应否认可靠性是需要解决的问题（尤其是如果他们期望人类在高风险的类别中使用这项技术）。
可靠性对于任何技术产品都至关重要，那么为什么在这些大型 AI 模型上如此难以做到这一点呢？我发现一个有用的概念化方式是，像 GPT-5 这样的东西既不是发明，也不是发现。它们最好的描述是被发现的发明。即便是最接近构建现代 AI 的人（更不用说用户或投资者）也不知道当你输入查询并得到输出后，模型内部到底发生了什么。（机械可解释性是一个热门的研究领域，针对的就是这个问题，但它还处于早期阶段。如果你对此感兴趣，可以阅读 Anthropic 的相关工作。）
这就好像 GPT-5 及其同类是一个古代装置，由一个先进文明留下，而我们在硅片考古挖掘中偶然发现了它们。它们是我们发现的发明，现在我们正试图弄清楚它们是什么，如何运作，以及如何使其行为可以解释和预测。我们感知到的不可靠性只是因为我们还没有很好理解这些“神器”，这是个下游的后果。这就是为什么尽管公司因客户流失和企业质疑损失了数百万美元，这个问题仍然没有解决。
OpenAI 正试图通过严格的防护措施（RLHF）、测试和红队攻击使 GPT-5 更加可靠和安全。但这种方法有其局限性。如果我们承认，如我之前解释的那样，AI 无法推理是因为“采样可以证明知识的存在，但不能证明其不存在”，那么我们可以将同样的理念应用于安全测试：采样可以证明存在安全漏洞，但不能证明其不存在。这意味着无论 OpenAI 做了多少测试，他们都永远无法确定他们的模型是完全可靠的，也无法确保它完全安全，能够抵御越狱、对抗性攻击或提示注入。
OpenAI 是否会提高 GPT-5 的可靠性、减少幻觉现象和外部攻击向量？GPT-3 到 GPT-4 的发展轨迹表明他们会改进。但能解决这些问题吗？不要抱太大期望。

代理
在我看来，这是整个文章中最有趣的部分。我之前写的所有内容，在某种程度上都与 AI 代理相关（特别强调推理）。核心问题是：GPT-5 会具备代理能力，还是像之前的 GPT 版本一样，仍是一个标准的语言模型，只能做很多事情，却无法制定计划并执行这些计划以实现目标？这个问题的重要性体现在以下三个方面：首先，代理能力对于智能的重要性不可低估。其次，我们知道代理能力的原始版本在某种程度上是可能的。第三，OpenAI 一直在研究 AI 代理。
许多人认为，代理能力——即在一段时间内利用可用资源进行推理、规划并自主行动以实现某些目标的能力——是 LLM 与人类水平 AI 之间缺失的环节。代理能力，甚至比纯粹的推理更重要，是智能的标志。正如我们上面所看到的，推理是达到这个目标的第一步——这是任何智能代理的关键能力——但它还不足够。在现实世界中进行规划和行动（对于 AI 来说，模拟环境可以作为第一个近似方法）是所有人类都具备的技能。我们很早就开始以一种揭示出我们有针对性推理能力的方式与世界互动。最初，这种互动是无意识的，没有推理参与（例如，一个哭闹的婴儿），但随着我们成长，它变成了一个复杂的、有意识的过程。
解释为什么代理能力对于智能来说是必需的，而推理在真空中并没有太大用处的一种方式是，通过显性知识和隐性/隐含知识的区别来说明。让我们想象一个强大的推理能力 AI，它被动地体验和感知世界（例如，一个物理学专家 AI）。阅读所有网络上的书籍可以让这个 AI 吸收并创造出难以想象的显性知识（知道是什么），这些知识可以形式化、转移，并写在论文和书籍中。然而，无论这个 AI 在物理学方面多么聪明，它仍然缺乏将所有公式和方程应用于，举个例子，争取资金用于检测引力波的昂贵实验的能力。
为什么？因为这需要理解世界的社会经济结构，并将这些知识应用于充满不确定性的新情况中，其中涉及许多动态的因素。这种应用于概括的能力超出了任何书籍的涵盖范围。这就是隐性知识（知道如何做）；这种知识只能通过做事并直接从那些已经知道如何做的人那里学习来掌握。
总结
没有任何 AI 能够在没有首先获取隐性知识的情况下成为一个有用的代理并在世界上实现目标，无论它在纯粹推理方面多么强大。
要获取隐性知识，人类必须做事。但是，“做事”要想在学习和理解方面有用，需要遵循通过反馈回路、实验、工具使用以及将所有这些与现有知识库整合的方式来实现目标的行动计划（这是 AlphaZero 所进行的超越模仿学习的有针对性的推理）。因此，推理对于一个代理来说，只是达成目标的手段，而不是目的本身（这就是为什么它在真空中是无用的）。推理提供了新

码农公寓

相关文章