OpenAI新研究破解GPT-4大脑，分解1600万个特征打开“黑匣子”，Ilya 、Jan Leike也参与了！

2024-06-08 14:41:39

6月7日凌晨，OpenAI在官网发布了一个新的研究成果，首次破解GPT-4的神经网络活动。通过改进大规模训练稀疏自动编码器将GPT-4的内部表示分解为 1600 万个特征。而且，前段时间离职的Ilya Sutskever、Jan Leike也是作者之一！

这不是破译了GPT-4的大脑吗！

听起来好像很有意思，于是奶茶赶紧搬运来，让我们一起来看下！

3.5研究测试：
hujiaoai.cn
4研究测试：
askmanyai.cn
Claude-3研究测试：
hiclaude3.com

稀疏自编码器

神经网络一直被视为人工智能领域的“黑匣子”，其运作机制复杂难懂，与机械设备不同，神经网络的设计和训练充满了未知。在设计和训练神经网络时，对最终结果的理解非常有限。

为了揭开这个“黑匣子”，OpenAI的研究人员一直在寻找神经计算的基本构建块。然而，语言模型内部的神经激活模式复杂多变，似乎同时代表了多个概念，并且这些激活是密集的，每次输入都会触发多个激活。这与现实世界中遇到的稀疏概念形成鲜明对比，在任何给定情境中，只有少数几个概念是相关的。

于是，OpenAI研究团队开始了关于从语言模型中提取可解释特征的研究：

论文标题：
Scaling and evaluating sparse autoencoders

论文链接：
https://cdn.openai.com/papers/sparse-autoencoders.pdf

开源地址：
https://github.com/openai/sparse_autoencoder

论文首先指出，虽然稀疏自编码器在提取语言模型中的可解释特征方面表现优异，但其极端稀疏性使得训练过程非常困难。传统方法难以处理大型语言模型中的复杂特征。因此，研究团队使用了TopK稀疏自编码器、N2G等方法进行了大规模的训练，训练后能够识别出神经网络中对生成特定输出至关重要的少量特征，将GPT-4的内部表示分解为1600万个通常可解释的模式，这些模式被称为“特征”，展示了GPT-4如何处理和理解各种信息。

这种方法提高了大语言模型的透明度和可解释性，能够识别与特定概念相关的特征，例如人类不完美、价格上涨、修辞问题等。

大家如果感兴趣这篇论文的话，可以在评论区告诉我们～我们速速安排论文解读！

有趣的样例

OpenAI制作了一个在线的Demo查看器，允许用户分析GPT-4内部表示的特定特征，从而理解这些特征在模型内部的作用和解释：

▲SAE查看器Demo

Demo地址：
https://openai.com/index/extracting-concepts-from-gpt-4/

而且OpenAI在官网展示了一些可视化界面，让我们打开其中一个《人类的不完美》的例子来看下：

我们点进去【完整的可视化】可以看到对应主题文本的激活函数权重的完整可视化界面：

绿色高亮的文字是已经准备好的标识点，当鼠标挪到对应的文字上可以看到其对应的真实的激活的权重：

界面上还显示了一些宏观上的数值：

直方图：展示了特征激活值的分布情况，X轴表示激活值的大小，Y轴表示对应激活值的频次。大多数激活值集中在较低的范围内，随着激活值的增加，频次逐渐减少。
Density：5.54e-5，表示特征激活的密度。
Mean：8.40e-5，表示激活值的平均值。
Variance：1.64e-4，表示激活值的方差。
Skew：2.08e+2，表示激活值分布的偏度。
Kurtosis：6.00e+4，表示激活值分布的峰度。

看起来真的很酷哎！大家感兴趣的话可以看看官网其他的例子：

https://openai.com/index/extracting-concepts-from-gpt-4/

仍存在限制

研究团队表示很高兴可解释性最终能够提高模型的可信度和可操作性。然而，这仍处于早期阶段，存在许多局限性：

与之前的研究一样，许多发现的特征仍然难以解释，许多特征的激活没有明确的模式，或者表现出与它们通常编码的概念无关的虚假激活。此外，我们也没有很好的方法来检查解释的有效性。
稀疏自动编码器无法捕获原始模型的所有行为。目前，将 GPT-4 的激活通过稀疏自动编码器可获得与使用大约 10 倍计算量训练的模型相当的性能。为了完全映射前沿 LLM 中的概念，我们可能需要扩展到数十亿或数万亿个特征，即使使用改进的扩展技术，这也具有挑战性。
稀疏自动编码器可以在模型的某一点找到特征，但这只是解释模型的一步。还需要做更多的工作来了解模型如何计算这些特征，以及这些特征如何在模型的其余部分中下游使用。

小结

虽然稀疏自动编码器研究令人兴奋，但前路漫漫，还有许多未解决的挑战。OpenAI希望发现的特征能够实际用于监控和控制语言模型行为，并计划在更前沿模型中测试这一点。希望有一天，可解释性可以为推理模型的安全性和稳健性作出贡献，并通过对它们的行为提供强有力的保证，显著提高人类对强大语言模型的信任。

此外，6月6日凌晨，OpenAI还在官网公开了名为 AccessManager 的服务，作为管理内部授权和实现最小权限授权的可扩展机制。这也是OpenAI首次系统性地公布大模型开发安全方面的高级细节。再结合今天的大语言模型可解释性的研究，OpenAI似乎也在开始展示自己在安全方面的一些努力！让我们一起期待吧～

码农公寓

稀疏自编码器

有趣的样例

仍存在限制

小结

相关文章