14-53 剑和诗人27 - 多模态RAG（MMRAG)

2024-07-08 16:25:10

介绍

多模态机器学习正在彻底改变 AI 系统的功能。通过理解图像、音频、视频和文本等不同模态，这些系统可以解决以前机器无法解决的问题。

让我们探索该领域的一项激动人心的发展——多模态检索增强生成 (MM-RAG)——以及向量数据库如何使我们能够构建由多模态嵌入驱动的实用应用程序，以实现任意对任意的搜索和检索。

我们首先会介绍对比学习，这是一种训练高质量多模态嵌入的技术。然后，我们会讨论这些嵌入如何支持跨模态的任意对任意搜索。接下来，我们会深入研究 MM-RAG，看看检索相关的多模态上下文如何显著改善文本生成。

最后，我们会研究如何利用矢量数据库来大规模部署这些技术。

让我们开始吧！

多模态表征的对比学习

对比学习已成为训练多模态机器学习模型的强大方法。关键见解是，我们可以利用对比示例（跨模态的相似和不相似数据点）来教模型有用的多模态表示。

例如，我们可以通过将匹配的图像-标题对作为正例、不匹配的图像-标题对作为负例来训练图像-文本模型。通过将正例对的嵌入推近，同时将负例对的嵌入分开，该模型可以学习文本和视觉概念之间的对齐。

CLIP（对比语言-图像预训练）等技术已将这种方法运用得十分有效。作者利用从互联网上收集的 4 亿个图像-标题对训练了一个图像-文本模型，从而生成了一个功能极其强大的多模态嵌入模型。

同样的原则也适用于其他模态组合。例如，可以使用匹配的音频波形转录对作为正例来训练语音转文本模型。视频文本模型可以使用成对的视频剪辑和描述。对比学习甚至适用于单模态场景，例如学习文本转文本表示。

有效对比学习的关键因素是：

大量配对示例，用于跨模态对齐概念
适当的对比损失函数来比较正反两方面的例子
足够的模型容量来学习高质量的联合表征

如果操作正确，对比学习可以产生跨模态聚类语义概念的编码。这可以实现强大的跨模态搜索和检索。

使用多模态嵌入进行任意对任意搜索

多模态机器学习解锁了一项令人兴奋的功能——跨模态的任意搜索。借助高质量的联合嵌入，我们可以找到相关内容，无论格式如何——检索与文本查询匹配的图像，查找与视频重叠相同概念的音频片段等。

其工作原理是将所有数据点（图像、音频、视频、文本文档）编码到相同的语义嵌入空间中。嵌入距离较近的项目会捕获相似的概念，而距离较远的项目则会更加明显。

为了实现任意对任意搜索，我们只需将查询编码到共享空间中，然后根据嵌入相似性检索整个数据库中的最近邻居。无论查询和结果是图像、文本、音频还是视频，这都会显示相关匹配！

例如，让我们看一下图像到文本的搜索场景：

将图像数据库编码到多模态嵌入空间
用户提供海滩的查询图像
将查询图像编码到相同的嵌入空间中
检索与查询图像最接近的嵌入的文本文档
返回有关海滩、海洋、沙滩、海浪、日落等的相关结果。

同样的办法也适用于任何其他形式的查询和数据库搜索。我们可以从文本到音频、从视频到图像、从音频到视频，以及任何其他组合。

对比学习表示法使这成为可能——无论模态如何，都将语义概念紧密地分组在一起。这为极其灵活、强大的多模态搜索和发现铺平了道路！

MM-RAG：通过多模态检索增强生成

多模态嵌入使模型能够理解图像、文本、音频、视频等之间的关系。研究人员目前正在探索如何应用这种先进的表征学习来改进语言生成模型。

一种越来越受欢迎的技术是多模态检索增强生成 (MM-RAG)。简而言之，关键思想是将 GPT-3 之类的语言模型与使用对比学习嵌入的多模态检索器相结合。

在文本生成过程中，模型会检索相关的图像、音频和文本示例，以指导其完成。这为输出提供了额外的背景信息，从而提高了相关性和准确性。

Anthropic 使用这种方法的早期成果令人惊叹。在想象海滩上的一天等困难的提示下，通过图像检索增强的模型可以产生更加连贯、扎实和具体的输出：

未使用 MM-RAG 生成：我想象在海滩度过一天会非常放松。我会坐在阳光下，听着海浪拍打海岸的声音。也许我会去游泳或建造沙堡。暂时远离日常生活，享受宁静的氛围，这感觉真好。

使用 MM-RAG 生成：我想象有一天在海滩，海滩上到处都是金色的沙滩，明亮的蓝色海浪有节奏地拍打着海岸线。在点缀着浮云的明亮天空下，当我呼吸着新鲜而咸咸的海风时，我的脚趾会陷入光滑的沙子中。我喜欢去浮潜，瞥见五颜六色的鱼儿在下面游动，或者只是在毛巾上打个盹，在闪闪发光的水和头顶上飞翔的海鸥的陪伴下休息。也许以后我可以打开一个椰子，或者建造一个带有桥梁和护城河的精致沙堡，然后在日落时分长途散步，看着发光的橙色圆盘沉入地平线以下。

MM-RAG 示例通过相关图像传达出更多特异性和天赋。研究人员发现，从总结到对话建模等多种类型的生成任务都有类似的好处。

这种方法有望将语言 AI 提升到一个新的水平。但我们需要可扩展的方法来在生产系统中提供多模态检索和基础模型。接下来让我们探索向量数据库如何实现这一点。

使用矢量数据库构建多模式生产系统

我们探索的技术提供了改变游戏规则的功能 — 多模式搜索和检索、基于 MM-RAG 的语言生成等等。但在生产中大规模交付这些系统面临着效率、成本、基础设施复杂性等方面的挑战。

这就是 Weaviate 等专用矢量数据库的作用所在。通过有效地索引和搜索矢量空间，这些数据库可以解锁对比学习和神经表征模型的用户规模部署。

例如，为了实现超快速的多模式搜索和检索，我们可以使用以下堆栈：

对比训练的多模态模型（如 CLIP）将图像、文本、音频等数据点编码到共享向量空间中
像 Weaviate 这样的矢量数据库吸收了这些嵌入
即使有数十亿个嵌入，数据库也能执行有效的向量相似性搜索
用户查询搜索向量数据库以即时检索跨模态的相关结果

凭借针对向量空间定制的专门数据结构和算法，即使在数据量巨大的情况下，该堆栈也能实现极快的多模式搜索。

我们可以使用相同的基础来大规模构建 MM-RAG 生产系统：

摄取大型基础语言模型
允许模型与存储数十亿个多模态嵌入的矢量数据库进行交互
在生成过程中，有效地检索相关上下文以通知文本补全
向用户返回扎实、相关的输出
通过反馈循环继续改进模型

通过利用基础模型、对比表示学习和矢量数据库的综合能力，该系统将 MM-RAG 的承诺从研究转移到现实世界的实践。

多模式人工智能的未来

这篇文章重点介绍了一些令人着迷的创新，例如多模态表示的对比学习、跨模态的任意对任意搜索以及基于 MM-RAG 的生成。这些技术共同扩展了 AI 可以感知、构思和实现的范围。

随着方法的进一步成熟，我们将看到多模态人工智能变得更加普及——从像 Meta 这样了解用户丰富兴趣的推荐系统，到像 GPT-4 这样的虚拟助手和其他更准确地回答问题的方法。

媒体和电子商务将允许通过任意搜索对目录进行细粒度探索。生成应用程序将生成具有强大连贯性和基础性的写作、图像、动画、合成和对话。

要让这些未来成为现实，我们需要让多模态人工智能可扩展且可部署。专门构建的矢量数据库解锁了这一关键步骤，实现了生产环境中讨论的惊人功能。

我希望您喜欢这次探索日益壮大的多模态智能世界的旅程，并了解数据库如何利用从对比学习到 MM-RAG 的技术为现实世界的应用程序提供支持！随着多模态和生成式人工智能继续快速发展，激动人心的时刻即将到来。

码农公寓

介绍

多模态表征的对比学习

使用多模态嵌入进行任意对任意搜索

MM-RAG：通过多模态检索增强生成

使用矢量数据库构建多模式生产系统

多模式人工智能的未来

相关文章