首先是第一部分,数据库和大模型的演变历程。
讲这些之前,先简单回顾数据库的发展历史。在 IT 行业,数据库有超过 70 年的历史了,对于快速发展的 IT 行业来说,一个超过 70 年历史的技术,感觉像恐龙一样。
但是我们会看到在过去的 70 年里面,从最早的大型机再演变到后面的小型机,PC 服务器,数据中心 + 互联网,云,以及现在的 AI 时代。数据库在不停地演变和革新,每隔一段时间,新的硬件,新的应用就会催生新的数据库技术。
所以每个时代都会有不同的当红数据库。像 PC 时代的 Oracle,互联网时代的 MySQL,云时代的云数据库。
到 AI 时代硬件演变成了 GPU + CPU,应用变成了 AI 原生应用,像微软的各种 Copilot,创业公司 Midjourney 等等。在大模型时代,数据库这个领域当前最红的就是向量数据库,以及通过大模型加持的各种智能运维能力,比如百度智能云的 DBSC。DBSC 是数据库智能驾驶舱的英文缩写,我们取名叫数据库智能驾驶舱,寓意就是像给数据库也和电车一样有一个智能驾驶舱的能力,实现一定程度的自动化,改善体验,降低门槛。
其实 AI 和数据库结合是老生常谈。那为什么现在工业界比以往要更兴奋?主要原因还是大模型今天表现出理解、生成、推理、记忆四大能力。
这和以往 AI 还是有本质的提升,大模型和数据库的结合相比以前的 AI 技术,让场景更通用、能力更实用。所以说大模型二次激发了数据库和 AI 结合的浪潮。
讨论这个之前,我们先来看下大模型技术栈。
IaaS 这一层发生了很大的变更,从原来的以 CPU 为中心,演变成现在 CPU + GPU的模式。
PaaS 这一层有大模型,以及配套的工具链 Model Builder。为了应用实现的更简单,还有 Agent Builder 和 App Builder 等等。
向量数据库在 PaaS 这一层,通常向量数据库厂家还会带一个 RAG Flow,方便用户快速构建 RAG 应用。
而刚才提的数据库智能驾驶舱,属于 SaaS,是大模型和数据库结合的一种应用形式。其他的 SaaS 还有很多原生的 Agent、私有知识库,以及被大模型改造过的传统应用等等。