大模型学习笔记1-大模型应用基础

一、什么是 AI

在当前AI概念大火的大环境下,似乎不加上AI的系统都不够潮流,但如何定义什么是AI?一种观点:基于机器学习、神经网络的是 AI,基于规则、搜索的不是 AI。从我个人理解上来看,更通俗的来说运行结果没有规律、不可预知,但能够在一定程度上符合预期的系统可以认为是AI。

二、大模型 AI 能干什么

虽然我们平时熟知的大模型产品主要以对话为主,例如ChatGPT、通义千问,文心一言等等,可以这样说,这些对话产品只是大模型的一种应用方式,或许是当前最能够产生热度或使用门槛最低的一种应用方式,但在我看来并不是最能够产生生产力的一种应用方式,我们可以给大模型建立一套规则,让大模型在这套规则里按照我们的设定去运行,听起来是不是就很像传统工程应用上产品经理给开发提需求,或者换句话说,可以直接把大模型当成一个能够接收文本或者二进制并根据要求输出文本或者二进制的电子人或智能体。

三、大模型是怎样工作的

简单来说,语言类大模型工作方式主要就是通过上文推测下一个字/词的概率,千万别觉得这很简单,也许人类的思考方式也是类似的机制。

大模型的工作主要有两个核心过程训练、推理,简单来说训练就是学习的过程,推理就是应用的过程。

训练:

  1. 大模型阅读了人类说过的所有的话。这就是「机器学习
  2. 训练过程会把不同 token 同时出现的概率存入「神经网络」文件。保存的数据就是「参数」,也叫「权重

推理:

  1. 我们给推理程序若干 token,程序会加载大模型权重,算出概率最高的下一个 token 是什么
  2. 用生成的 token,再加上上文,就能继续生成下一个 token。以此类推,生成更多文字

其中推理可能是一个单词、汉字,也可能是三分之一个单词、汉字,具体看训练者的想法和经验,如何对token进行定义。

这套机制就是大名鼎鼎的Transformer架构,目前只有 transformer 被证明了符合 scaling-law。

四、用好 AI 的核心心法

其实就一句话,把AI当人看,换句话说就是用跟人说话的方式跟AI交互,从个人日常体验来看这句话非常精髓,相比以前用搜索引擎搜索精简关键字的习惯,AI更适合用尽量没有二义性的与人交流的方式来进行交互。

五、大模型应用产品架构

1.AI Embebbed

2.AI Copilot

3.AI Agent

简单来说就是从1-3逐渐减少人对整个产品操作的参与度,从AI支持流程中部分节点到支持大部分节点,最终到AI自主决策完成整个流程,目前主流的还是AI Copilot。

六、大模型应用技术架构

1.纯 Prompt:

完全只通过提示词的方式使用大模型。

2.Agent + Function Calling

由AI自主决策是否需要调用函数(用户自定义,例如RestApi接口),调用的过程通常由外部程序完成,AI提供调用参数。

3.RAG(Retrieval-Augmented Generation)

将外部文档向量化存储(也可以使用es这种传统关键字检索,通常与向量库混合使用,具体后续文章会详细说明),使用提示词向量化检索相关文档配合使用,相当于开卷考试。

4.Fine-tuning(精调/微调)

对模型本身的训练进行微调,长期保存在模型的记忆中。

七、总结

相比传统软件工程true or false的底层逻辑,大模型应用颠覆了这个底层逻辑,把严谨的执行过程和结果变成了一个概率性的趋近结果,尽管它牺牲了一部分得出正确结果的概率,但同时也带来了更多的可能性,也许这就是所谓智能的意义吧。

上一篇:我的自白书之简历


下一篇:探索贪心算法:解决优化问题的高效策略