文章目录
- 前言
- 一、AIGC是什么?
- 1.1. 基本概念
- 1.2![请添加图片描述](https://i-blog.****img.cn/direct/632d6b3652324cbcab05979c54750d47.png)
- 二、 语言模型
- 2.1. 基于统计的语言模型。
- 2.2. 基于神经网络的语言模型。
- 2.3. 基于预训练机制的的语言模型/大语言模型
- 三、读入数据
- 3.1. 不得不说的Transformer
- 2.3. 影响力
- 2.4. 根据人类反馈的强化学习
- 2.5. 生成式AI
- 3. 各个领域最新的技术进展及应用
- 3.1. 网站
- 3.2. Text-to-Text
- 3.2. GPT-4
- 3.3. 其他LLM
- 3.3. Text-to-Image
- 4. Image-to-Text
- 总结
前言
从2022年11月30日OpenAI发布ChatGPT以来,人工智能的相关话题就一直占据新闻的头条,这个领域的相关技术更是日新月异,有人开玩笑说是“天天文艺复兴,日日工业革命”。虽然,这个说法略显夸张,但是还是说明这个话题目前的进展快速,而且收到了广泛的关注。
ChatGPT的爆火让大家感受到了大模型的能力,各大公司都在投入资源和人力去开发大模型。“对于大模型,当然会全力以赴,坚决拥抱”,这是雷总4月14号发微博表达的小米对于大模型技术的态度,我们也成立了大模型组去开发自己的大模型。我们是小米互联网业务部,对于大模型我们也应该全面拥抱,但是作为业务部门,我们拥抱大模型的方式应该是去想怎么用使用大模型,怎么去培养AI思维方式和理念,去助力业务发展。
大模型这个术语,是为了区分不同参数规模下的语言模型,研究团体创造的术语,大语言模型代指大型的预训练模型(如包含数百亿或数千亿个参数)。 从技术概念上讲,目前大家说的大模型都属于生成式AI(GAI,Generative Artificial Intelligence)。事实上,ChatGPT和其他生成式人工智能(GAI)技术可以统一到人工智能生成内容(AIGC)的范畴,这涉及到通过AI模型创建数字内容,如图像、音乐和自然语言等等。AIGC的目标是使内容创建过程更高效、更易于使用,从而以更快的速度生产高质量的内容。AIGC是通过从人类提供的指令中提取和理解意图信息,并根据其知识和意图信息生成内容来实现的。
那么,目前AIGC领域相关的技术都有哪些?技术是怎么演进的?目前SOTA(state-of-the-art)的技术都能做什么?本篇报告就是回答这些问题。希望大家看了本篇报告之后,能够对生成式AI技术的有一个简单的了解,然后能够把一些技术跟自己负责业务的一些功能点联系起来,能够有机会有能力助力业务发展。
提示:以下是本篇文章正文内容,下面案例可供参考
一、AIGC是什么?
1.1. 基本概念
- 人工智能(AI):人工智能是指让计算机模拟人类智能的一种技术,它旨在使计算机能够执行复杂的任务,如学习、推理、感知、理解等。
- 机器学习(ML):机器学习是一种实现人工智能的方法,它允许计算机通过数据自动学习和改进性能,而无需事先进行编程。
- 深度学习(DL):深度学习是机器学习的一个子领域,它利用神经网络模型来学习数据的表示和特征。深度学习在图像识别、语音识别和自然语言处理等领域取得了显著的成果。
神经网络(NN):神经网络是一种模拟人脑神经元连接的计算模型,通常由多个神经元层组成。神经网络通过调整连接权重来学习和识别输入数据中的模式。
5. ANI(窄域人工智能,Artificial Narrow Intelligence),也称为弱人工智能。窄域人工智能专注于执行特定任务,如语音识别、图像识别或推荐系统等。这些系统虽然在特定领域的表现优秀,但缺乏在多种任务和领域中进行泛化和适应的能力。
6. AGI(通用人工智能,Artificial General Intelligence)是一种具有广泛应用和理解能力的人工智能系统。通用人工智能的目标是让机器能够像人类一样处理各种任务,理解并学习新的概念,解决问题,以及在各种环境中进行适应和自主决策。关于通用人工智能没有特别明确的统一的定义,一种定义是它是一种非常普遍的智力能力,其中包括推理、计划、解决问题、抽象、思考、理解复杂概念、快速学习和从经验中学习的能力 。
1.2
判别式学习(Discriminative Learning)
学习P(Y|X),其目标是学习输入数据(特征)与输出数据(标签)之间的映射关系。判别式学习关注于直接建立一个决策边界或函数,以便将不同类别的数据分开。它不能反映训练数据本身的特性,但它寻找不同类别之间的最优分裂面,反映的是异类数据之间的差异,直接面对预测往往学习准确度更高。具体来说有以下特点:
-
对条件概率建模,学习不同类别之间的最优边界。
-
捕捉不同类别特征的差异信息,不学习本身分布信息,无法反应数据本身特性。
-
学习成本较低,需要的计算资源较少。
-
需要的样本数可以较少,少样本也能很好学习。
-
预测时拥有较好性能。
-
无法转换成生成式。
生成式学习(Generative Learning)
学习P(Y,X),其目标是学习输入数据和输出数据的联合概率分布。生成式学习关注于为每个类别建立一个生成模型,从而能够生成与训练数据相似的新样本。它可以从统计的角度表示分布的情况,能够反映同类数据本身的相似度,它不关心到底划分不同类的边界在哪里。当存在隐变量时,依旧可以用生成式模型,此时判别式方法就不行了。具体来说,有以下特点: -
对联合概率建模,学习所有分类数据的分布。
-
学习到的数据本身信息更多,能反应数据本身特性。
-
学习成本较高,需要更多的计算资源。
-
需要的样本数更多,样本较少时学习效果较差。
-
推断时性能较差。
-
一定条件下能转换成判别式。
二、 语言模型
语言模型简单来说就是建模一个字符序列是一个句子的概率,是人工智能领域的一个重要研究领域,其发展历程可以分为以下几个阶段:
2.1. 基于统计的语言模型。
这一阶段的语言模型通过统计方法分析大量语料,并对语言中各个单词出现的概率进行建模。
N-gram模型就是这一阶段最常用的模型。
2.2. 基于神经网络的语言模型。
随着深度学习技术的发展,语言模型开始采用神经网络模型进行建模,从而更好地模拟人类语言理解的过程。
2003年Bengio提出神经网络语言模型NNLM。
从今天再看,网络结构非常简单。它的意义是把深度学习和语言模型结合起来,为之后的工作搭好了基础。
2.3. 基于预训练机制的的语言模型/大语言模型
- Autoregressive language modeling (Decoder-only)
- Masked language modeling (Encoder-only)
三、读入数据
3.1. 不得不说的Transformer
- 介绍
Transformer是大多数大模型的核心架构,例如GPT-3、DALL-E-2、Codex和stable diffusion等等等等。毫不夸张的说,就是因为Transformer架构的提出,大模型才能这么好效果,包括NLP和CV,才有多模态领域的突破发展。
它首次被提出是为了解决传统模型(如RNN)在处理可变长度序列和上下文感知方面的局限性。Transformer架构主要基于自注意力机制,使模型能够关注输入序列中的不同部分。
Transformer由编码器和解码器组成。编码器接收输入序列并生成隐藏表示,而解码器接收隐藏表示并生成输出序列。编码器和解码器的每一层都由多头注意力和前馈神经网络组成。多头注意力是Transformer的核心组件,它学会根据词元的相关性为它们分配不同的权重。这种信息路由方法使模型在处理长期依赖关系方面表现更好,从而提高了在广泛NLP任务中的性能。
Transformer的另一个优点是其架构使其具有高度可并行性,并允许数据优于归纳偏差。这种属性使Transformer非常适合大规模的预训练,使基于Transformer的模型能够适应不同的下游任务。
它设计上的一些优点有:
- 自注意力机制(Self-Attention Mechanism):Transformer通过自注意力机制在输入序列中捕捉长距离依赖关系,克服了循环神经网络(RNN)和长短时记忆网络(LSTM)在处理长序列时梯度消失和梯度爆炸的问题。
- 并行计算能力:与RNN和LSTM串行处理序列数据不同,Transformer可以同时处理整个序列,从而显著提高计算效率和模型训练速度。
- 可扩展性:Transformer架构易于扩展,可以通过堆叠多个编码器和解码器层来增加模型的深度和容量,从而提高模型性能。
- 位置编码(Positional Encoding):Transformer通过位置编码为模型提供序列中每个元素的位置信息,弥补了自注意力机制中无法获取位置信息的缺陷。
- 多头自注意力(Multi-Head Attention):多头自注意力可以让模型在不同的表示子空间中同时学习多个注意力分布,从而提高模型的表达能力和捕获不同级别依赖关系的能力。
- 层次归一化(Layer Normalization):Transformer中使用的层次归一化有助于加速训练过程并提高模型的泛化能力。
- 残差连接(Residual Connections):Transformer中的残差连接可以减轻梯度消失问题,帮助深度模型更有效地训练。
- 网络结构
2.3. 影响力
2.4. 根据人类反馈的强化学习
尽管在大规模数据上进行训练,但人工智能生成内容(AIGC)并不总是能产生与用户意图一致的输出,其中包括输出内容的有用性和真实性,而这块是非常重要的。为了更好地使AIGC的输出与人类的偏好相一致,人类反馈的强化学习(RLHF)已经被应用于对各种应用中的模型进行微调。
- RLHF
- RLAIF
2.5. 生成式AI
生成式AI是深度学习的一个子集,是上面说的生成式学习在深度学习领域的运用,使用大模型的方式解决生成式学习的问题。
Google的一个关于生成式AI的课程https://www.youtube.com/watch?reload=9&app=desktop&v=G2fqAlgmoPo
- 单模态
- 多模态
- AIGC
从技术上讲,AIGC是在人类的指令下,利用GAI算法生成满足指令要求的内容。跟UGC,PGC对应,AIGC是指使用先进的生成型AI(GAI)技术生成的内容,可以在短时间内自动创作大量内容。
这个生成过程通常包括两个步骤:从人类指令中提取意图信息和根据提取到的意图生成内容。其实,包含上述两个步骤的GAI模型范式并非最近才提出来的。但是最近AIGC相对于之前的工作所取得的核心进步在于,在更大的数据集上使用有更多参数的模型,在更大量的计算资源上训练更复杂的生成模型。例如,GPT-3的主要框架与GPT-2相同,但预训练数据大小从WebText(38GB )增长到CommonCrawl(570GB),基础模型大小从15亿增长到1750亿。因此,GPT-3在各种任务上,如人类意图提取方面,具有比GPT-2更好的泛化能力。
不只是计算机科学界,最近整个社会开始对大型科技公司构建的各种内容生成产品产生兴趣。例如OpenAI的ChatGPT和DALL-E2 都是AIGC的代表。因为AIGC的显著成就,许多人相信这将是AI的新时代,并对整个世界产生重大影响。
3. 各个领域最新的技术进展及应用
3.1. 网站
- GitHub
https://github.com/
一个在线软件源代码托管服务平台,是全球最大的代码托管网站和开源社区。在2018,GitHub被微软公司收购。开源文化最大的推动者。要想知道最新最火的开源技术,可以关注https://github.com/explore。 - HuggingFace
https://huggingface.co/
模型届的GitHub,这波大模型浪潮的一个很重要的参与者,模型和数据集都可以托管在上面,模型还可以直接运行,给开发者便捷使用demo的机会。最主要的是它们开发的Transformers库,可以让开发者很方便的去使用开源模型。
他们最开始的方向是做对话机器人,2019年,为了训练聊天机器人的NLP能力,他们在GitHub开源了一个Transformers库,令人意外的是,在机器学习社区迅速流行起来,成为GitHub史上增长最快的机器学习库。不止于NLP库,Hugging Face也在逐渐变成机器学习领域的ModelHub中心。如今,Hugging Face已经共享了超100,000个预训练模型,10,000个数据集,涵盖了 NLP、计算机视觉、语音、时间序列、生物学、强化学习等领域,以帮助科学家和相关从业者更好地构建模型,并将其用于产品或工作流程。 - 魔搭社区
https://modelscope.cn/models
成立于 2022 年 6 月,是一个模型开源社区及创新平台,由阿里巴巴达摩院,联合 CCF开源发展委员会,共同作为项目发起方,推动基于“模型即服务”(Model-as-a-Service)理念的模型应用生态的繁荣发展。 - arXiv
https://arxiv.org/
arXiv是世界上最大的预印本网站,对于使用者来说,可以认为是论文仓库。
3.2. Text-to-Text
- ChatGPT
大名鼎鼎,这一波AI浪潮的引领者,相信读者也都已经对它有了很多的了解。
它是OpenAI公司推出的一个模型,能以交谈的方式进行交互。众所周知,该模型可以进行多轮对话,纠正自己错误的答案,并能拒绝不适当的请求。简单说下原理是,ChatGPT背后的模型基于Transformer,使用自回归语言模型的方式建模,使用大量数据进行预训练,然后通过人类反馈的强化学习进行的微调。
ChatGPT是基于GPT3.5系列模型的,GPT3.5系列模型是几个模型的集合,官网给出的输入gpt3.5系列的模型如下图。这些模型OpenAI都提供收费的API服务,开发者可以调用相应的接口。不同的模型有各自擅长的能力.
3.2. GPT-4
目前公认的最强的LLM,官方给的介绍里时候可以做多模态的,也就是可以图片输入,文字回答,但是对外开放的接口或者web端的入口,都还不支持图片输入。在一些基础的任务上,GPT4和GPT3.5的结果没有明显的区别,但是在一些复杂的,需要推理的任务上,GPT4还是表现出比之前模型强的多的能力。
GPT4刚发布的时候微软研究院就发了一篇针对GPT-4能力的评测文章《Sparks of Artifificial General Intelligence: Early experiments with GPT-4》。比较权威全面的评估了GPT4的各项能力,包括,夸学科知识融合能力、画图(写画图的代码)、写代码、数学、交互和使用工具的能力等等,都是非常惊人的,感兴趣的可以看看原文。这里我想说的是他们总结的GPT4一些缺点,这些缺点时候是值得我们思考的。
- 信心校准:该模型很难知道什么时候它应该有信心,什么时候它只是在猜测。它既会编造在其训练数 据中没有出现过的事实,也会在生成的内容和提示之间表现出不一致,我们在图1.8中称之为开放域和 封闭域的幻觉。这些幻觉可以用一种自信的、有说服力的方式陈述,很难被发现。因此,这样的幻觉 会导致错误,也会导致混乱和不信任。虽然在产生创造性的内容时,幻觉是一件好事,但依赖有幻觉 的模型所做的事实性声明可能会付出高昂的代价,尤其是在医疗保健等高风险领域的使用。有几种互 补的方法来尝试解决幻觉问题。一种方法是改善模型的校准(通过提示或微调),使其在不可能正确 的情况下放弃回答,或者提供一些其他可以用于下游的信心指标。另一种适合于缓解开放领域幻觉的 方法是将模型所缺乏的信息插入到提示中,例如允许模型调用外部信息源,如本节中的搜索引擎。
- 长期记忆:该模型的上下文非常有限(目前是8000个token,GPT有32K的),它以一种 "无状态 "的方式运作,没有明显的方法来教该模型新的事实。
- 持续的学习:该模型缺乏自我更新或适应变化的环境的能力。一旦模型被训练好,它就是固定的,没有任何机制可以纳入新的信息或来自用户或世界的反馈。人们可以在新的数据上对模型进行微调 ,但这可能导致性能下降或过度拟合。鉴于训练周期之间的潜在滞后性,当涉及到最近的训练周期之 后出现的事件、信息和知识时,系统往往会过时。
- 个性化:一些应用要求模型为特定的组织或终端用户量身定做。该系统可能需要获得关于一个组织的 运作或个人的偏好的知识。在许多情况下,系统需要在一段时间内以个性化的方式适应与人和组织的动态有关的具体变化。例如,在教育环境中,人们期望系统能够理解特定的学习风格,并随着时间的推移适应学生的进步,使其具有同情心和能力。该模型没有任何办法将这种个性化的信息纳入其反应中,只能通过使用元提示,这既有限又低效。
- 规划和概念性跳跃: 该模型在执行需要提前计划任务时表现出困难,这种想法构成了完成任务过程中的不连续的概念性飞跃。换句话说,该模型在需要概念跳跃的任务上表现不佳,而这种概念跳跃的形式往往是人类天才的典型代表。
- 透明度、可解释性和一致性:模型不仅会产生幻觉、编造事实和产生不一致的内容,而且似乎没有办法验证它产生的内容是否与训练数据一致,或者是否是自洽的。虽然模型通常能够为其决策提供高 质量的事后解释(正如第6.2节所展示的那样),但只有当导致某个决策或结论的过程被准确建模,并 且一个足够强大的解释过程也被准确建模时,使用解释来验证该过程才行得通。这两个条件都很难验证,而当它们失败时,就会出现是模型的决定和它的解释之间的不一致。由于模型对其自身的局限性没有明确的认识,所以如果不在一个狭窄的领域进行广泛的实验,就很难与用户建立信任或合作。
- 偏见和非理性:该模型似乎表现出人类知识和推理的一些局限性,如认知偏差和非理性(如确认的偏差、锚定和基数忽略)和统计谬误。该模型可能会继承其训练数据中存在的一些偏见、成见或错误,这可能反映了人类的共同观点和评估有关的意见或观点的分布。
- 对输入的敏感性的挑战:该模型的反应可能对提示的框架或措辞的细节以及它们在对话中的顺序非常敏感。这种非稳健性表明,在工程提示及其排序方面往往需要大量的努力和实验,而在人们没有投入足够时间和努力的情况下使用,会导致次优和不一致的推论和结果。
3.3. 其他LLM
3.3. Text-to-Image
-
DALL·E-2
DALL·E 2,由OpenAI创建,能够从由文本描述组成的提示生成原创的、真实的、逼真的图像和艺术作品。目前可以使用OpenAI API来使用此模型。具体来说,DALL·E 2能够结合概念、属性和不同的风格。
技术上,它使用了CLIP神经网络。CLIP(Contrastive Language-Image Pre-Training)是一个在各种(图像,文本)对上训练的神经网络。使用CLIP,可以用自然语言指示,给定一幅图像,预测最相关的文本片段。CLIP有几个优点的:它们对图像分布的变化具有鲁棒性,具有很强的zero-shot能力。
官网:https://openai.com/product/dall-e-2 -
Midjourney
一个由同名研究实验室开发的人工智能模型,可根据文本生成图像,于2022年7月12日进入公开测试阶段,使用者可透过Discord的机器人指令进行操作。
它因为对场景的还原能力比较强,方便使用和传播,良好的基于Discord的用户社群,是目前名声最大的文生图模型之一。
官网:https://midjourney.com/ -
Imagen
Google出品,效果不错,技术很强,热度不大。
官网: https://imagen.research.google/ -
stable diffusion
- 介绍
Stable Diffusion是2022年发布的深度学习文本到图像生成模型。它主要用于根据文本的描述产生详细图像,它也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词(英语)指导下产生图生图的翻译。
Stable Diffusion的优点是开源,它的代码和模型权重已公开发布,可以在大多数配备有适度GPU的电脑硬件上运行。而以前的专有文生图模型(如DALL-E和Midjourney)只能通过云计算服务访问。而且因为开源,所以大家可以这个模型上继续开发,微调,产生了很多衍生的模型,比较有名的有画真人的Chilloutmix模型。另外Stable Diffusion XL (SDXL) 是由stability.ai创建的一种新的生成式 AI 模型,可以从文本创建图像。据说它的效果比Stable Diffusion更强,可以用prompt更短的生成。然后图像更贴合prompt 人物,肖像也更加的逼真,图像中的文字也更加清晰。目前可以在Clipdrop平台免费试用。网址:https://clipdrop.co/stable-diffusion
题外话
这个模型的技术来源是发表在 CVPR 2022 中的一篇论文《High-Resolution Image Synthesis with Latent Diffusion Models》,署名作者一共五位,分别来自慕尼黑大学、海德堡大学和 AI 视频剪辑技术创业公司 Runway。为了在此基础上训练出 Stable Diffusion,研究团队动用了 4000 个 A100 Ezra-1 AI 超大集群,而 Stability AI 公司正是这些算力的提供者。总之,你大体可以理解为:在 Stable Diffusion 的最出名的版本中,Stability AI 出钱搞定了 GPU,慕尼黑大学、海德堡大学、Runway 的研究团队完成了研发。在这个过程中,他们使用了LAION公司提供的数据。
所以目前跟Stable Diffusion最相关的三个团队是Stability Ai公司、慕尼黑大学的 CompVis和Runway公司。而且两个公司针对Stable Diffusion的背后的公司问题一直在打架. - 技术
web-ui
Controlnet
- 介绍
-
DeepFloyd IF
DeepFloyd 是 Stability AI 旗下的多模态 AI 研究实验室,这次的 IF 模型就是由 DeepFloyd 研发的。据官方介绍,DeepFloyd IF 是最新最先进的开源文本-图像模型,拥有强大的语言理解能力,生成的图像具有高度真实感。从其官网展示了图像来看,DeepFloyd IF 生成的图像质量非常不错,也能处理多种不同的风格效果。
优点是能在图像中生成连贯清晰的文本,以及理解不同对象的属性和空间关系。
技术上,它把文本编码模型从CLIP变成了T5,把不能画文字的过甩给了CLIP。
官网: https://deepfloyd.ai/
HuggingFace网址: https://huggingface.co/spaces/DeepFloyd/IF -
一些工具
-
Bing Image Creator
1. 微软基于Dalle开发的易用产品
2. https://cn.bing.com/images/create?continueFlag=0e5a6e2357868bec5d1396545de0dec0 -
DreamStudio
1. Powered by Stability AI
2. https://dreamstudio.ai/generate
3. 用google账号登录,效果不错 -
Leonardo AI
1. https://app.leonardo.ai/ai-generations
2. 有自动根据简单的prompt,生成复杂promt的能力 -
Pixlr
1. https://pixlr.com/cn/x/#generator -
fusionbrain
1. https://fusionbrain.ai/diffusion
2. 不用登录就能用,是在画布上画
4. Image-to-Text
这一趴是多模态任务的代表作,主要是解决VQA(视觉问答)任务去构造的模型,GPT-4的demo里也有提到它可以完成这种任务的能力
1. CLIP
OpenAI在2021年1月5号发布的,也是一个里程碑的工作,开启了多模态模型的新篇章,zero-shot的图像分类任务效果非常好。它的文本编码器效果非常好,所以,DALL-E和Stable Diffusion都用了CLIP。不足是不能做VQA任务,应用场景:图像分类,图像检索。
官网:https://openai.com/research/clip
github:https://github.com/openai/CLIP
HuggingFace:https://huggingface.co/openai/clip-vit-large-patch14
应用:图像分类,图像检索
技术上,CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,与CV中的一些对比学习方法如moco和simclr不同的是,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的匹配关系。如下图所示,CLIP包括两个模型:Text Encoder和Image Encoder,其中Text Encoder用来提取文本的特征,可以采用NLP中常用的text transformer模型;而Image Encoder用来提取图像的特征,可以采用常用CNN模型或者vision transformer。
总结
更新中