30页论文，俞士纶团队新作：AIGC全面调查，从GAN到ChatGPT发展史每日热讯

来源：36kr 时间：2023-03-30 16:04:18

2022年，可以说是生成式AI的元年。近日，俞士纶团队发表了一篇关于AIGC全面调查，介绍了从GAN到ChatGPT的发展史。

刚刚过去的2022年，无疑是生成式AI爆发的奇点。

自2021年起，生成式AI连续2年入选Gartner的「人工智能技术成熟度曲线」，被认为是未来重要的AI技术趋势。

(资料图片仅供参考)

近日，俞士纶团队发表了一篇关于AIGC全面调查，介绍了从GAN到ChatGPT的发展史。

论文地址：https://arxiv.org/pdf/2303.04226.pdf

本文节选了论文部分内容进行介绍。

奇点已来？

近年来，人工智能生成内容（AIGC，也称生成式AI）引发了计算机科学界以外的广泛关注。

整个社会开始对大型科技公司开发的各种内容生成的产品，如ChatGPT和DALL-E-2，产生了极大兴趣。

AIGC，是指使用生成式人工智能（GAI）技术生成内容，并可以在短时间内自动创建大量内容。

ChatGPT是OpenAI开发的一个用于构建会话的AI系统。该系统能够以一种有意义的方式有效地理解人类语言并作出回应。

此外，DALL-E-2也是OpenAI开发的另一种最先进的GAI模型，能够在几分钟内从文本描述中创建独特的高质量图像。

AIGC 在图像生成中的示例

从技术上讲，AIGC是指给定指令，可以引导模型完成任务，利用GAI生成满足指令的内容。这个生成过程通常包括两个步骤：从指令中提取意图信息，并根据提取的意图生成内容。

然而，正如以前的研究所证明的那样，包含上述两个步骤的GAI模型的范式并非是完全新颖的。

与此前工作相比，最近AIGC进步的核心点是在更大的数据集上训练更复杂的生成模型，使用更大的基础模型框架，并且可以访问广泛的计算资源。

比如，GPT-3和GPT-2的主框架一样，但是预训练数据大小从 WebText (38GB) 增加到 CommonCrawl (过滤后为570GB) ，基础模型大小从1.5B增加到175B。

因此，GPT-3在各种任务上比GPT-2有更好的泛化能力。

除了数据量和计算能力增加所带来的好处之外，研究人员还在探索将新技术与GAI算法结合起来的方法。

比如，ChatGPT利用人类反馈的强化学习 (RLHF) 来确定给定指令的最适当响应，从而随着时间的推移提高模型的可靠性和准确性。这种方法使ChatGPT能够更好地理解长时间对话中的人类偏好。

同时，在CV中，Stability AI在2022年提出的Stable Diffusion在图像生成方面也取得了巨大的成功。

与以往的方法不同，生成扩散模型可以通过控制探索和开发之间的平衡来帮助生成高分辨率图像，从而在生成的图像中实现多样性，与训练数据相似性的和谐组合。

通过将这些进步结合起来，模型在AIGC的任务中取得了重大进展，并已被艺术、广告和教育等各行各业采用。

在不久的将来，AIGC将继续成为机器学习研究的重要领域。

一般来说，GAI模型可以分为两种类型: 单模态模型和多模态模型

因此，对过去的研究进行一次全面的回顾，并找出这个领域存在的问题是至关重要的。这是首份关注AIGC领域的核心技术和应用的调查。

这是AIGC第一次在技术和应用方面总结GAI的全面调查。

以前的调查主要从GAI不同角度介绍，包括自然语言生成，图像生成，多模态机器学习生成。然而，这些先前的工作只关注AIGC的特定部分。

在这次调查中，最先回顾了AIGC常用的基础技术。然后，进一步提供了先进GAI算法的全面总结，包括单峰生成和多峰生成。此外，论文还研究了 AIGC 的应用和潜在挑战。

最后强调了这个领域未来方向。总之，本文的主要贡献如下:

-据我们所知，我们是第一个为AIGC和AI增强的生成过程提供正式定义和全面调查。

-我们回顾了AIGC的历史、基础技术，并从单峰生成和多峰生成的角度对GAI任务和模型的最新进展进行了综合分析。

-本文讨论了AIGC面临的主要挑战和未来的研究趋势。

生成式AI历史

生成模型在人工智能中有着悠久的历史，最早可以追溯到20世纪50年代隐马尔可夫模型 (HMMs) 和高斯混合模型（GMMs）的发展。

这些模型生成了连续的数据，如语音和时间序列。然而，直到深度学习的出现，生成模型的性能才有了显著的提高。

在早期的深度生成模型中，不同的领域通常没有太多的重叠。

生成AI在 CV、NLP和VL中的发展史

在NLP中，生成句子的传统方法是使用N-gram语言模型学习词的分布，然后搜索最佳序列。然而，这种方法不能有效适应长句子。

为了解决这个问题，递归神经网络（RNNs）后来被引入到语言建模任务中，允许相对较长的依赖关系进行建模。

其次是长期短期记忆（LSTM）和门控递归单元（GRU）的发展，它们利用门控机制来在训练中控制记忆。这些方法能够在一个样本中处理大约200个标记（token），这与N-gram语言模型相比标志着显著的改善。

同时，在CV中，在基于深度学习方法出现之前，传统的图像生成算法使用了纹理合成（PTS）和纹理映射等技术。

这些算法基于手工设计的特征，并且在生成复杂多样图像的方面能力有限。

2014年，生成对抗网络（GANs）首次被提出，因其在各种应用中取得了令人印象深刻的结果，成为人工智能领域的里程碑。

变异自动编码器（VAEs）和其他方法，如生成扩散模型，也被开发出来，以便对图像生成过程进行更细粒度的控制，并能够生成高质量的图像。

生成模型在不同领域的发展遵循着不同的路径，但最终出现了交集: Transformer架构。

2017年，由 Vaswani 等人在NLP任务中引入Transformer，后来应用于CV，然后成为各领域中许多生成模型的主导架构。

在NLP领域，许多著名的大型语言模型，如BERT和GPT，都采用Transformer架构作为其主要构建模块。与之前的构建模块，即LSTM和GRU相比，具有优势。

在CV中，Vision Transformer (ViT) 和 Swin Transformer后来进一步发展了这一概念，将Transformer体系结构与视觉组件相结合，使其能够应用于基于图像的下行系统。

除了Transformer给单个模态带来的改进外，这种交叉也使来自不同领域的模型能够融合在一起，执行多模态任务。

多模态模型的一个例子是CLIP。CLIP是一个联合的视觉语言模型。它将Transformer架构与视觉组件相结合，允许在大量文本和图像数据上进行训练。

由于在预训练中结合了视觉和语言知识，CLIP也可以在多模态提示生成中作为图像编码器使用。总之，基于Transformer模型的出现彻底改变了人工智能的生成，并导致了大规模训练的可能性。

近年来，研究人员也开始引入基于这些模型的新技术。

例如，在NLP中，为了帮助模型更好地理解任务需求，人们有时更倾向于少样本（few-shot）提示。它指的是在提示中包含从数据集中选择的一些示例。

在视觉语言中，研究人员将特定模式的模型与自监督对比学习目标的模式相结合，以提供更强大的表示。

未来，随着AIGC变得愈发重要，越来越多的技术将被引入，将赋予这一领域极大的生命力。

AIGC基础

本节中，介绍了AIGC常用的基础模型。

基础模型

Transformer

Transformer是许多最先进模型的骨干架构，如GPT-3、DALL-E-2、Codex和Gopher。

它最早是为了解决传统模型，如RNNs，在处理变长序列和上下文感知方面的局限性而提出的。

Transformer的架构主要是基于一种自注意力机制，使模型能够注意到输入序列中的不同部分。

Transformer由一个编码器和一个解码器组成。编码器接收输入序列并生成隐藏表示，而解码器接收隐藏表示并生成输出序列。

编码器和解码器的每一层都由一个多头注意力和一个前馈神经网络组成。多头注意力是Transformer的核心组件，学习根据标记的相关性分配不同的权重。

这种信息路由方法使该模型能够更好地处理长期的依赖关系，因此，在广泛的NLP任务中提高了性能。

Transformer的另一个优点是它的架构使其具有高度并行性，并允许数据战胜归纳偏置。这一特性使得Transformer非常适合大规模的预训练，使基于Transformer的模型能够适应不同的下游任务。

预训练语言模型

自从引入Transformer架构以来，由于其并行性和学习能力，让其成为自然语言处理的主流选择。

一般来说，这些基于Transformer的预训练语言模型可以根据其训练任务通常分为两类: 自回归语言模型，以及掩码语言模型。

给定一个由多个标记组成的句子，掩蔽语言建模的目标，例如BERT和RoBERTa，即预测给定上下文信息的掩蔽标记的概率。

掩码语言模型最显著的例子是BERT，它包括掩蔽语言建模和下句预测任务。RoBERTa使用与BERT相同的架构，通过增加预训练数据量，以及纳入更具挑战性的预训练目标来提高其性能。

XL-Net也是基于BERT的，它结合了排列操作来改变每次训练迭代的预测顺序，使模型能够学习更多跨标记的信息。

而自回归语言模型，如GPT-3和OPT，是对给定前一个标记的概率进行建模，因此是从左到右的语言模型。与掩码语言模型不同，自回归语言模型更适合生成式任务。

从人类反馈中强化学习

尽管经过大规模数据的训练，AIGC可能并不总是输出与用户意图一致的内容。

为了使 AIGC 输出更好地符合人类的偏好，从人类反馈中强化学习（RLHF）已应用于各种应用中的模型微调，如Sparrow、InstructGPT和ChatGPT。

通常情况下，RLHF的整个流程包括以下三个步骤: 预训练、奖励学习和强化学习的微调。

计算

硬件

近年来，硬件技术有了显著的进步，促进了大模型的训练。

在过去，使用 CPU训练一个大型神经网络可能需要几天甚至几周的时间。然而，随着算力的增强，这一过程已经被加速了几个数量级。

例如，英伟达的NVIDIA A100 GPU在BERT大型推理过程中比V100快7倍，比T4快11倍。

此外，谷歌的张量处理单元（TPU）专为深度学习设计的，与A100 GPU相比，提供了更高的计算性能。

计算能力的加速进步显著提高了人工智能模型训练的效率，为开发大型复杂模型提供了新的可能性。

分布式训练

另一个重大的改进是分布式训练。

在传统机器学习中，训练通常是在一台机器上使用单个处理器进行的。这种方法可以很好地应用于小型数据集和模型，但是在处理大数据集和复杂模型时就变得不切实际。

在分布式训练中，训练的任务被分散到多个处理器或机器上，使模型的训练速度大大提升。

一些公司也发布了框架，简化了深度学习堆栈的分布式训练过程。这些框架提供了工具和API，使开发者能够轻松地将训练任务分布在多个处理器或机器上，而不必管理底层基础设施。

云端运算

云计算在训练大模型方面也发挥了至关重要的作用。以前，模型经常在本地进行训练。现在，随着AWS和Azure等云计算服务提供了对强大计算资源的访问，深度学习研究人员和从业人员可以根据需要创建大模型训练所需的大型GPU或TPU集群。

总的来说，这些进步使得开发更复杂、更精确的模型成为可能，在人工智能研究和应用的各个领域开启了新的可能性。

作者介绍

俞士纶（Philip S. Yu）是计算机领域学者，是ACM/IEEE Fellow，在伊利诺大学芝加哥分校（UIC）计算机科学系任特聘教授。

他在大数据挖掘与管理的理论、技术方面取得了举世瞩目的成就。他针对大数据在规模、速度和多样性上的挑战，在数据挖掘、管理的方法和技术上提出了有效的前沿的解决方案，尤其在融合多样化数据、挖掘数据流、频繁模式、子空间和图方面做出了突破性的贡献。

他还在并行和分布式数据库处理技术领域做出了开创性贡献，并应用于IBM S/390 Parallel Sysplex系统，成功将传统IBM大型机转型为并行微处理器架构。

参考资料

https://arxiv.org/pdf/2303.04226.pdf

标签：

最近更新

30页论文，俞士纶团队新作：AIGC全面调查，从GAN到ChatGPT发展史每日热讯

奇点已来？

时间：2023-03-30 16:04:18
2023智慧商旅行业发展前景及投资风险

未来智慧商旅行业市场机会在哪?当前，随着人们出游观念的转变，越来越多的人提倡“可持续发展的智慧旅游”，而企业应当通过更积极地用户互...

时间：2023-03-30 15:21:05
环球快资讯丨港股异动 | 微创机器人-B(02252)跌5% 22年归母亏损扩大95.5%

微创机器人-B(02252)绩后小幅走低，午后跌约5%。22年，公司实现收入同比增长904 79%，归母亏损同比扩大95 53%。期末，现金及现金等价物由约19

时间：2023-03-30 14:20:50
黑暗武士刷图加点_黑暗武士刷图加点

Dnf黑暗骑士加点主要是选择大技能，另外就是魔流输出比较高。刷图主要是因为魔流的技能比较好，所以选择魔流的技能点要满。无

时间：2023-03-30 13:11:00
洛阳选派63名国企干部到深圳开展跟班学习

记者从29日召开的选派国企干部到深圳跟班学习动员会上获悉，洛阳选派63名国企干部，将于下周到深圳开展为期3个月的跟班学习。选派优秀年轻干部

时间：2023-03-30 12:01:07
当前消息！截至发稿，花房集团(03611.HK)跌9.05%、百度集团-SW(09888.HK)跌4.45%、阅文集团(00772.HK)跌4.42%、知乎-W(02390.HK)跌3.98%

截至发稿，花房集团(03611 HK)跌9 05%、百度集团-SW(09888 HK)跌4 45%、阅文集团(00772 HK)跌4 42%、知乎-W(02390 HK)跌3 98%

时间：2023-03-30 11:10:14
Canalys：2022 年第四季度全球网络安全的规模达到196亿美元渠道出货量表现强劲

3月30日，Canalys发文称，2022年第四季度，全球网络安全技术的总支出仍然保持强劲，而由渠道主导的强劲出货，弥补了直销出货的下降。市场规模

时间：2023-03-30 10:46:21
全国用水总量去年控制在6100亿立方米内

本报北京3月29日电（记者王浩）记者从近日在京召开的节约用水工作部际协调机制2023年度全体会议上获悉，2022年，全国用水总量控制在6100亿立方

时间：2023-03-30 10:26:00
柳林：多部门联合开展“治超月”集中宣传活动-世界短讯

柳林：多部门联合开展“治超月”集中宣传活动

时间：2023-03-30 09:18:07
环球快资讯丨网络视听超即时通讯成第一大网络应用用户规模达10.40亿

网络视听超即时通讯成第一大网络应用用户规模达10 40亿

时间：2023-03-30 08:18:18
什么都不要对我说铃声_什么都不要对我说

1、歌曲名：什么也不要对我说演唱：浩瀚☆鉁稀↘爱★制跟我在一起你就是哪飘飞的泪水花晴朗而明亮而去又无瞰你就是

时间：2023-03-30 06:47:36
鱼肚的泡发方法视频_鱼肚的泡发今热点

1、鱼肚在食用前，必须提前泡发，其方法有油发和水法两种。2、质厚的鱼肚两种发法皆可，而质薄的鱼肚，水发易烂，还是采用油发

时间：2023-03-30 03:53:49
为什么甜玉米不建议吃? 今头条

1 甜味玉米有毒在外面购买玉米往往有甜和不甜两种,而我们自制的玉米往往没有这些甜味。玉米中含有淀粉,只有在咀嚼时和口腔中的淀粉酶混合材会

时间：2023-03-29 23:34:41
已有人遇难，中国驻泰国使领馆，紧急提醒-当前独家

近期，个别赴泰旅游中国同胞在参与海岛浮潜项目时不幸遇难。浮潜活动看似难度较低，实际具有较高风险性，每年在泰因浮潜遇难事故频繁发生，中

时间：2023-03-29 22:12:30
极致狂暴抢先试驾特斯拉Model X Plaid

说实话这么多年看了无数场电动车的发布会，在说到对标车型时，特斯拉依旧是被提及最多的名字，尽管它的风评两极分化严重，但其标杆的地位至今

时间：2023-03-29 21:03:13
世界热点！肩周炎是哪个部位疼痛_肩周炎是哪个部位

1、肩周炎典型特点：肩关节周围疼痛，肩关节活动受限。2、看看肩关节有没有活动受限，活动时疼不疼。3、往上举，往外展，手往

时间：2023-03-29 19:48:11
当前聚焦：中国移动月租8元套餐好用吗_中国移动月租8元套餐

1、越来越多的用户选择了“8元号码保护套餐”。2、很多手机号用久了，更换起来很麻烦，所以我们干脆用8元的套餐来更换，保留

时间：2023-03-29 18:59:05
极无双2平民玩家培养哪三个？

极无双2这款游戏以三国为背景，展开一场有血有肉的战争。游戏还是很不错的，无论是游戏的操作界面的精细度，还是技能释放的流畅度。

时间：2023-03-29 18:15:08
热文：蓝光电影资源网_bd电影资源网

1、BD是BlueDisk的简称，翻译成中文是“蓝光影碟”的意思。2、DVD的激光头现在用的是橙红色,兰光的波长更小,

时间：2023-03-29 16:55:32
世界快讯:硬核科技论【Vol.28】宝马推出全景HUD，别出心裁还是多此一举？

只有一点我持保留意见，就是我觉得目前这个全景HUD，全景这俩字儿贯彻的还不够彻底，影像投射的面积确实不大，当然这套HUD离正式投产还有点时

时间：2023-03-29 16:02:56
长沙县资讯｜3年投2亿星沙教育插上智慧翼

长沙县资讯｜3年投2亿星沙教育插上智慧翼

时间：2023-03-29 15:06:52
每日热闻!美团外卖没有大龄骑手？回应：近期未对年龄限制做调整

澎湃新闻记者范佳来近日，有用户在社交媒体晒出收到的美团《配送服务年龄到限通知》，称“美团外卖以后没有大龄骑手了。”该网友表示，是由...

时间：2023-03-29 14:15:54
世界观热点：2023版30克熊猫银币现在市场价是多少（2023年03月29日）

金投网提供2023版30克熊猫银币现在市场价是多少（2023年03月29日），（2023年03月29日）30克面值10元熊猫银币价值多少信息

时间：2023-03-29 13:03:24
《计量比对管理办法》解读_热点在线

近日，市场监管总局修订印发《计量比对管理办法》（市场监管总局公告2023年第69号）（以下简称《办法》），将于2023年6月1日起施行。为

时间：2023-03-29 12:21:41
中科建通组合探测渗漏水路径，为精准治理指明方向焦点精选

中科建通组合探测渗漏水路径，为精准治理指明方向,顶板,渗漏水,混凝土,中科建通

时间：2023-03-29 11:23:12
全球简讯:分居2年起诉离婚多久能判

一、分居2年起诉离婚多久能判分居2年起诉离婚要三到六个月时间才能判离婚。法院审理期限：适用普通程序审理的第一审民事案件，

时间：2023-03-29 10:21:18
国家航天局发布高光谱综合观测卫星首批影像成果_天天滚动

图为高光谱综合观测卫星全球臭氧柱浓度监测图，清晰揭示臭氧全球分布，与国外同类卫星的监测结果相比趋势一致，可有力支撑大气污染防治、全球

时间：2023-03-29 09:50:52
全球热推荐：药品说明书“字小如蚁”，谁来督着改

从去年起，连云港市检察机关发挥公益诉讼职能，通过制发检察建议，推动药监部门在该市几家药企开展药品说明书“适老化”改造试点工作

时间：2023-03-29 09:07:28
Redmi Note 12 Turbo发布：1999元号称48个月不卡-环球时快讯

小米发布了RedmiNote12Turbo，不仅首发二代骁龙7平台，RedmiNote12Turbo也重点做了强化，具有9大结构防护，通过4项“超离谱”品质测试，做了全

时间：2023-03-29 07:28:38
【报资讯】【Spring源码】- 10 Spring AOP核心API

Spring的两大核心：IoC和AOP，IoC作为Spring的根基，通过大量的扩展点让系统轻而易举的就可以实现良好的扩展性，而AOP和IoC结合在一起，类似于

时间：2023-03-29 05:20:49

X 关闭

滚动

专家

江苏：采取更加坚决果断措施迅速打赢苏州疫情防控战

深圳调整跨境货车内地接驳司机核酸检测为每日一检

X 关闭

滚动