一文搞懂ChatGPT相关概念和区别：GPT、大模型、AIGC、LLM、Tra... - 永洪社区

(, 下载次数: 19)

上传

点击文件名下载附件

左侧为 Encoder block，右侧为 Decoder block。红色圈中的部分为 Multi-Head Attention，是由多个 Self-Attention组成的，可以看到 Encoder block 包含一个 Multi-Head Attention，而 Decoder block 包含两个 Multi-Head Attention (其中有一个用到 Masked)。Multi-Head Attention 上方还包括一个 Add & Norm 层，Add 表示残差连接 (Residual Connection) 用于防止网络退化，Norm 表示 Layer Normalization，用于对每一层的激活值进行归一化。

Transformer模型的优点在于，它能够并行处理序列中的所有单词，这使得它在处理长序列时比循环神经网络（RNN）更高效。另外，自注意力机制使得模型能够捕获到序列中长距离的依赖关系，这是RNN难以做到的。

2、GPT

GPT，全称为Generative Pre-training Transformer，是OpenAI开发的一种基于Transformer的大规模自然语言生成模型。GPT模型采用了自监督学习的方式，首先在大量的无标签文本数据上进行预训练，然后在特定任务的数据上进行微调。

GPT模型的主要结构是一个多层的Transformer解码器，但是它只使用了Transformer解码器的部分，没有使用编码器-解码器的结构。此外，为了保证生成的文本在语法和语义上的连贯性，GPT模型采用了因果掩码（causal mask）或者叫自回归掩码（auto-regressive mask），这使得每个单词只能看到其前面的单词，而不能看到后面的单词。

在预训练（Pre-training）阶段，GPT模型使用了一个被称为"Masked Language Model"（MLM）的任务，也就是预测一个句子中被遮盖住的部分。预训练的目标是最大化句子中每个位置的单词的条件概率，这个概率由模型生成的分布和真实单词的分布之间的交叉熵来计算。

在微调（fine-tuning）阶段，GPT模型在特定任务的数据上进行训练，例如情感分类、问答等。微调的目标是最小化特定任务的损失函数，例如分类任务的交叉熵损失函数。

GPT模型的优点在于，由于其预训练-微调的训练策略，它可以有效地利用大量的无标签数据进行学习，并且可以轻松地适应各种不同的任务。此外，由于其基于Transformer的结构，它可以并行处理输入序列中的所有单词，比基于循环神经网络的模型更高效。

GPT演进了三个版本：

（1）GPT-1用的是自监督预训练+有监督微调，5G文档，1亿参数，这种两段式的语言模型，其能力还是比较单一，即翻译模型只能翻译，填空模型只能填空，摘要模型只能摘要等等，要在实际任务中使用，需要各自在各自的数据上做微调训练，这显然很不智能。

（2）GPT-2用的是纯自监督预训练，相对于GPT-1，它可以无监督学习，即可以从大量未标记的文本中学习语言模式，而无需人工标记的训练数据。这使得GPT-2在训练时更加灵活和高效。它引入了更多的任务进行预训练，40G文档，15亿参数，能在没有针对下游任务进行训练的条件下，就在下游任务上有很好的表现。

（3）GPT-3沿用了GPT-2的纯自监督预训练，但是数据大了好几个量级，570G文档，模型参数量为 1750 亿，GPT-3表现出了强大的零样本（zero-shot）和少样本（few-shot）学习能力。这意味着它可以在没有或只有极少示例的情况下，理解并完成新的任务，它能生成更连贯、自然和人性化的文本，理解文本、获取常识以及理解复杂概念等方面也比GPT-2表现得更好。

3、InstructGPT

GPT-3 虽然在各大 NLP 任务以及文本生成的能力上令人惊艳，但模型在实际应用中时长会暴露以下缺陷，很多时候，他并不按人类喜欢的表达方式去说话：

（1）提供无效回答：没有遵循用户的明确指示，答非所问。

（2）内容胡编乱造：纯粹根据文字概率分布虚构出不合理的内容。

（3）缺乏可解释性：人们很难理解模型是如何得出特定决策的，难以确信回答的准确性。

（4）内容偏见有害：模型从数据中获取偏见，导致不公平或不准确的预测。

（5）连续交互能力弱：长文本生成较弱，上下文无法做到连续。

在这个背景下，OpenAI 提出了一个概念“Alignment”，意思是模型输出与人类真实意图对齐，符合人类偏好。因此，为了让模型输出与用户意图更加 “align”，就有了 InstructGPT 这个工作。

InstructGPT相对于GPT的改进主要是使用了来自人类反馈的强化学习方案—— RLHF（ Reinforcement Learning with human feedback）来微调 GPT-3，这种技术将人类的偏好作为激励信号来微调模型。

(, 下载次数: 22)