GPT( Generative Pre-trained Transformer )模型:基于Transformer
GPT是由openAI开发的一款基于Transformer架构的预训练语言模型,拥有强大的生成能力和多任务处理能力,推动了自然语言处理(NLP)的快速发展。
一 GPT发展历程
1.1 GPT-1(2018年)
是首个基于Transformer架构的模型,使用掩码自注意力机制,但是仅仅关注了参数左侧数据,没有关注右侧数据,是之前文章学习过的单项Transformer,用这个也是为了模拟人类的自左向右生成语言的方式,并确保模型在训练和生成时的逻辑一致性。
参数量仅有1.17亿,与后面的几代比还是相差非常多的。采用了预训练+微调范式的方法,预训练大量的无标签文本,学习其内容,如语法,语义,将其分类压缩(语言建模任务),再针对下游任务在特定的小规模标注数据上微调,使模型适应具体任务。
预训练像“通识教育”,下游任务像“专业培训”。
概念 | 说明 |
---|---|
预训练任务 | 模型初始训练的任务(如语言建模、掩码预测),用于学习通用特征。 |
下游任务 | 具体应用任务(如情感分析、翻译),需要在预训练基础上额外调整。 |
微调 | 将预训练模型适配到下游任务的过程,通常需要少量标注数据。 |
1.2 GPT-2(2019)
参数量扩大到15亿,预训练的数据更多。新增零样本学习,无需微调即可完成多任务(如翻译、摘要),但效果有限,并且会生成看上去挺真但实际上是假的的文本。
零样本学习(Zero-shot Learning)是一种机器学习方法,其核心是让模型使用已有的预训练的通用知识积累和对输入指令的语义理解,泛化到新任务中,从而完成新任务。
1.3 GPT-3(2020)
参数量骤增到1750亿,其核心特点是使用了少样本学习(Few-shot),仅需少量示例即可适应新任务(如写代码、创作故事)。但是生成内容可能包含偏见,且存在逻辑错误。
1.4 Codex(2021)
基于GPT-3进行了微调,支持生成代码,是GitHub Copilot的基础。
GitHub Copilot 是由 GitHub 和 OpenAI 联合开发的 AI 代码辅助工具,旨在帮助开发者更高效地编写代码。
1.5 ChatGPT(2022)
采用RLHF(人类反馈强化学习)优化对话能力,减少有害输出。
RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)是一种结合强化学习(Reinforcement Learning)和人类反馈的技术,用于优化AI模型的行为,使其更符合人类的价值观和需求。
其关键步骤为:
(1)预训练模型(Supervised Fine-Tuning, SFT)
(2)训练奖励模型(Reward Model, RM)
数据收集:针对同一输入(如用户提问),让预训练模型生成多个候选回答。
人类标注:由标注员对这些回答进行排序或打分(例如基于回答的准确性、善意程度)。
奖励模型构建:学习人类偏好,预测任意回答的“质量得分”(如用排序转化为分数)。
(3)强化学习优化策略(如PPO算法)
将预训练模型作为初始策略,奖励模型作为环境反馈,通过交互迭代优化模型生成的内容,最大化奖励得分。
示例:模型生成回答 → 奖励模型打分 → 算法调整参数使高得分回答的概率增加。
1.6 GPT-4(2023)
支持多模态输入(文本+图像),推理能力进一步提升。
二 GPT核心架构
2.1 Transformer解码器堆叠:
GPT仅使用Transformer的解码器层,每层包含掩码自注意力机制和前馈网络。掩码确保生成时每个词仅依赖左侧上下文。
2.2 自回归生成
逐词生成文本,每次预测下一个词的概率分布
三 训练方法
(1) 预训练(无监督)
任务:语言建模(预测下一个词)。
数据源:海量文本(如书籍、网页)。
(2) 微调(有监督)
传统方法(如GPT-1):针对特定任务(如情感分析)用标注数据调整参数。
基于提示(如GPT-3+):通过设计输入提示(Prompt)直接引导模型生成答案,无需参数更新。
RLHF(如ChatGPT):通过人类反馈训练奖励模型,再用强化学习优化生成策略。
四 关键挑战与局限
生成内容的可靠性:可能产生错误或捏造信息(“幻觉”问题)。
偏见与伦理风险:训练数据中的偏见可能导致歧视性输出。
计算成本高昂:GPT-3训练耗资数百万美元,限制研究可及性。
可解释性差:模型内部机制复杂,难以追踪决策过程。
GPT系列通过迭代创新,逐步突破语言模型的边界,展现出强大的通用性和适应性。尽管面临挑战,其在各行业的应用前景使其成为AI领域的重要里程碑。未来的发展将聚焦于提升效率、安全性及多模态融合。