当前位置：首页 > news >正文

【不背八股】19.GPT-2：不再微调，聚焦零样本

news 2025/11/16 7:13:31

引言

在本系列上一篇文章中，我们回顾了 GPT-1 的设计思路：它基于 Transformer 解码器结构，将“生成式预训练 + 下游任务微调”的范式带入自然语言处理领域，成为后续一系列工作的源头。

2019 年 2 月，OpenAI 发布了 GPT-2。这一次，它不再执迷于这套范式，而是更加专注于模型的零样本(zero-shot)能力。

零样本任务是指模型在大规模数据上进行预训练之后，不再进行微调，直接应用于下游任务。

本文就来看看它具体是怎么做的。

论文标题：Language Models are Unsupervised Multitask Learners

论文地址：https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

GPT-1 已经证明了“无监督预训练 + 有监督微调”是可行的，但它依然受到两个方面的限制：

随着计算资源与数据获取能力的提升，一个自然的想法是：如果把模型做得更大，并且用更大规模、更广覆盖的语料训练，能否让模型直接学到跨任务的能力？

GPT-2 的核心探索正是这一点。它将 GPT-1 的思路“简单粗暴”地放大：更多层数、更多参数、更长上下文、更大数据，从而展现出强大的零样本泛化能力。

GPT-2 主要有以下四种参数量版本的模型。

最大模型配置：
- 层数：48 层
- 隐藏维度：1600
- 注意力头数：25
- 总参数量：15 亿（1.5B）
- 最大上下文长度：1024 token

相比 BERT-LARGE，GPT-2 参数量提升了4倍。

目标函数：和 GPT-1 一样。
- 给定一个序列的前文，预测下一个 token 的概率：
  
  $\sum_i \log P(u_i | u_{i-k}, \dots, u_{i-1}; \Theta)$

GPT-2 在论文中主要强调其零样本能力：在下游任务上，不再需要特定的监督微调，而是通过**任务描述（prompt）**直接驱动模型输出结果。

不同下游任务的方式如下表所示：

任务类别	数据集 / 实验	原始任务形式	GPT-2 的零样本做法（Prompt 化）
语言建模填空	CBT (Children’s Book Test)	给定上下文 + 填空，候选词列表	把候选词分别代入句子，计算完整句子的概率，选最大概率的作为答案
长文本预测	LAMBADA	给定长上下文，预测最后一个词	直接用 LM 预测最后一个词的概率，选最高的
常识推理	Winograd Schema Challenge	判断代词指代	构造两种候选句子（不同指代替换），计算整体句子的概率，选择更合理的句子
阅读理解	CoQA	给定文档、对话历史、问题，输出答案	输入串为 `[文档 + QA 历史 + 新问题]`，让模型直接生成答案
摘要生成	Reddit/TL;DR	给定文章，写出摘要	在文章后面加提示 `"TL;DR:"`，让模型生成摘要
机器翻译	WMT-14 En→Fr 等	翻译句子	构造少量示例 prompt，例如：`English: The dog is happy. French:`，让模型继续生成翻译
事实问答	Natural Questions	给定问题，输出事实答案	构造 Q&A 格式 prompt，例如： `Q: Who wrote Harry Potter? A: J.K. Rowling` `Q: What is the capital of France? A: Paris` 再加新问题，让模型生成答案