当前位置：首页 > news >正文

预训练语言模型（Pre-trained Language Model, PLM）介绍

news 2025/11/16 6:43:20

预训练语言模型（Pre-trained Language Model, PLM）

一、预训练语言模型核心定义与价值

预训练语言模型是自然语言处理（NLP）领域的里程碑技术，其核心思想是先在大规模无标注文本上进行通用语言知识学习（预训练阶段），再针对具体下游任务进行微调（微调阶段），实现“一次预训练，多任务复用”的高效开发模式。

核心价值

突破数据依赖：传统NLP方法需为每个任务标注大量数据，而预训练模型通过无标注文本学习通用语言规律，大幅降低下游任务的标注成本。
提升任务效果：预训练阶段积累的语法、语义、常识等知识，能为下游任务提供强大基础，使模型在文本分类、命名实体识别等任务中轻松达到State-of-the-Art（SOTA）水平。
统一技术框架：无论是文本生成、问答还是翻译任务，均可基于同一预训练模型进行微调，避免为每个任务单独设计模型结构，简化NLP技术栈。

二、预训练方法与传统方法对比

预训练模型的“Pre-train + Fine-tune”模式，彻底改变了传统NLP的开发流程，两者在数据利用、训练效率和泛化能力上存在显著差异：

对比维度	预训练方法（Pre-train + Fine-tune）	传统方法（Task-specific Training）
数据使用	1. 先利用海量无标注文本完成预训练； 2. 再用少量标注数据微调下游任务	直接使用任务专属标注数据训练，无标注数据利用率极低
训练流程	两阶段：通用预训练 → 任务微调，可复用预训练模型	单阶段：为每个任务单独设计模型、训练参数，无复用性
泛化能力	预训练学习通用语言规律，微调后可快速适配新任务	模型仅适配特定任务，换任务需重新训练，泛化能力弱
标注成本	下游任务仅需少量标注数据，大幅降低成本	每个任务需大量标注数据，成本高、周期长
代表模型	BERT、GPT、RoBERTa等	传统CNN/RNN模型、SVM等机器学习模型

关键差异解析

传统方法如同“为每个任务单独造一辆车”，需从头设计结构、组装零件；而预训练方法则是“先造好通用底盘（预训练模型），再根据需求加装座椅、方向盘（微调）”，效率和复用性大幅提升。

三、核心预训练技术：以BERT为例

BERT（Bidirectional Encoder Representations from Transformers）是预训练语言模型的标杆，其预训练过程通过两个核心任务实现通用语言知识的学习，同时基于Transformer架构保障建模能力。

1. BERT预训练的两大核心任务

（1）掩码语言模型（Masked Language Model, MLM）

定义：模拟“完形填空”任务，随机掩盖文本中的部分词汇，让模型预测被掩盖的原词，强制模型学习上下文双向语义关联。
具体流程：
1. 从输入文本中随机选择15%的词汇作为掩码对象；
2. 对选中的词汇，80%概率替换为特殊符号 $[M A S K]$ ，10%概率替换为随机词汇，10%概率保留原词（避免模型仅依赖 $[M A S K]$ 符号，提升泛化性）；
3. 模型通过上下文信息预测被掩盖位置的原词，计算预测误差并反向更新参数。
示例：
- 输入序列（掩码后）：The man went to [MASK] store with [MASK] dog
- 目标序列（需预测）： the、his
核心作用：让模型学习双向上下文语义，解决传统自回归模型（如GPT）仅能单向建模的局限，更适合语义理解类任务。

（2）下一句预测（Next Sentence Prediction, NSP）

定义：判断两个句子是否为连续的上下文（即第二句是否是第一句的下一句），让模型学习句子级别的语义关联和逻辑关系。
具体流程：
1. 从语料中抽取句子对（A, B），50%概率B是A的真实下一句（标签为 $T r u e$ ），50%概率B是随机抽取的无关句子（标签为 $F a l se$ ）；
2. 在句子对前添加特殊符号 $[C L S]$ （用于分类任务的聚合特征），在A和B之间添加 $[SEP]$ （句子分隔符）；
3. 模型通过 $[C L S]$ 位置的输出特征预测句子对的标签（ $T r u e$ / $F a l se$ ），学习句子间的逻辑关系。
示例：
- 正例（标签 $T r u e$ ）： $[C L S] 师徒四人历经艰险 [SEP] 取得真经 [SEP]$
- 反例（标签 $F a l se$ ）： $[C L S] 师徒四人历经艰险 [SEP] 火烧赤壁 [SEP]$
核心作用：帮助模型理解句子间的连贯性，为文本匹配、问答等依赖句子关系的任务打下基础。

2. BERT的核心优势：动态文本表征

BERT的本质是动态文本表征模型，能根据上下文生成词汇的动态向量，这与传统静态词向量（如Word2Vec）有本质区别：

特征	BERT动态表征	Word2Vec静态表征
向量生成逻辑	词汇向量随上下文变化（“苹果”在“吃苹果”和“苹果手机”中向量不同）	每个词汇对应唯一固定向量（“苹果”在任何语境下向量相同）
语义捕捉能力	能准确区分多义词、歧义句，贴合真实语言逻辑	无法处理多义词，歧义句语义表征易混淆
下游任务适配性	无需额外调整词向量，可直接用于各类NLP任务	需针对任务额外优化词向量，适配性弱
示例	“我喜欢吃苹果”→“苹果”向量偏向“水果”；“苹果和华为哪个好”→“苹果”向量偏向“品牌”	无论“吃苹果”还是“苹果手机”，“苹果”向量完全相同

四、BERT的技术基石：Transformer架构

BERT的模型主体基于Transformer的Encoder层（编码器）构建，Transformer通过自注意力机制（Self-Attention）和多层神经网络，实现对文本语义的深度建模。

在这里插入图片描述

1. Transformer Encoder的核心结构

Transformer Encoder采用“多层堆叠”设计，每层包含两个关键子层：多头自注意力层（Multi-Head Self-Attention） 和前馈神经网络层（Feed-Forward Neural Network, FFN），且每个子层后均添加“残差连接（Residual Connection）”和“层归一化（Layer Normalization）”。

（1）输入嵌入层（Embedding Layer）

BERT的输入嵌入是三种嵌入的加和，确保模型同时捕捉词汇、句子边界和语序信息：

Token Embedding：词汇本身的嵌入向量，将每个词汇映射到低维稠密空间（如768维）；
Segment Embedding：句子来源嵌入，用于区分句子对中的两个句子（如句子A用 $E_A$ ，句子B用 $E_B$ ）；
Position Embedding：位置嵌入，为每个词汇添加位置信息（Transformer本身无语序感知能力，需通过位置嵌入补充）。

示例（输入： $[C L S] m y d o g i sc u t e [SEP] h e l ik es pl a y in g [SEP]$ ）：

嵌入类型	对应向量	作用
Token Embedding	$E_[CLS]$ , $E_my$ , $E_dog$ …	捕捉词汇本身语义
Segment Embedding	$E_A$ , $E_A$ , $E_A$ … $E_B$ , $E_B$ …	区分句子A和句子B
Position Embedding	$E_0$ , $E_1$ , $E_2$ … $E_10$	标记词汇在序列中的位置

三种嵌入加和后，需经过Layer Normalization处理，得到最终的输入特征矩阵。

（2）多头自注意力层（Multi-Head Self-Attention）

自注意力机制是Transformer的核心，其作用是让模型在处理每个词汇时，自动关注序列中其他相关词汇的信息，捕捉词汇间的语义关联；“多头”则是通过多个并行的注意力头，从不同角度捕捉关联信息。

单头自注意力计算流程：
1. 将输入特征矩阵 $X$ 分别与三个可学习参数矩阵 $W_Q$ （Query，查询）、 $W_K$ （Key，键）、 $W_V$ （Value，值）相乘，得到 $Q$ 、 $K$ 、 $V$ 矩阵；
2. 计算注意力分数： $K^T / \sqrt{d_k}$ （ $d_k$ 是 $Q$ / $K$ 的维度，除以 $dk{\sqrt{d_k}}$ 是为了避免分数过大导致Softmax梯度消失，这个场景出现在 “自己与自己进行计算时，相似性会很大，因此计算数值也会很大” ）；
3. 对注意力分数进行Softmax归一化，得到注意力权重（权重越高，说明该位置词汇与当前词汇关联越强）；
4. 用注意力权重对 $V$ 矩阵加权求和，得到单头自注意力输出： $A tt e n t i o n (Q, K, V) = S o f t ma x (S core) \times V$ 。
多头自注意力计算流程：
1. 将 $Q$ 、 $K$ 、 $V$ 分别拆分为 $h$ 个并行的子矩阵（如 $h = 12$ ，即12个注意力头）；
2. 每个子矩阵独立计算单头自注意力，得到 $h$ 个输出子矩阵；
3. 将 $h$ 个输出子矩阵拼接，再与参数矩阵 $W_O$ 相乘，得到多头自注意力的最终输出。
示例（句子“今天天气不错”的注意力分数矩阵）：
当前词今天天气不错
今 0.12 0.123 -1.324 0.571 -0.669 0.982
天 … … … … … …
（注：分数越高，代表当前词与对应词的关联越强）

当前词	今	天	天	气	不	错
今	0.12	0.123	-1.324	0.571	-0.669	0.982
天	…	…	…	…	…	…
（注：分数越高，代表当前词与对应词的关联越强）

（3）前馈神经网络层（FFN）

多头自注意力层输出的特征矩阵，需经过前馈神经网络进一步处理，增强模型的非线性拟合能力。其结构为：

第一层：线性变换 + ReLU激活函数，公式： $FFN1(x) = ReLU(x × W_1 + b_1)$ ；
第二层：线性变换，公式： $FFN2(x) = x × W_2 + b_2$ ；
（注：每个位置的词汇特征独立处理，无序列依赖）。

（4）残差连接与层归一化

为解决深层网络训练中的梯度消失问题，Transformer在每个子层（自注意力层、FFN层）后添加：

残差连接：将子层输入与子层输出直接相加（ $O u tp u t = I n p u t + S u b L a yer (I n p u t)$ ），确保梯度能直接反向传播；
层归一化：对残差连接后的特征进行归一化（ $L a yer N or m (O u tp u t)$ ），使特征分布更稳定，加速训练。

2. Transformer Encoder的整体流程

输入序列 → 嵌入层（Token+Segment+Position）→ Layer Normalization → 多头自注意力层 → 残差连接+Layer Normalization → FFN层 → 残差连接+Layer Normalization → 输出特征矩阵（用于下游任务）。

五、BERT在下游任务中的应用

BERT通过微调（Fine-tune）可适配几乎所有NLP任务，根据任务类型的不同，微调方式主要分为三类：

1. 文本分类任务（如情感分析、MNLI）

任务目标：判断文本属于哪个类别（如“正面”/“负面”、“支持”/“反对”）；
微调方式：
1. 将文本输入BERT，得到 $[C L S]$ 位置的输出特征（该特征聚合了整个文本的语义信息）；
2. 在 $[C L S]$ 特征后添加一个分类器（如线性层+Softmax）；
3. 使用标注的分类数据训练分类器，同时微调BERT部分参数；
示例：判断“这部电影太精彩了”的情感类别为“正面”。

2. 序列标注任务（如命名实体识别NER、词性标注）

任务目标：为文本中的每个词汇标注类别（如“人名”、“地名”、“动词”）；
微调方式：
1. 将文本输入BERT，得到每个词汇（Token）的输出特征；
2. 为每个Token的特征添加一个分类器；
3. 使用标注的序列数据训练分类器，学习每个Token的类别映射；
示例：对“北京是中国的首都”标注：“北京（地名）”、“中国（地名）”。

3. 文本匹配任务（如问答SQuAD、文本相似度）

任务目标：判断两个文本的关系（如“问答匹配”、“文本是否相似”）；
微调方式（以SQuAD问答为例）：
1. 将问题（Question）和段落（Paragraph）拼接为 $[C L S] 问题 [SEP] 段落 [SEP]$ ，输入BERT；
2. 在BERT输出层后添加两个线性层，分别预测答案在段落中的“起始位置”和“结束位置”；
3. 使用标注的问答数据（问题+段落+答案位置）训练位置预测器；
示例：问题“中国的首都是哪里？”，段落“北京是中国的首都…”，预测答案起始位置为“北”，结束位置为“京”。