Transformer预训练模型(如BERT、GPT)的特殊标记
Transformer预训练模型(如BERT、GPT)的特殊标记
目录
-
- Transformer预训练模型(如BERT、GPT)的特殊标记
-
- **一、基础通用标记**
-
- 1. **分类标记:`[CLS]`/`<s>`**
- 2. **分隔标记:`[SEP]`/`</s>`**
- 3. **掩码标记:`[MASK]`**
- 4. **填充标记:`[PAD]`**
- 5. **未知标记:`[UNK]`**
- **二、生成类模型的专属标记**
-
- 1. **开始/结束标记:`<|BOS|>`/`<|EOS|>`**
- 2. **对话标记:`[USER]`/`[BOT]`**
- **三、多模态与知识增强标记**
-
- 1. **图像标记:`[IMG]`**
- 2. **实体标记:`[ENT]`**
- **四、模型变体的特殊设计**
-
- 1. **XLNet:无显式标记,依赖掩码策略**
- 2. **ELECTRA:替换标记检测**
- **五、标记设计的核心逻辑**
- **总结:标记与架构的协同**
一、基础通用标记
1. 分类标记:[CLS]
/<s>
- 用途:聚合全局语义,用于分类任务。
- 模型:
- BERT:
[CLS]
(编码101)在输入序列首位,通过自注意力融合上下文信息,输出作为分类依据。 - RoBERTa:使用
<s>
替代[CLS]
,但功能相同,例如输入格式为<s> 文本内容 </s>
。
- BERT:
- 技术关联:依赖自注意力机制的全局信息捕捉能力,例如BERT的
[CLS]
向量通过多头注意力整合所有词的表示。
[CLS]通常代表 “分类”(Classificat