当前位置：首页 > news >正文

Transformer预训练模型（如BERT、GPT）的特殊标记

news 2025/9/25 12:04:44

Transformer预训练模型（如BERT、GPT）的特殊标记

目录

- Transformer预训练模型（如BERT、GPT）的特殊标记
- - **一、基础通用标记**
  - - 1. **分类标记：`[CLS]`/`<s>`**
    - 2. **分隔标记：`[SEP]`/`</s>`**
    - 3. **掩码标记：`[MASK]`**
    - 4. **填充标记：`[PAD]`**
    - 5. **未知标记：`[UNK]`**
  - **二、生成类模型的专属标记**
  - - 1. **开始/结束标记：`<|BOS|>`/`<|EOS|>`**
    - 2. **对话标记：`[USER]`/`[BOT]`**
  - **三、多模态与知识增强标记**
  - - 1. **图像标记：`[IMG]`**
    - 2. **实体标记：`[ENT]`**
  - **四、模型变体的特殊设计**
  - - 1. **XLNet：无显式标记，依赖掩码策略**
    - 2. **ELECTRA：替换标记检测**
  - **五、标记设计的核心逻辑**
  - **总结：标记与架构的协同**

一、基础通用标记

1. 分类标记：`[CLS]`/`<s>`

用途：聚合全局语义，用于分类任务。
模型：
- BERT：[CLS]（编码101）在输入序列首位，通过自注意力融合上下文信息，输出作为分类依据。
- RoBERTa：使用<s>替代[CLS]，但功能相同，例如输入格式为<s> 文本内容 </s>。
技术关联：依赖自注意力机制的全局信息捕捉能力，例如BERT的[CLS]向量通过多头注意力整合所有词的表示。

[CLS]通常代表 “分类”（Classificat

http://www.dtcms.com/a/101665.html

相关文章：

在 UniApp 编译小程序时出现 `:class` 不支持 `getStatusClass(device.deviceStatus)` 语法的报错

idea解决properties中文乱码

横扫SQL面试——连续性登录问题

Vue2和Vue3响应式的基本实现

vue：突然发现onok无法使用

庙算兵棋推演AI开发初探（空想篇-RLHF尝试）

leetcode148.排序链表

NestJS——创建项目、编写User模块

谷歌浏览器安装Vue开发者工具指南

网络安全中的“后门”：概念、类型、作用与攻防技术

横扫SQL面试——用户留存率问题

【信奥一本通提高篇】基础算法之贪心算法

程序自动化填写网页表单数据

文件分片上传

【Linux】ELF、BIN、PBP、MAP文件查看

基于SpringBoot的失物招领平台（源码+数据库）

基于python大数据的商品数据可视化分析系统

网红酒店|基于java+vue的网红酒店预定系统(源码+数据库+文档)

SpringCloud-Nacos

【Sa-Token】学习笔记 01 - SaToken介绍快速上手

C语言水仙花续集2

打车APP订单系统逻辑梳理与实现

Spring IOC实战：解密Bean的九种诞生方式

消息队列篇--通信协议篇--理解HTTP、TLS和TCP如何协同工作

HarmonyOSNext_API16_媒体查询

[Python] 贪心算法简单版

MySQL-5.7.37安装配置（Windows）

从Web到桌面：深入解析Electron的技术架构与应用实践

Node.js 路由 - 初识 Express 中的路由

Java面试黄金宝典21