当前位置: 首页 > news >正文

Token 和 Embedding的关系

# Token与Embedding的关系
## **Token**
Token是模型处理文本时的最小离散单元,可以是一个词、子词(subword)或符号(如标点)。
大模型(如GPT、BERT)通过分词器(Tokenizer)将原始文本拆分成Token序列。
分词方式:
词级分词(如"hello"作为一个Token)。
子词分词(如BERT的WordPiece、GPT的Byte-Pair Encoding):
例如,"unhappy" → "un" + "happy"(两个Token),解决罕见词和词表膨胀问题。
词表(Vocabulary):模型所有可能Token的集合(如GPT-3的词表约5万个Token)。
数值化:每个Token被映射为词表中的整数索引(如"cat"→ID 5432)。
## Embedding
Embedding是将Token映射到一个连续向量空间的数学表示,本质是一个高维向量(如GPT-3的嵌入维度是12288)。
它捕捉Token的语义和语法特征(例如,"king"和"queen"的向量方向相似)。
生成方式:
通过嵌入层(Embedding Layer)实现,是一个可学习的矩阵,行数=词表大小,列数=嵌入维度。
例如,Token ID=5432 → 查表得到对应的d维向量(如[0.2, -0.5, ..., 1.4])。

## Token和 Embedding的关系
```java
原始文本 → Token化(离散ID) → Embedding层(连续向量) → 模型计算
```
例如:"I love NLP" → Token IDs `[32, 156, 5432]` → 3个`d`维向量 → 输入Transformer。
- Token是**标量**(一个整数),Embedding是**向量**(如`[d×1]`)。
- 模型输入的最终形式是一个**序列的Embedding矩阵**(如`[序列长度×嵌入维度]`)。

http://www.dtcms.com/a/271146.html

相关文章:

  • 基于AOP+Redis的简易滑动窗口限流
  • C#基础篇(10)集合类之列表
  • 列表页智能解析算法:大规模数据采集的核心引擎
  • 2024-2025-2 山东大学《编译原理与技术》期末(回忆版)
  • 【ARM嵌入式汇编基础】- 操作系统基础(二)
  • JSP数据交互
  • php绘图添加水印,文字使用imagick库的操作
  • Docker 高级管理-容器通信技术与数据持久化
  • C语言结构体对齐
  • SpringCloud系列 - xxl-job 分布式任务调度 (七)
  • 链表和数组和列表的区别
  • 力扣网编程150题:加油站(贪心解法)
  • Origin将Y偏移图升级为双Y轴3D瀑布图
  • SAP-ABAP:SAP中‘SELECT...WHERE...IN’语句IN的用法详解
  • 想要抢早期筹码?FourMeme专区批量交易教学
  • Cadence模块复用
  • SQL 视图与事务知识点详解及练习题
  • 基于Spring Boot+Vue的巴彦淖尔旅游网站(AI问答、腾讯地图API、WebSocket及时通讯、支付宝沙盒支付)
  • 等价矩阵和等价向量组
  • JavaScript基础篇——第五章 对象(最终篇)
  • 深度学习模型在C++平台的部署
  • 优化 FLUX.1 Kontext 以进行低精度量化的图像编辑
  • Flowable17错误事件---------------持续更新中
  • ali linux 安装libreoffice
  • Linux 系统 docker 部署 Dify
  • Airtest 的 Poco 框架中,offspring()
  • 【网络】Linux 内核优化实战 - net.ipv4.tcp_ecn
  • Protable 问题记录
  • 【RK3568+PG2L50H开发板实验例程】FPGA部分 | ROM、RAM、FIFO 的使用
  • 使用DDR4控制器实现多通道数据读写(十九)