当前位置：首页 > news >正文

分词器（Tokenizer）总结（89）

news 2025/9/11 5:53:11

分词器（Tokenizer）总结

分词器（Tokenizer）
- 分词器的词表（vocabulary）长度通常短于模型嵌入层（embedding layer）的长度。
- 结束标记（EOS token）应仅用于标记文本结尾，不可用于其他用途。
- 填充标记（PAD token）通常未预先定义，但你仍可能需要用到它：
- 对于生成式模型，应在**左侧**进行填充（padding）操作。
- 若你创建了新的特殊标记，理论上还应微调嵌入层（因为你使用了那些“空白位置”）。
关键术语说明

分词器（Tokenizer）

分词器的词表（vocabulary）长度通常短于模型嵌入层（embedding layer）的长度。

二者的长度差值本质上是由“空白位置（empty slots）”构成的，无需调整嵌入层大小，你就可以利用这些空白位置创建新的 tokens。
为优化内存分配，嵌入层的长度通常是2的幂次（如32、64等）的倍数。

结束标记（EOS token）应仅用于标记文本结尾，不可用于其他用途。

将结束标记用作填充标记（PAD token）可能导致模型无限生成 tokens。

填充标记（PAD token）通常未预先定义，但你仍可能需要用到它：

切勿将结束标记指定为填充标记。
若未知标记（UNK token）已定义，可将其指定为填充标记，此操作可行。
若未知标记未定义，则需创建一个新的特殊标记（special token）作为填充标记。
注意：若填充标记未定义，许多库会默认将结束标记指定为填充标记！

对于生成式模型，应在左侧进行填充（padding）操作。

文章转载自：

http://u9lK2rIW.rdnjc.cn
http://No2VTpX0.rdnjc.cn
http://mUXkPc90.rdnjc.cn
http://aPxQFjQF.rdnjc.cn
http://ySc8HZ8u.rdnjc.cn
http://sjdLPbZC.rdnjc.cn
http://KnpOrsxB.rdnjc.cn
http://cLumutBW.rdnjc.cn
http://XpCGOFs9.rdnjc.cn
http://6PCpwB7a.rdnjc.cn
http://JcqfAOdX.rdnjc.cn
http://j42McOVV.rdnjc.cn
http://2JDXpU9s.rdnjc.cn
http://vyr3EWT5.rdnjc.cn
http://kAZovJ1O.rdnjc.cn
http://9sL5uRug.rdnjc.cn
http://BIbLP8Al.rdnjc.cn
http://MtYBWrSS.rdnjc.cn
http://MMv328yB.rdnjc.cn
http://PcHxL52U.rdnjc.cn
http://uoqsu84O.rdnjc.cn
http://SdZbb3IQ.rdnjc.cn
http://1lhoJ1kQ.rdnjc.cn
http://IeCq7Q61.rdnjc.cn
http://g95GdVQa.rdnjc.cn
http://zNmiaKXk.rdnjc.cn
http://saRlJfWw.rdnjc.cn
http://uIdrimBW.rdnjc.cn
http://xgzkCDGT.rdnjc.cn
http://z78WwnzG.rdnjc.cn

http://www.dtcms.com/a/376386.html

相关文章：

css优化都有哪些优化方案

Qt实战：实现图像的缩放、移动、标记及保存

从绝对值函数看编程思维演进：选项式 vs. 组合式

内网环境下ubuntu 20.04搭建深度学习环境总结

【SQL注入】延时盲注

解决React中通过外部引入的css/scss/less文件更改antDesign中Modal组件内部的样式不生效问题

0-1 VS中的git基本操作

组件库打包工具选型（npm/pnpm/yarn）的区别和技术考量

前端学习之后端java小白（三）-sql外链一对多

学习triton-第1课向量加法

PySpark 与 Pandas 的较量：Databricks 中 SQL Server 到 Snowflake 的数据迁移之旅

ArcGIS软件安装。

【Linux系统】初见线程，概念与控制

视觉SLAM第9讲：后端1（EKF、非线性优化）

HarmonyOS-ArkUI Web控件基础铺垫7-HTTP SSL认证图解及 Charles抓包原理及您为什么配置对了也抓不到数据

Mysql服务无法启动，显示错误1067如何处理？

Redis主从模式和集群模式的区别

基于51单片机水塔水箱液水位WIFI监控报警设计

AR消防头盔：火场救援的智能“透视眼”

【MFC】对话框：位置属性（居中、绝对对齐、X位置Y位置）应用示例

路由器无线桥接二级验证网络（初始密码和网页登录个人账号和密码）

【MFC】对话框属性：X Pos（X位置），Y Pos（Y位置）

工程师 - Onion Architecture in Software Development

Golang单例模式和工厂模式详解

Redis 分布式锁：从原理到实战的完整指南

计算机网络——第一章计算机网络体系结构

【公共数据】《公共数据资源授权运营实施指南》核心观点

姓名+身份证号码+人像实名认证接口-三要素身份证实名认证api

Linux编程笔记1-概念数据类型输入输出

认知语义学对人工智能自然语言处理的影响与启示：从理论融合到未来展望