当前位置: 首页 > news >正文

分词器(Tokenizer)总结(89)

分词器(Tokenizer)总结

  • 分词器(Tokenizer)
    • 分词器的词表(vocabulary)长度通常短于模型嵌入层(embedding layer)的长度。
    • 结束标记(EOS token)应仅用于标记文本结尾,不可用于其他用途。
    • 填充标记(PAD token)通常未预先定义,但你仍可能需要用到它:
    • 对于生成式模型,应在**左侧**进行填充(padding)操作。
    • 若你创建了新的特殊标记,理论上还应微调嵌入层(因为你使用了那些“空白位置”)。
  • 关键术语说明

分词器(Tokenizer)

分词器的词表(vocabulary)长度通常短于模型嵌入层(embedding layer)的长度。

  • 二者的长度差值本质上是由“空白位置(empty slots)”构成的,无需调整嵌入层大小,你就可以利用这些空白位置创建新的 tokens。
  • 为优化内存分配,嵌入层的长度通常是2的幂次(如32、64等)的倍数。

结束标记(EOS token)应仅用于标记文本结尾,不可用于其他用途。

  • 将结束标记用作填充标记(PAD token)可能导致模型无限生成 tokens。

填充标记(PAD token)通常未预先定义,但你仍可能需要用到它:

  • 切勿将结束标记指定为填充标记。
  • 若未知标记(UNK token)已定义,可将其指定为填充标记,此操作可行。
  • 若未知标记未定义,则需创建一个新的特殊标记(special token)作为填充标记。
  • 注意:若填充标记未定义,许多库会默认将结束标记指定为填充标记!

对于生成式模型,应在左侧进行填充(padding)操作。


文章转载自:

http://u9lK2rIW.rdnjc.cn
http://No2VTpX0.rdnjc.cn
http://mUXkPc90.rdnjc.cn
http://aPxQFjQF.rdnjc.cn
http://ySc8HZ8u.rdnjc.cn
http://sjdLPbZC.rdnjc.cn
http://KnpOrsxB.rdnjc.cn
http://cLumutBW.rdnjc.cn
http://XpCGOFs9.rdnjc.cn
http://6PCpwB7a.rdnjc.cn
http://JcqfAOdX.rdnjc.cn
http://j42McOVV.rdnjc.cn
http://2JDXpU9s.rdnjc.cn
http://vyr3EWT5.rdnjc.cn
http://kAZovJ1O.rdnjc.cn
http://9sL5uRug.rdnjc.cn
http://BIbLP8Al.rdnjc.cn
http://MtYBWrSS.rdnjc.cn
http://MMv328yB.rdnjc.cn
http://PcHxL52U.rdnjc.cn
http://uoqsu84O.rdnjc.cn
http://SdZbb3IQ.rdnjc.cn
http://1lhoJ1kQ.rdnjc.cn
http://IeCq7Q61.rdnjc.cn
http://g95GdVQa.rdnjc.cn
http://zNmiaKXk.rdnjc.cn
http://saRlJfWw.rdnjc.cn
http://uIdrimBW.rdnjc.cn
http://xgzkCDGT.rdnjc.cn
http://z78WwnzG.rdnjc.cn
http://www.dtcms.com/a/376386.html

相关文章:

  • css优化都有哪些优化方案
  • Qt实战:实现图像的缩放、移动、标记及保存
  • 从绝对值函数看编程思维演进:选项式 vs. 组合式
  • 内网环境下ubuntu 20.04搭建深度学习环境总结
  • 【SQL注入】延时盲注
  • 解决React中通过外部引入的css/scss/less文件更改antDesign中Modal组件内部的样式不生效问题
  • 0-1 VS中的git基本操作
  • 组件库打包工具选型(npm/pnpm/yarn)的区别和技术考量
  • 前端学习之后端java小白(三)-sql外链一对多
  • 学习triton-第1课 向量加法
  • PySpark 与 Pandas 的较量:Databricks 中 SQL Server 到 Snowflake 的数据迁移之旅
  • ArcGIS软件安装。
  • 【Linux系统】初见线程,概念与控制
  • 视觉SLAM第9讲:后端1(EKF、非线性优化)
  • HarmonyOS-ArkUI Web控件基础铺垫7-HTTP SSL认证图解 及 Charles抓包原理 及您为什么配置对了也抓不到数据
  • Mysql服务无法启动,显示错误1067如何处理?
  • Redis主从模式和集群模式的区别
  • 基于51单片机水塔水箱液水位WIFI监控报警设计
  • AR消防头盔:火场救援的智能“透视眼”
  • 【MFC】对话框:位置属性(居中、绝对对齐、X位置Y位置)应用示例
  • 路由器无线桥接二级验证网络(初始密码和网页登录个人账号和密码)
  • 【MFC】对话框属性:X Pos(X位置),Y Pos(Y位置)
  • 工程师 - Onion Architecture in Software Development
  • Golang单例模式和工厂模式详解
  • Redis 分布式锁:从原理到实战的完整指南
  • 计算机网络——第一章 计算机网络体系结构
  • 【公共数据】《公共数据资源授权运营实施指南》核心观点
  • 姓名+身份证号码+人像实名认证接口-三要素身份证实名认证api
  • Linux编程笔记1-概念数据类型输入输出
  • 认知语义学对人工智能自然语言处理的影响与启示:从理论融合到未来展望