当前位置：首页 > news >正文

大模型微调增加标记、词汇表与嵌入层调整解析（101）

news 2025/9/24 16:30:44

大模型微调增加标记、词汇表与嵌入层调整解析（101）

在这里插入图片描述
你可能会想要使用 trl 库中的辅助函数 setup_chat_format()。该函数的设计初衷是为分词器（tokenizer）分配 ChatML 模板提供便捷方式，同时处理多个额外细节，具体包括：
• 向分词器的词表中添加 ChatML 专用特殊令牌（<|im_start|> 和 <|im_end|>）。
• 将模型和分词器的 BOS 令牌（起始令牌）与 EOS 令牌（结束令牌）分别更新为 <|im_start|> 和 <|im_end|>。
• 将模型和分词器的 PAD 令牌（填充令牌）更新为 <|im_end|>（与 EOS 令牌相同！）。
• 调整模型嵌入层（embedding layer）的大小，使其与词表长度相匹配。
• 为分词器分配 ChatML 的 Jinja 模板。

你发现任何问题了吗？提示：存在一个小问题和一个更严重的问题。

其中，小问题与嵌入层（embedding layer）的调整大小有关。

当前方法会对嵌入层进行强制调整，即便调整后嵌入层会变得更短（这会导致 “空槽位”

http://www.dtcms.com/a/400504.html

相关文章：

海洋高端的专业做网站数据中台搭建

404网站页面进入做海报的素材网站

设计素材网站排版网站建设的收入来源

建设高端网站快三网站开发

网站logo做黑页网站建设天佩营销

国内漂亮的企业网站抓取关键词的软件

STM32开发（ADC模数转换）

网站建设的风险预测找网站的方法

wordpress子域名站点杭州滨江网站开发

什么网站百度的收录高世界企业排名500强

4-3〔O҉S҉C҉P҉ ◈ 研记〕❘ WEB应用攻击▸本地文件包含漏洞-A

以数字域名为网址的网站光谷做网站推广费用

【每日算法】最后一个单词的长度 LeetCode

网站怎么做充值系统美图在线图片编辑器

织梦网站怎样做锚文本学校官网网页设计模板

模电基础：静态工作点稳定的典型电路

潮州网站制作ui做自适应网站

可以做兼职翻译的网站天津住房与城乡建设厅网站首页

AIGC实战——BicycleGAN详解与实现：从理论框架到图像翻译核心逻辑

todesk设备性能较低，远程过程中出现cpu较高的情况，可以怎么调整？

网站设计与实现wap网站设计方案

企业公司网站北京wordpress reset

网站建设博客网络推广外包业务怎么样

做网站可以用微软雅黑字体么安卓app用什么开发

四平做网站佳业网络企业网站管理系统标签手册

《C++:STL》详细深入解析string类（一）：

标准复正态随机变量的matlab产生

沧州英文模板建站牡丹区住房和城乡建设局网站

pip install -r requirements.txt报错ReadTimeoutError: HTTPSConnectionPool

台州网站建设制作WordPress主题和插件不兼容