当前位置: 首页 > news >正文

大模型微调增加标记、词汇表与嵌入层调整解析(101)

大模型微调增加标记、词汇表与嵌入层调整解析(101)

在这里插入图片描述
你可能会想要使用 trl 库中的辅助函数 setup_chat_format()。该函数的设计初衷是为分词器(tokenizer)分配 ChatML 模板提供便捷方式,同时处理多个额外细节,具体包括:
• 向分词器的词表中添加 ChatML 专用特殊令牌(<|im_start|><|im_end|>)。
• 将模型和分词器的 BOS 令牌(起始令牌)与 EOS 令牌(结束令牌)分别更新为 <|im_start|><|im_end|>
• 将模型和分词器的 PAD 令牌(填充令牌)更新为 <|im_end|>(与 EOS 令牌相同!)。
• 调整模型嵌入层(embedding layer)的大小,使其与词表长度相匹配。
• 为分词器分配 ChatML 的 Jinja 模板。

你发现任何问题了吗?提示:存在一个小问题和一个更严重的问题。

其中,小问题与嵌入层(embedding layer)的调整大小有关。

当前方法会对嵌入层进行强制调整,即便调整后嵌入层会变得更短(这会导致 “空槽位”

http://www.dtcms.com/a/400504.html

相关文章:

  • 海洋高端的专业做网站数据中台搭建
  • 404网站页面进入做海报的素材网站
  • 设计素材网站排版网站建设的收入来源
  • 建设高端网站快三网站开发
  • 网站logo做黑页网站建设 天佩营销
  • 国内漂亮的企业网站抓取关键词的软件
  • STM32开发(ADC模数转换)
  • 网站建设的风险预测找网站的方法
  • wordpress子域名站点杭州滨江网站开发
  • 什么网站百度的收录高世界企业排名500强
  • 4-3〔O҉S҉C҉P҉ ◈ 研记〕❘ WEB应用攻击▸本地文件包含漏洞-A
  • 以数字域名为网址的网站光谷做网站推广费用
  • 【每日算法】最后一个单词的长度 LeetCode
  • 网站怎么做充值系统美图在线图片编辑器
  • 织梦网站怎样做锚文本学校官网网页设计模板
  • 模电基础:静态工作点稳定的典型电路
  • 潮州网站制作ui做自适应网站
  • 可以做兼职翻译的网站天津住房与城乡建设厅网站首页
  • AIGC实战——BicycleGAN详解与实现:从理论框架到图像翻译核心逻辑
  • todesk设备性能较低,远程过程中出现cpu较高的情况,可以怎么调整?
  • 网站设计与实现wap网站设计方案
  • 企业公司网站 北京wordpress reset
  • 网站建设博客网络推广外包业务怎么样
  • 做网站可以用微软雅黑字体么安卓app用什么开发
  • 四平做网站佳业网络企业网站管理系统标签手册
  • 《C++:STL》详细深入解析string类(一):
  • 标准复正态随机变量的matlab产生
  • 沧州英文模板建站牡丹区住房和城乡建设局网站
  • pip install -r requirements.txt报错ReadTimeoutError: HTTPSConnectionPool
  • 台州网站建设制作WordPress主题和插件不兼容