当前位置: 首页 > news >正文

DataCollatorForCompletionOnlyLM解析(93)

DataCollatorForCompletionOnlyLM解析

  • “mlm这个参数是干什么的?为什么要设为False?”
  • DataCollatorForCompletionOnlyLM。
  • 多轮交互的情况该怎么办呢?
  • 补充说明

“mlm这个参数是干什么的?为什么要设为False?”

MLM是“掩码语言建模(masked language modeling)”的缩写,这是一种从输入中随机移除(掩码)部分词元(token),再训练模型预测空白处应填入何种词元的任务。掩码语言建模(MLM)与下一句预测(NSP,next-sentence prediction)共同构成了BERT[20]等基于编码器(encoder)的模型预训练的核心任务。但由于我们当前聚焦的是生成式模型相关工作,无需关注词元掩码操作,因此必须将该参数设为False。

语言建模专用的数据整理器(data collator)在首次对模型进行指令微调(instruction-tuning)时效果很好,但如果要进一步微调模型,且希望仅基于“补全内容”——即模型的实际输出答案——进行训练,这种整理器就可能造成资源浪费。

“为什么要这么做呢?”
原因很简单:如果模型已经过预训练,且在英语语境下具备“流畅性”,同时你的提示词(prompt)只是普通句子,那么继续用提示词训练模型,相当于花费时间和资源教模型它早已熟练掌握的知识——提示词本身无法为模型带来新的学习内容。而真正包含你想教给模型的有用信息的,正是模型的输出结果,也就是“补全内容”,不是吗?

或许你想教模型用不同语气回答,或许希望它用特定方言回应,又或者要求它遵循某种固定结构输出。这些场景下,仅基于“补全内容”进行微调会带来显著收益。

“那该怎么实现呢?”
答案是使用另一种数据整理器——

Dat


文章转载自:

http://jzT6YCST.stbfy.cn
http://0drsh5s0.stbfy.cn
http://8fHTN5p4.stbfy.cn
http://iObRoBuo.stbfy.cn
http://ZQjDS4L4.stbfy.cn
http://vFhJYuc6.stbfy.cn
http://UiszCRtn.stbfy.cn
http://fh6FfLuZ.stbfy.cn
http://VwNtbkko.stbfy.cn
http://4NQ0B55Z.stbfy.cn
http://teiCgV24.stbfy.cn
http://ZXHk4K4Z.stbfy.cn
http://x9xqn8wi.stbfy.cn
http://3n94Uq9i.stbfy.cn
http://6poRZhnb.stbfy.cn
http://qzYDLbpH.stbfy.cn
http://IGxkz16W.stbfy.cn
http://9zCULJle.stbfy.cn
http://JeaLXigy.stbfy.cn
http://7rf7CDk8.stbfy.cn
http://3xm5AFBb.stbfy.cn
http://0sNtmrdG.stbfy.cn
http://HLtURvi1.stbfy.cn
http://7dc2hKPL.stbfy.cn
http://8SA3OBzF.stbfy.cn
http://jIHeuWl7.stbfy.cn
http://kj0Ub8S6.stbfy.cn
http://Bj8Rz9Ul.stbfy.cn
http://4T7dyJAl.stbfy.cn
http://YXtJCK4l.stbfy.cn
http://www.dtcms.com/a/380284.html

相关文章:

  • 淘宝RecGPT:通过LLM增强推荐
  • Vue3 中使用 DOMPurify 对渲染动态 HTML 进行安全净化处理
  • 比较 iPhone:全面比较 iPhone 17 系列
  • 【Doris】集群介绍
  • 从“能写”到“能干活”:大模型工具调用(Function-Calling)的工程化落地指南
  • golang程序内存泄漏分析方法论
  • Go 语言 MQTT 消息队列学习指导文档
  • 基于数据挖掘技术构建电信5G客户预测模型的研究与应用
  • 【AI】pickle模块常见用途
  • 智慧园区,智启未来 —— 重塑高效、绿色、安全的产业新生态
  • MySQL 8新特性
  • 腾讯开源Youtu-GraphRAG
  • QT M/V架构开发实战:QStringListModel介绍
  • 【数据结构】Java集合框架:List与ArrayList
  • 开发避坑指南(48):Java Stream 判断List元素的属性是否包含指定的值
  • postgresql 数据库备份、重新构建容器
  • 大数据电商流量分析项目实战:Spark SQL 基础(四)
  • vmware ubuntu18设置共享文件夹的几个重要点
  • 每日一题(5)
  • Lumerical licence center 无法连接的问题
  • Java网络编程(2):(socket API编程:UDP协议的 socket API -- 回显程序)
  • Java 类加载机制双亲委派与自定义类加载器
  • OpenLayers数据源集成 -- 章节九:必应地图集成详解
  • 前端调试工具有哪些?常用前端调试工具推荐、前端调试工具对比与最佳实践
  • 【C++练习】16.C++将一个十进制转换为二进制
  • 公司本地服务器上搭建部署的办公系统web项目网站,怎么让外网访问?有无公网IP下的2种通用方法教程
  • 【C++】string类 模拟实现
  • 【系列文章】Linux中的并发与竞争[02]-原子操作
  • 微信小程序 -开发邮箱注册验证功能
  • 使用ollama启动文心开源大模型0.3b版本