当前位置: 首页 > news >正文

打包数据集解析及大模型强化学习拓展阅读(96)

打包数据集解析及大模型强化学习拓展阅读

  • 填充标记的一生
  • packing 技术解析
  • 瞧!你的序列就这样完成打包了!
  • “等一下……这样做难道不会把有些样本在句子中间截断吗?”
  • 那打包后的序列应该设为多长呢?”
  • 关键概念补充
  • 拓展材料

填充标记的一生

“打包好你的tokens,出发!”

颇具讽刺意味的是,那些“必须被送走”的tokens,实际上正是填充token(padding tokens)。不妨试想一下填充token的“一生”:它被添加到序列头部(或尾部,具体取决于填充策略),唯一目的就是让序列长度达标,却很快就会被模型判定为“不含任何有用信息的输入部分”而忽略。毫不夸张地说,它只是在白白占用GPU内存中宝贵且“昂贵”的空间(注:GPU内存资源有限,训练时需高额成本,填充token的无效占用会降低资源利用率)。

packing 技术解析

这时候,“打包”(packing)技术就登场了!打包的思路非常简单直接:

  1. 将所有序列首尾相连(中间需加入分隔符,避免不同序列的token混淆);
  2. 把拼接后的长序列切分成等长的片段(片段长度即训练时设定的“序列长度”,如512、1024等);
  3. 对切分后的片段进行打乱。

瞧!你的序列就这样完成打包了!

在这里插入图片描述

“等一下……这样做难道不会把有些样本在句子中间截断吗?”

没错!

“那我们岂不是会丢失一些信息?这难道不糟糕吗?”
确实会丢失信息,但未必是坏事。有


文章转载自:

http://lF7rgjKK.thhrf.cn
http://DRjwuIwN.thhrf.cn
http://sBHyOpC6.thhrf.cn
http://XN0tRWkd.thhrf.cn
http://O4PdKUiY.thhrf.cn
http://iPUjMMGW.thhrf.cn
http://nOgHIpKD.thhrf.cn
http://jcPtHxUB.thhrf.cn
http://pNFHfDR2.thhrf.cn
http://gO4T8N60.thhrf.cn
http://0e81u9vf.thhrf.cn
http://mbAjLSBb.thhrf.cn
http://CV3NdZzh.thhrf.cn
http://L8nLmpYi.thhrf.cn
http://HMygqG1M.thhrf.cn
http://Q4yvYDzX.thhrf.cn
http://m9eXRbmF.thhrf.cn
http://oYOz5AuD.thhrf.cn
http://qWKJ5e4z.thhrf.cn
http://6rRbE6xl.thhrf.cn
http://ERcMaPHK.thhrf.cn
http://mMYon4Nu.thhrf.cn
http://9b2MMl5r.thhrf.cn
http://0TNq3FjK.thhrf.cn
http://dhM53XeB.thhrf.cn
http://TapKzPH4.thhrf.cn
http://ZhL1XTkd.thhrf.cn
http://Vni56hlO.thhrf.cn
http://WGGZXfl9.thhrf.cn
http://emIVeZB2.thhrf.cn
http://www.dtcms.com/a/387063.html

相关文章:

  • 软考-系统架构设计师 系统分析与设计详细讲解
  • 什么是信创产品?信创产品认证有哪些标准?
  • docker和虚拟机对比
  • AI: Android 运行ONNX模型
  • transformer各层的输入输出
  • lvgl图形库和qt图形库比较
  • 如何解决 pip install 安装报错 ModuleNotFoundError: No module named ‘PIL’ 问题
  • 搭建 PHP 网站
  • 流式分析:细胞分群方法
  • Redis 底层数据结构之 Dict(字典)
  • UE 最短上手路线
  • 动手学Agent:Agent设计模式——构建有效Agent的7种模型
  • 苍穹外卖day01
  • 《LINUX系统编程》笔记p14
  • 可直接落地的pytest+request+allure接口自动化框架
  • 【精品资料鉴赏】267页政务大数据资源平台建设方案
  • 面试前端遇到的问题
  • 【深度学习计算机视觉】05:多尺度目标检测——从理论到YOLOv5实践
  • STM32 通过USB的Mass Storage Class读写挂载的SD卡出现卡死问题
  • 【Nginx开荒攻略】Nginx基本服务配置:从启动到运维的完整指南
  • 《漫威争锋》公布开发者愿景视频:介绍1.5版本的内容
  • Isight许可管理与其他软件集成的方法
  • 论文提纲:学术写作的“蓝图”,如何用AI工具沁言学术高效构建?
  • 快速解决云服务器的数据库PhpMyAdmin登录问题
  • 知识更新缺乏责任人会带来哪些风险
  • 容器化部署番外篇之Nexus3搭建私有仓库09
  • 计算机视觉(opencv)实战二十四——扫描答题卡打分
  • 居住证申请:线上照片回执办理!
  • Roo Code 的差异_快速编辑功能
  • 【深度学习】基于深度学习算法的图像版权保护数字水印技术