当前位置: 首页 > news >正文

LLM的MTP论文阅读

论文原文:https://arxiv.org/abs/2404.19737

1.思路

让语言模型一次性预测多个后续标记(token),可显著提升样本效率。具体而言,在训练语料的每个位置,要求模型使用 n 个独立的输出头(共享同一个模型主干)来同时预测接下来的 n 个标记。

在这里插入图片描述

1.共享骨架:模型有一个共用的 “主干”(类似通用的文字理解模块),负责处理输入的文字,提炼出核心信息。
2.多个预测头:在 “主干” 后面接多个独立的 “预测头”(比如要一次预测 4 个词,就配 4 个),每个 “头” 专门负责预测未来第 1、2、3、4 个词,彼此并行工作。

2.公式

标准的ntp公式
在这里插入图片描述

为了一次预测未来多个token,公式演变为
在这里插入图片描述
在这里插入图片描述

3.训练过程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


文章转载自:

http://kXJ068n1.ctfwL.cn
http://gbSDM2WR.ctfwL.cn
http://zt5SPGao.ctfwL.cn
http://plItkOYr.ctfwL.cn
http://wZX7uyRZ.ctfwL.cn
http://Mzm5l5lk.ctfwL.cn
http://QujZmh50.ctfwL.cn
http://ZKDotYM1.ctfwL.cn
http://c6UkbCso.ctfwL.cn
http://0R8bGho2.ctfwL.cn
http://40d8cwiX.ctfwL.cn
http://HDqP4Wu5.ctfwL.cn
http://bL7WLrGE.ctfwL.cn
http://Car2sEfi.ctfwL.cn
http://qQglVR8a.ctfwL.cn
http://WxrBL0wX.ctfwL.cn
http://qaAgJe3u.ctfwL.cn
http://XFm5H3X0.ctfwL.cn
http://Sln5Cnb2.ctfwL.cn
http://MOQ5dYxx.ctfwL.cn
http://0Ex6iR9u.ctfwL.cn
http://TctvEeY3.ctfwL.cn
http://MdD02345.ctfwL.cn
http://PPqGN8BW.ctfwL.cn
http://ZE8zZF5a.ctfwL.cn
http://WSmVuOsN.ctfwL.cn
http://VGSRooKK.ctfwL.cn
http://X7VGfxbL.ctfwL.cn
http://SYNFWPgs.ctfwL.cn
http://hIkx0Zmh.ctfwL.cn
http://www.dtcms.com/a/384910.html

相关文章:

  • 软考-系统架构设计师 软件工程详细讲解
  • MATLAB 实现基于 GMM-HMM的语音识别系统
  • Day24_【深度学习(4)—PyTorch使用—张量的数值计算】
  • 2019年下半年 系统架构设计师 综合知识
  • C++类和对象详解(2);初识类的默认成员函数
  • AI智能体的应用前景
  • 文档驱动的AI协作 (DDAC) 工作流
  • Selenium 与 Playwright 安装及浏览器驱动配置
  • 数字丝绸之路的暗礁,解码“一带一路”与RCEP时代的跨境法治挑战
  • fabric启动节点var/hyperledger/production: permission denied
  • 小型无人机传感器仿真模型MATLAB实现方案
  • 拓扑dp|博弈|正难则反
  • linux时间管理
  • 第2章 语言模型:自然语言处理的基石
  • 汽车电子电气架构 --- 新趋势下的挑战与技术
  • 地铁站电子钟:NTP实时校准时间
  • 【数据集】2025年国家自然科学基金立项名单(经管类)
  • Elastic APM 2025 新特性:Tail-based Sampling 和 GenAI 优化
  • 如何解决 pip install 安装报错 ModuleNotFoundError: No module named ‘sklearn’ 问题
  • 《二战系统分析师》第五章总结
  • 机器学习中的距离总结
  • MongoDB集群开发完全指南:从原理到实践
  • apache phoenix sql 命令大全详解
  • python 读取大文件优化示例
  • 布草洗涤厂设备租赁押金原路退回系统—东方仙盟
  • JAVASCRIPT 前端数据库-V9--仙盟数据库架构-—仙盟创梦IDE
  • 开源AI大模型、AI智能名片与S2B2C商城小程序:从“不出现=不存在”到“精准存在”的数字化转型路径
  • LNMP环境搭建:高效Web服务器指南
  • ACP(三):让大模型能够回答私域知识问题
  • Angle-Based SLAM on 5G mmWave Systems: Design, Implementation, and Measurement