当前位置：首页 > news >正文

LLM的MTP论文阅读

news 2025/9/16 8:17:09

论文原文：https://arxiv.org/abs/2404.19737

1.思路

让语言模型一次性预测多个后续标记（token），可显著提升样本效率。具体而言，在训练语料的每个位置，要求模型使用 n 个独立的输出头（共享同一个模型主干）来同时预测接下来的 n 个标记。

在这里插入图片描述

1.共享骨架：模型有一个共用的 “主干”（类似通用的文字理解模块），负责处理输入的文字，提炼出核心信息。
2.多个预测头：在 “主干” 后面接多个独立的 “预测头”（比如要一次预测 4 个词，就配 4 个），每个 “头” 专门负责预测未来第 1、2、3、4 个词，彼此并行工作。

2.公式

标准的ntp公式
在这里插入图片描述

为了一次预测未来多个token，公式演变为
在这里插入图片描述

3.训练过程

在这里插入图片描述

文章转载自：

http://kXJ068n1.ctfwL.cn
http://gbSDM2WR.ctfwL.cn
http://zt5SPGao.ctfwL.cn
http://plItkOYr.ctfwL.cn
http://wZX7uyRZ.ctfwL.cn
http://Mzm5l5lk.ctfwL.cn
http://QujZmh50.ctfwL.cn
http://ZKDotYM1.ctfwL.cn
http://c6UkbCso.ctfwL.cn
http://0R8bGho2.ctfwL.cn
http://40d8cwiX.ctfwL.cn
http://HDqP4Wu5.ctfwL.cn
http://bL7WLrGE.ctfwL.cn
http://Car2sEfi.ctfwL.cn
http://qQglVR8a.ctfwL.cn
http://WxrBL0wX.ctfwL.cn
http://qaAgJe3u.ctfwL.cn
http://XFm5H3X0.ctfwL.cn
http://Sln5Cnb2.ctfwL.cn
http://MOQ5dYxx.ctfwL.cn
http://0Ex6iR9u.ctfwL.cn
http://TctvEeY3.ctfwL.cn
http://MdD02345.ctfwL.cn
http://PPqGN8BW.ctfwL.cn
http://ZE8zZF5a.ctfwL.cn
http://WSmVuOsN.ctfwL.cn
http://VGSRooKK.ctfwL.cn
http://X7VGfxbL.ctfwL.cn
http://SYNFWPgs.ctfwL.cn
http://hIkx0Zmh.ctfwL.cn

查看全文

http://www.dtcms.com/a/384910.html

软考-系统架构设计师软件工程详细讲解

MATLAB 实现基于 GMM-HMM的语音识别系统

Day24_【深度学习（4）—PyTorch使用—张量的数值计算】

2019年下半年系统架构设计师综合知识

C++类和对象详解（2）；初识类的默认成员函数

AI智能体的应用前景

文档驱动的AI协作 (DDAC) 工作流

Selenium 与 Playwright 安装及浏览器驱动配置

数字丝绸之路的暗礁，解码“一带一路”与RCEP时代的跨境法治挑战

fabric启动节点var/hyperledger/production: permission denied

小型无人机传感器仿真模型MATLAB实现方案

拓扑dp|博弈|正难则反

linux时间管理

第2章语言模型：自然语言处理的基石

汽车电子电气架构 --- 新趋势下的挑战与技术

地铁站电子钟：NTP实时校准时间

【数据集】2025年国家自然科学基金立项名单（经管类）

Elastic APM 2025 新特性：Tail-based Sampling 和 GenAI 优化

如何解决 pip install 安装报错 ModuleNotFoundError: No module named ‘sklearn’ 问题

《二战系统分析师》第五章总结

机器学习中的距离总结

MongoDB集群开发完全指南：从原理到实践

apache phoenix sql 命令大全详解

python 读取大文件优化示例

布草洗涤厂设备租赁押金原路退回系统—东方仙盟

JAVASCRIPT 前端数据库-V9--仙盟数据库架构-—仙盟创梦IDE

开源AI大模型、AI智能名片与S2B2C商城小程序：从“不出现=不存在”到“精准存在”的数字化转型路径

LNMP环境搭建：高效Web服务器指南

ACP（三）：让大模型能够回答私域知识问题

Angle-Based SLAM on 5G mmWave Systems: Design, Implementation, and Measurement

1.思路

2.公式

3.训练过程

相关文章：