当前位置: 首页 > news >正文

Transformer核心技术解析LCPO方法:精准控制推理长度的新突破

原创文章
1FFN前馈网络与激活函数技术解析:Transformer模型中的关键模块
2Transformer掩码技术全解析:分类、原理与应用场景
3【大模型技术】Attention注意力机制详解一
4Transformer模型中位置编码(Positional Embedding)技术全解析(三)
5Transformer模型中位置编码(Positional Embedding)技术全解析(二)
6Transformer模型中位置编码(Positional Embedding)技术全解析(一)
7自然语言处理核心技术词嵌入(Word Embedding),从基础原理到大模型应用
8DeepSeek-v3:基于MLA的高效kv缓存压缩与位置编码优化技术
9

【Tokenization第二章】分词算法深度解析:BPE、WordPiece与Unigram的原理、实现与优化

10Tokenization自然语言处理中分词技术:从传统规则到现代子词粒度方法

任务背景

在复杂推理、数学求解和代码生成等任务中,增加测试时间计算(即生成更长的思维链)可以显著提升模型性能。然而,现有的方法缺乏对推理链长度的精确与动态控制,导致无法在性能与效率之间取得理想平衡。

研究难点

  1. 如何让模型精确控制输出长度?
  2. 在满足指定长度限制的同时保持准确性?
  3. 如何训练模型在推理时根据任务动态调整计算资源?

方法概述:LCPO(Length-Controlled Policy Optimization)

设计动机

观察到模型通过生成更长的思维链可提升性能,但其推理长度不可控。因此提出 LCPO,一种专门用于训练推理专用模型以实现精确且自适应长度控制的方法。

核心思想

  • 在训练过程中,从预设范围内均匀采样目标长度 $ n_{gold} $
  • 将该长度作为提示的一部分输入模型。
  • 使用一个奖励函数评估模型表现:
  • 包括答案正确性奖励;
  • 减去长度偏差项(实际 token 数与目标 token 数之差乘以系数 $ \alpha $)。
  • 使用 GRPO(Generalized Reinforcement Policy Optimization)算法 训练模型,最大化累积奖励。

奖励函数设计

奖励函数具有双重目的:

  1. 鼓励生成正确的答案;
  2. 在指定较短输出时隐含地倾向于简洁推理;
  3. 激励模型始终匹配规定的目标长度,即使可用更少 token 得出正确结果。

我们将以此目标训练的模型称为 L1-Exact

论文实验

数据集

训练数据:DeepScaleR-Preview-Dataset

  • 来源:AIME、AMC、Omni-Math 和 STILL 提取的 40,000 个问题-答案对
  • 特点:专注于数学推理问题,用于训练模型在数学领域的推理能力。
  • 目标:模型需学习生成正确答案,并满足特定长度约束。

测试数据(共6个测试集)

名称描述类型
AIME 2025美国数学邀请赛 2025 年试题数学
MATH (Hendrycks et al., 2021b)数学问题解决基准数学
AMC美国数学竞赛测试集数学
Olympiad-Bench (He et al., 2024)奥林匹克级别科学问题科学
GPQA (Rein et al., 2023)研究生级问答基准综合
LSAT (Zhong et al., 2023)法学院入学考试逻辑题逻辑
MMLU (Hendrycks et al., 2021a)多任务语言理解基准知识

测试目标:评估模型在不同长度约束下的性能及其在未见过任务上的泛化能力。

模型架构

模型名称描述
DeepSeek-R1-Distill-Qwen-1.5B经过 R1 推理痕迹微调
DeepScaleR-1.5B-Preview原始模型,未进行长度控制修改
DeepScaleR-1.5B-Preview-4K使用 4K 上下文长度微调的 Agentic-24K 版本

对比方法

  • S1(Muennighoff et al., 2025):预算强制方法,使用简单干预控制推理长度。

评价指标

  1. 平均长度偏差$ n_y $(实际生成 token 数)与$ n_{gold} $(目标长度)之间的平均差异。
  2. 准确率(解决问题):在不同目标长度下模型的总体性能。
  3. 目标长度集合:{512, 1024, 2048, 3600} tokens。

实现细节

  • GRPO 超参数:与 DeepScaleR-1.5B Preview 相同。
  • 学习率:1e-6
  • Batch Size:128
  • 上下文长度:训练时为 4k tokens,评估时扩展至 8k tokens。
  • 训练框架:VeRL (MLSys, 2025)
  • 训练步数:700 步
  • 目标长度采样范围$ U(n_{min}, n_{max}) $,其中 $ n_{min}=100 $, $ n_{max}=4000 $
  • 平衡参数 $ \alpha $:固定为 0.0003

注意:未进行广泛超参数搜索,预期可通过进一步优化提升性能。

模型类型

类型描述
L1-Exact要求生成的推理链长度恰好等于目标长度
L1-Max要求生成的推理链长度不超过目标长度(动态调整)

实验目标

  1. 验证长度控制有效性
  2. 检查 L1-Exact 和 L1-Max 是否能严格遵循用户指定的长度约束,从而实现推理成本与性能的灵活权衡。

  3. 评估性能与长度关系

  4. 分析不同长度约束下模型准确率变化趋势;
  5. 与现有方法(如 S1)对比优势。

  6. 探索泛化能力

  7. 评估模型在训练数据之外的任务(如逻辑推理、知识理解)上的表现;
  8. 验证是否能将长度控制能力迁移到其他领域。

  9. 研究短推理链性能

  10. 探讨 LCPO 在 Short-CoT 场景下的表现;
  11. 检查在有限 token 预算下是否仍能高效推理。

如果您认为博文还不错,请帮忙点赞、收藏、关注。您的反馈是我的原动力

原创文章
1FFN前馈网络与激活函数技术解析:Transformer模型中的关键模块
2Transformer掩码技术全解析:分类、原理与应用场景
3【大模型技术】Attention注意力机制详解一
4Transformer模型中位置编码(Positional Embedding)技术全解析(三)
5Transformer模型中位置编码(Positional Embedding)技术全解析(二)
6Transformer模型中位置编码(Positional Embedding)技术全解析(一)
7自然语言处理核心技术词嵌入(Word Embedding),从基础原理到大模型应用
8DeepSeek-v3:基于MLA的高效kv缓存压缩与位置编码优化技术
9

【Tokenization第二章】分词算法深度解析:BPE、WordPiece与Unigram的原理、实现与优化

10Tokenization自然语言处理中分词技术:从传统规则到现代子词粒度方法

相关文章:

  • 计算机内存管理全解析:从基础原理到前沿技术(含分页/分段/置换算法/大页/NVM/CXL等技术详解
  • LVS的DR模式部署
  • Linux文件权限相关
  • Oracle基础知识(五)——ROWID ROWNUM
  • 8.8 Primary ODSA service without ODSA Portal
  • 基于亚博K210开发板——物体分类测试
  • 企业信息化/数字化项目管理办法V3.0
  • 记一次前端逻辑绕过登录到内网挖掘
  • JAVA学习 DAY1 初识JAVA
  • MCP 登场:掘金开启 AI 前端项目部署新时代
  • linux使用服务添加一个开机启动脚本
  • 让 Deepseek GPS测速
  • css3 新增属性/滤镜效果/裁剪元素/图片适应盒子/定义和使用变量/恢复默认initial
  • 【C++进阶篇】哈希表的模拟实现(赋源码)
  • Python兴趣匹配算法:从理论到实战的进阶指南
  • 简述系统总线
  • 渐进够增强和优雅降级的区别
  • 【pg学习】-账号管理
  • 力扣刷题Day 61:子集(78)
  • 算法分析·回溯法
  • 房地产新闻报道/宁波优化网站排名软件
  • 做网站学不需要做后台管理系统/图片在线转外链
  • 域名注册以后怎样做网站/怎么在百度上面打广告
  • 昌网站建设/佛山快速排名
  • 便捷的大连网站建设/域名大全查询
  • linux 做网站/神马搜索seo优化排名