当前位置: 首页 > news >正文

DeepSeek系列论文解读四之DeepSeek Prover V2

一、研究背景与目标

近年来,大语言模型(LLMs)在数学推理、问答和代码生成等领域展现了惊人的推理能力,特别是在自然语言条件下的“思维链”(Chain-of-Thought, CoT)推理。然而,将这类能力应用于形式化定理证明(如 Lean、Coq 等系统)仍面临巨大挑战:

  • 自然语言推理具有模糊性、跳步性、不严格;
  • 形式化系统则要求每一步证明都无歧义、可验证
  • LLMs 能否成为严谨数学证明助手,是一个关键科学问题。

本论文提出了 DeepSeek-Prover-V2,一个面向 Lean 4 的、具备递归子目标分解能力的大语言模型,通过强化学习与课程学习联合训练,在多个数学基准测试上达到当前最强性能。

二、技术方法详解

2.1 子目标分解策略(Subgoal Decomposition)

  • 借鉴人类证明策略:将复杂定理分解为一系列中间引理(子目标)
  • 使用 DeepSeek-V3 模型生成自然语言思维链,并将子目标形式化为 Lean 语句;
  • 每个子目标用 sorry 占位,由后续 7B 小模型解决;
  • 子目标之间具备依赖关系,可通过 have 链接组合为完整定理证明。

这种方式实现了复杂推理任务的结构化、模块化与并行化求解

2.2 冷启动数据构建(Bootstrapping Formal Reasoning)

  • 利用子目标成功率高的事实:先解子目标,再自动组合成完整定理;
  • 合并 DeepSeek-V3 提供的 CoT 推理与子目标证明,形成高质量训练样本;
  • 相比于以往直接采集自然语言→形式化对照,本方法反向建模:形式化先 → 自然语言补足,更适合 LLM 模拟人类推理。

2.3 双模型策略(CoT 与 non-CoT)

📗 Non-CoT 模型
  • 专注于 Lean 证明代码生成;
  • 无需中间解释步骤,执行速度快;
  • 适合大规模并发尝试,支持专家迭代数据采集(Expert Iteration)。
📘 CoT 模型
  • 展示自然语言推理路径 + Lean 形式化步骤;
  • 提高可解释性;
  • 在训练后期结合强化学习进行优化。

2.4 强化学习优化(RL with Structural Rewards)

  • 使用 Group Relative Policy Optimization (GRPO) 算法;
  • 奖励信号基于是否通过 Lean 验证;
  • 引入“结构一致性奖励”,鼓励模型保留关键中间步骤(如每个 have);
  • 实验证明对多步骤复杂定理效果显著。

2.5 课程学习策略(Curriculum Learning)

  • 通过已解决子目标构建“伪定理”(即中间命题);
  • 随着模型能力增强,逐步加入更复杂结构;
  • 类似人类学习路径,从简单引理到复杂定理逐步提升。

三、实验评估与结果

模型在多个主流和新提出的数据集上进行测试:

数据集模型/设置成绩说明
MiniF2F-test671B + CoT88.9% (Pass@8192)SOTA,竞赛级定理证明
MiniF2F-valid课程学习 + 子目标90.2%与最终模型相当,验证子目标分解有效性
ProofNet-test671B + CoT37.1% (Pass@1024)本科教材 Lean 证明集
PutnamBench671B + CoT49 / 658美国本科竞赛题集,覆盖多数学科
+ 7B non-CoT+13 题,共 62发现技能补偿,7B 模型表现出独特强项
AIME 2024-2025671B + CoT6 / 15高中顶尖数学竞赛题
DeepSeek-V38 / 15非正式推理结果,显示能力接近
CombiBench671B + CoT12 / 77组合数学 Lean 形式化
ProverBench325 题混合集(教材+AIME)多基准强势表现覆盖 9 类课程内容和竞赛场景

四、创新点总结

创新点贡献描述
冷启动推理数据生成方法形式化优先,反向配对非正式语言,构建更严谨的训练样本
子目标驱动的递归证明流程支持复杂定理分层解构,大幅提升模型效率与可扩展性
非 CoT + CoT 模型协同训练策略兼顾速度与解释性,适应多场景使用
结构奖励强化学习框架(GRPO)强化“多步逻辑链”保留,提升复杂任务稳定性
ProverBench 数据集首次引入教材与竞赛混合评测集,扩大了评估覆盖范围

五、未来工作展望

  • IMO(国际数学奥林匹克)级别的挑战进发;
  • 构建具备完整证明流程的 AlphaProof 级系统;
  • 探索更强的子目标推理规划能力与长期结构记忆机制;
  • 融合多模态(图形/自然语言/符号逻辑)以支持更广泛的数学活动。

📝 本文为构建类人类智能数学系统提供了切实路径:从推理分解、知识重组到代码级验证,每一步都向“具备数学能力的通用智能”迈出实质性一步。

相关文章:

  • 应急响应靶场web2:知攻善防实验室
  • 行为树笔记
  • 记录一下spring-cloud-starter-alibaba-nacos-config 2023.0.3.2与springboot版本及配置问题
  • kettle从入门到精通 第九十六课 ETL之kettle Elasticsearch 增删改查彻底掌握
  • excel 批量导出图片并指定命名
  • FPGA 纯逻辑NVME raid0 IP核
  • 常用设计模式在 Spring Boot 项目中的实战案例
  • 当当狸智能天文望远镜 TW2 | 用科技触摸星辰,让探索触手可及
  • 第十一节:图像处理基础-图像阈值处理
  • 16.Excel:打印技巧
  • ROS2: 服务通信
  • Android 数据持久化之数据库存储 Room 框架
  • RDD的处理过程
  • 远程桌面软件推荐
  • baobab查看磁盘空间占用
  • 使用node.js创建一个简单的服务器
  • LLaMA-Factory微调DeepSeek-R1-Distill-Qwen-7B
  • 微软输入法常用快捷键介绍以及调教技巧
  • 【Hive入门】Hive数据导入与导出:批量操作与HDFS数据迁移完全指南
  • 设计模式之状态模式
  • 新华时评:中国维护国际经贸秩序的立场坚定不移
  • 巴基斯坦军方:印度导弹袭击巴首都附近空军基地
  • 中俄就应对美加征所谓“对等关税”等问题进行深入交流
  • 新华时评:直播间里“家人”成“韭菜”,得好好管!
  • 妻子藏匿一岁幼儿一年多不让丈夫见,法院发出人格权侵害禁令
  • 以军总参谋长:已进入“决定性打击计划的第二阶段”