当前位置: 首页 > news >正文

【默子速报】DeepSeek新模型 Prover-V2 报告解读

请添加图片描述

炸裂,太炸裂了,五一不放假是吧?!

默子加班加点的肝解读!

首先是,Deepseek今天下午显示毫无预兆的在HF上发布了最新的Prover-V2参数

直接让一群人瞬间热血沸腾,想要看看Deepseek又干了什么大事。

可打开界面一看,啥说明也没有,就一个纯模型参数上传了上去。

不过还好,默子写了个自动脚本在蹲守,只要Deepseek一发报告。默子就秒知道(指20秒)

所以Deepseek一发报告,默子这第一时间来给大家更新了!

image-20250430232253807

那就让大家跟着默子来一起看看这Deepseek到底更新了什么吧!

前排说明:如果是在等R2或者是V4的朋友可以开溜了,这次更新的是数学证明模型Prover-V2,专注于数学解题的,不是我们了解到那个传统的推理模型。

但,有耐心的朋友不妨继续看看,这个V2可能比大家想的还要更有意思,说不定还会成为R2或V4封神的奠基石!

前言

随着大语言模型(LLMs)推理能力的飞跃发展,数学问题求解成为其研究重点之一。

然而,自然语言推理与形式定理证明之间仍存在结构性鸿沟。自然语言中的推理更偏向启发式、经验性、片段化,难以直接映射到形式证明系统如 Lean、Coq 等所要求的严密逻辑流程。

因此,如何将语言模型的非正式思维迁移到可验证的数学证明结构,是当前自动定理证明研究的关键挑战。

为此,DeepSeek-Prover-V2提出了一套从自然语言出发,经由子目标分解,最终构建形式证明的完整训练与推理流程。

DeepSeek-Prover-V2 的核心架构包含两个关键模型

  1. DeepSeek-V3:用于自然语言推理与子目标生成(proof sketch + subgoals)。
  2. Prover-7B / 671B:用于形式化子目标求解与最终证明生成。

核心思想是在 DeepSeek-V3 的高阶自然语言建模能力基础上,生成可编译至 Lean 4 的中间步骤(subgoals),再由优化后的 7B 模型递归求解每一步子命题,最终组合成完整的定理证明。

这一“先非正式再形式化”的过程被称为**“冷启动递归定理证明框架”**,

可能是标志着自动定理证明迈向结构层级更明确、更高效的路径。

方法详解

子目标驱动的递归定理证明

人类数学家常通过引入中间引理或子命题(lemma)来分解复杂定理的证明过程。

DeepSeek-Prover-V2 模拟这种人类策略,采用 DeepSeek-V3 生成自然语言的推理草图,并同步转译为 Lean 语言表示的子目标。

每个子目标以 Lean 的 have … := sorry 形式呈现,表示“当前推理到此,需要接下来的步骤来完成证明”。

image-20250430232946595

接着,系统递归性地调用一个训练有素的轻量化 7B 模型,尝试解决每一个 sorry 所对应的子命题。此过程构建出一个基于子目标链的证明树。所有子目标被解出后,即可拼接为完整定理的形式化证明。

DeepSeek-Prover-V2 的核心技术管线依赖两个模型的协作:

一个负责将原始定理自然语言化和子目标分解(DeepSeek-V3),

另一个负责子目标的形式求解(7B Prover)。

这种设计的关键意义在于,它首次系统性实现了从自然语言推理链条(chain-of-thought, CoT)到 Lean 形式语言的端到端迁移,统一了自然与形式两个领域的建模流程。

冷启动数据构建与训练策略

传统基于正式语料的定理证明模型训练,常受限于数据稀疏性与奖励信号匮乏。

为此,该项目引入“冷启动训练”策略,

即从 DeepSeek-V3 所生成但无法一体求解的定理入手,

提取其已成功分解并解决的子目标序列

将之拼合为新的全局形式证明,再附以推理草图,作为冷启动样本。

如此构建的高质量**“非正式-正式”**配对数据为模型提供了稠密而结构丰富的学习信号。

子目标课程学习

为增强训练效率与样本梯度控制,Deepseek设计了一个以子目标为核心的课程学习机制。

系统生成两种子目标:一种只替换原命题(图3左),另一种加入前置条件作为前提(图3右)。

image-20250430233905410

这两种变体分别对应浅层与深层的证明任务,

并被动态安排到 expert iteration 训练周期中,从而实现由浅入深的学习进展。

这种课程学习机制类似于强化学习中的 curriculum RL

并在架构上受到 AlphaProof 体系的启发,

目标是训练一个具备 IMO 级别推理能力的定理证明体。

强化学习与结构一致性奖励

最后还是采用 GRPO(Group Relative Policy Optimization)方法

利用 Lean 验证反馈(通过/失败)作为二元奖励。

同时引入结构一致性惩罚,强制模型输出与子目标结构对齐,

提升复杂问题的推理稳定性与一致性。

实验评估与结果分析

这波Deepseek可能是是真的爆杀!MiniF2F点准确率直接在过往模型基础上提高10个百分点!

image-20250430233421742

4.1 MiniF2F

  • 671B(CoT):Pass@8192 = 88.9%,刷新当前 SOTA。
  • 7B(CoT):Pass@8192 = 82.0%,优于所有开源小模型。

image-20250430233712681

4.2 ProofNet(大学教材级)

  • 671B(CoT):Pass@1024 = 37.1%
  • 7B(non-CoT):为主力参与 curriculum 学习,表现稳定。

4.3 PutnamBench(本科竞赛题)

  • 671B(CoT):49/658,较前作提升显著。
  • 7B 解出 13 道 671B 未解题,展示独特 Lean 策略偏好。

4.4 CombiBench(组合数学)

  • 671B(CoT):12/100
  • 表明即便组合问题不是训练主干,模型也具迁移能力。

4.5 ProverBench(新构建)

  • 含 325 道题,覆盖 AIME 竞赛题及教材内容。
  • AIME 24-25:DeepSeek-V3(自然语言)解出 8/15;671B(形式证明)解出 6/15。

这种性能提升主要归因于 CoT prompting 策略:相比直接预测答案的 non-CoT 模式,带有中间推理步骤的 CoT 模式在模型理解与构造逻辑链方面更具优势。

# 新的基准

同时,为推进定理证明研究,Deepseek还构建了一个包含 325 道题目的新基准集 ProverBench。

该集合包含 15 道来自 AIME 24 和 25 届竞赛的精选题目,

以及 310 道来自高中教材与本科课程的题目。覆盖内容广泛,涵盖以下数学领域:

学科题量
数论40
初等代数30
线性代数50
抽象代数40
微积分90
实分析30
复分析10
泛函分析10
概率论10

在 AIME 问题上,DeepSeek-V3 模型以自然语言模式解决 8/15,

而 DeepSeek-Prover-V2-671B 能在提供正确答案的条件下构造出 6/15 的完整形式证明。

这一结果表明,自然语言推理与形式化建模之间的性能差距正逐步缩小。

结论与未来展望

DeepSeek-Prover-V2 构建了一条完整的“语言-子目标-形式化-验证”链路,

突破了 LLM 只擅长自然语言推理的限制,将其能力扩展到了 Lean 这类严格验证系统。

通过冷启动数据与子目标课程学习的结合,模型实现了在多种数学场景下的泛化能力突破。

更为重要的是,默子认为该系统可能只是 DeepSeek 更大布局中的一步。

在 DeepSeek-V3 已具备自然语言数学推理能力的基础上,V2 的形式化能力构建很可能是为 DeepSeek R2 或 V4 引入更强数学引擎的铺垫。

这预示着未来的通用大模型将在形式语言处理、结构推理、严密验证等高层任务上具备更强竞争力。

最终目标直指国际数学奥林匹克(IMO)级别的数学难题求解与验证系统,一个真正意义上的“类人”形式化数学助手。


第一时间解读,难免会有纰漏,欢迎各位大佬批评指正!

默子要早睡去啦,大家也晚安!

五一快乐!

关注默子,带你天天AI早睡

相关文章:

  • 从Oculus到Meta:Facebook实现元宇宙的硬件策略
  • 二、OrcaSlicer用户预设
  • 电容的作用
  • 对js的Date二次封装,继承了原Date的所有方法,增加了自己扩展的方法,可以实现任意时间往前往后推算多少小时、多少天、多少周、多少月;
  • 使用atomic实现无锁方式的全局变量访问
  • 借助电商 API 接口实现电商平台商品数据分析的详细步骤分享
  • Python第四周作业
  • 力扣-数组-238 除自身以外数组的乘积
  • tbb parallel_for 使用教程2之 tbb::blocked_range
  • 【Android】Android签名解析
  • javascript 深拷贝和浅拷贝的区别及具体实现方案
  • 双指针(4)——盛水最多的容器
  • Vcpkg C++库管理工具安装
  • Depth Anything V2:深度万象 V2
  • 前端js学算法-实践
  • 可编辑25页PPT | 企业数字底座:数据中台构建路径、方法和实践
  • Vue3源码学习3-结合vitetest来实现mini-vue
  • Java ResourceBundle 资源绑定详解
  • linux find命令妙用
  • Kettle下载安装教程
  • 十二届上海市委第六轮巡视全面进驻,巡视组联系方式公布
  • 莫名的硝烟|“我们最好记住1931年9月18日这个日子”
  • 烟花秀、新航线、购物节......上海邮轮文化旅游节今日开幕
  • 成都世运会倒计时100天,中国代表团运动员规模将创新高
  • 神舟十九号载人飞船因东风着陆场气象原因推迟返回
  • 怒江州委常委、泸水市委书记余剑锋调任云南省委省直机关工委副书记