当前位置：首页 > news >正文

【默子速报】DeepSeek新模型 Prover-V2 报告解读

news 2025/7/5 1:19:27

请添加图片描述

炸裂，太炸裂了，五一不放假是吧？！

默子加班加点的肝解读！

首先是，Deepseek今天下午显示毫无预兆的在HF上发布了最新的Prover-V2参数

直接让一群人瞬间热血沸腾，想要看看Deepseek又干了什么大事。

可打开界面一看，啥说明也没有，就一个纯模型参数上传了上去。

不过还好，默子写了个自动脚本在蹲守，只要Deepseek一发报告。默子就秒知道（指20秒）

所以Deepseek一发报告，默子这第一时间来给大家更新了！

那就让大家跟着默子来一起看看这Deepseek到底更新了什么吧！

前排说明：如果是在等R2或者是V4的朋友可以开溜了，这次更新的是数学证明模型Prover-V2，专注于数学解题的，不是我们了解到那个传统的推理模型。

但，有耐心的朋友不妨继续看看，这个V2可能比大家想的还要更有意思，说不定还会成为R2或V4封神的奠基石！

前言

随着大语言模型（LLMs）推理能力的飞跃发展，数学问题求解成为其研究重点之一。

然而，自然语言推理与形式定理证明之间仍存在结构性鸿沟。自然语言中的推理更偏向启发式、经验性、片段化，难以直接映射到形式证明系统如 Lean、Coq 等所要求的严密逻辑流程。

因此，如何将语言模型的非正式思维迁移到可验证的数学证明结构，是当前自动定理证明研究的关键挑战。

为此，DeepSeek-Prover-V2提出了一套从自然语言出发，经由子目标分解，最终构建形式证明的完整训练与推理流程。

DeepSeek-Prover-V2 的核心架构包含两个关键模型：

DeepSeek-V3：用于自然语言推理与子目标生成（proof sketch + subgoals）。
Prover-7B / 671B：用于形式化子目标求解与最终证明生成。

核心思想是在 DeepSeek-V3 的高阶自然语言建模能力基础上，生成可编译至 Lean 4 的中间步骤（subgoals），再由优化后的 7B 模型递归求解每一步子命题，最终组合成完整的定理证明。

这一“先非正式再形式化”的过程被称为**“冷启动递归定理证明框架”**，

可能是标志着自动定理证明迈向结构层级更明确、更高效的路径。

方法详解

子目标驱动的递归定理证明

人类数学家常通过引入中间引理或子命题（lemma）来分解复杂定理的证明过程。

DeepSeek-Prover-V2 模拟这种人类策略，采用 DeepSeek-V3 生成自然语言的推理草图，并同步转译为 Lean 语言表示的子目标。

每个子目标以 Lean 的 have … := sorry 形式呈现，表示“当前推理到此，需要接下来的步骤来完成证明”。

接着，系统递归性地调用一个训练有素的轻量化 7B 模型，尝试解决每一个 sorry 所对应的子命题。此过程构建出一个基于子目标链的证明树。所有子目标被解出后，即可拼接为完整定理的形式化证明。

DeepSeek-Prover-V2 的核心技术管线依赖两个模型的协作：

一个负责将原始定理自然语言化和子目标分解（DeepSeek-V3），

另一个负责子目标的形式求解（7B Prover）。

这种设计的关键意义在于，它首次系统性实现了从自然语言推理链条（chain-of-thought, CoT）到 Lean 形式语言的端到端迁移，统一了自然与形式两个领域的建模流程。

冷启动数据构建与训练策略

传统基于正式语料的定理证明模型训练，常受限于数据稀疏性与奖励信号匮乏。

为此，该项目引入“冷启动训练”策略，

即从 DeepSeek-V3 所生成但无法一体求解的定理入手，

提取其已成功分解并解决的子目标序列，

将之拼合为新的全局形式证明，再附以推理草图，作为冷启动样本。

如此构建的高质量**“非正式-正式”**配对数据为模型提供了稠密而结构丰富的学习信号。

子目标课程学习

为增强训练效率与样本梯度控制，Deepseek设计了一个以子目标为核心的课程学习机制。

系统生成两种子目标：一种只替换原命题（图3左），另一种加入前置条件作为前提（图3右）。

这两种变体分别对应浅层与深层的证明任务，

并被动态安排到 expert iteration 训练周期中，从而实现由浅入深的学习进展。

这种课程学习机制类似于强化学习中的 curriculum RL，

并在架构上受到 AlphaProof 体系的启发，

目标是训练一个具备 IMO 级别推理能力的定理证明体。

强化学习与结构一致性奖励

最后还是采用 GRPO（Group Relative Policy Optimization）方法，

利用 Lean 验证反馈（通过/失败）作为二元奖励。

同时引入结构一致性惩罚，强制模型输出与子目标结构对齐，

提升复杂问题的推理稳定性与一致性。

实验评估与结果分析

这波Deepseek可能是是真的爆杀！MiniF2F点准确率直接在过往模型基础上提高10个百分点！

4.1 MiniF2F

671B（CoT）：Pass@8192 = 88.9%，刷新当前 SOTA。
7B（CoT）：Pass@8192 = 82.0%，优于所有开源小模型。

4.2 ProofNet（大学教材级）

671B（CoT）：Pass@1024 = 37.1%
7B（non-CoT）：为主力参与 curriculum 学习，表现稳定。

4.3 PutnamBench（本科竞赛题）

671B（CoT）：49/658，较前作提升显著。
7B 解出 13 道 671B 未解题，展示独特 Lean 策略偏好。

4.4 CombiBench（组合数学）

671B（CoT）：12/100
表明即便组合问题不是训练主干，模型也具迁移能力。

4.5 ProverBench（新构建）

含 325 道题，覆盖 AIME 竞赛题及教材内容。
AIME 24-25：DeepSeek-V3（自然语言）解出 8/15；671B（形式证明）解出 6/15。

这种性能提升主要归因于 CoT prompting 策略：相比直接预测答案的 non-CoT 模式，带有中间推理步骤的 CoT 模式在模型理解与构造逻辑链方面更具优势。

# 新的基准

同时，为推进定理证明研究，Deepseek还构建了一个包含 325 道题目的新基准集 ProverBench。

该集合包含 15 道来自 AIME 24 和 25 届竞赛的精选题目，

以及 310 道来自高中教材与本科课程的题目。覆盖内容广泛，涵盖以下数学领域：

学科	题量
数论	40
初等代数	30
线性代数	50
抽象代数	40
微积分	90
实分析	30
复分析	10
泛函分析	10
概率论	10

在 AIME 问题上，DeepSeek-V3 模型以自然语言模式解决 8/15，

而 DeepSeek-Prover-V2-671B 能在提供正确答案的条件下构造出 6/15 的完整形式证明。

这一结果表明，自然语言推理与形式化建模之间的性能差距正逐步缩小。

结论与未来展望

DeepSeek-Prover-V2 构建了一条完整的“语言-子目标-形式化-验证”链路，

突破了 LLM 只擅长自然语言推理的限制，将其能力扩展到了 Lean 这类严格验证系统。

通过冷启动数据与子目标课程学习的结合，模型实现了在多种数学场景下的泛化能力突破。

更为重要的是，默子认为该系统可能只是 DeepSeek 更大布局中的一步。

在 DeepSeek-V3 已具备自然语言数学推理能力的基础上，V2 的形式化能力构建很可能是为 DeepSeek R2 或 V4 引入更强数学引擎的铺垫。

这预示着未来的通用大模型将在形式语言处理、结构推理、严密验证等高层任务上具备更强竞争力。

最终目标直指国际数学奥林匹克（IMO）级别的数学难题求解与验证系统，一个真正意义上的“类人”形式化数学助手。

第一时间解读，难免会有纰漏，欢迎各位大佬批评指正！

默子要早睡去啦，大家也晚安！

五一快乐！

关注默子，带你天天AI早睡

查看全文

http://www.dtcms.com/a/166640.html

从Oculus到Meta：Facebook实现元宇宙的硬件策略

二、OrcaSlicer用户预设

电容的作用

对js的Date二次封装，继承了原Date的所有方法，增加了自己扩展的方法，可以实现任意时间往前往后推算多少小时、多少天、多少周、多少月；

使用atomic实现无锁方式的全局变量访问

借助电商 API 接口实现电商平台商品数据分析的详细步骤分享

Python第四周作业

力扣-数组-238 除自身以外数组的乘积

tbb parallel_for 使用教程2之 tbb::blocked_range

【Android】Android签名解析

javascript 深拷贝和浅拷贝的区别及具体实现方案

双指针（4）——盛水最多的容器

Vcpkg C++库管理工具安装

Depth Anything V2：深度万象 V2

前端js学算法-实践

可编辑25页PPT | 企业数字底座：数据中台构建路径、方法和实践

Vue3源码学习3-结合vitetest来实现mini-vue

Java ResourceBundle 资源绑定详解

linux find命令妙用

Kettle下载安装教程

Set系列之HashSet源码分析：原理剖析与实战对比

Ubuntu 24.04 终端美化

强化学习之基于无模型的算法之基于值函数的深度强化学习算法

望获实时Linux系统荣获人形机器人技术突破奖

得物可观测平台架构升级：基于GreptimeDB的全新监控体系实践

多通道经颅电刺激器的主流厂家介绍

柯希霍夫积分法偏移成像中数据分布不均匀的处理方法

【题解】Codeforces Round 1019 (Div. 2) B.Binary Typewriter ~ E.Keep the Sum

【赵渝强老师】使用TiDB的审计日志

Learning vtkjs之ImageStreamline

前言