Gemini拿下IMO2025金牌的提示词解析
https://mp.weixin.qq.com/s/wuorUnKGwnUM0vjZHB0bew
1. 问题拆解
为了系统性地理解这项研究,我们可以将其拆解为以下几个核心、独立且完整的部分:
- 核心成就 (What): 这项研究取得了什么关键成果?
- 核心方法论 (How): 他们是如何实现这一成就的?整个系统的工作流程是怎样的?
- 关键技术创新 (Innovations): 在方法论中,有哪些最值得称道的巧思和创新点?
- 提示词策略 (Prompts): 作为核心驱动力,提示词是如何设计和发挥作用的?
- 实践案例分析 (Case Studies): 该系统在6道具体的IMO题目上表现如何?揭示了什么?
- 本质与局限性 (Essence & Limitations): 这项工作的本质是什么?它又暴露了哪些当前的不足?
- 未来展望与实践建议 (Future & Takeaways): 这对我们有什么启发?下一步可以做什么?
2. 各部分详解
Part 1: 核心成就 (What)
UCLA的研究者利用Google的Gemini 2.5 Pro模型,在一个精巧设计的系统下,达到了2025年国际数学奥林匹克竞赛(IMO)的金牌水平,在6道题中成功解出了5道。
- 意义: IMO被视为AI高级推理能力的“珠穆朗玛峰”,因为它考验的不是暴力计算,而是创造性、严谨的逻辑推理。这次的成功是AI在该领域的一个里程碑。
Part 2: 核心方法论 (How) - “六步流水线”
研究者没有让AI“一口吃成个胖子”,而是设计了一个类似工厂流水线的、包含迭代和循环的智能系统。
- 类比: 想象一下,这不像是一位天才数学家灵光一闪解决问题,更像一个严谨的学术研究团队。有成员负责提出初步草稿,有成员负责审阅,有成员负责验证,还有成员负责根据反馈修改,整个过程循环往复,直到论文无懈可击。
这个流水线包含六个步骤:
- 初始解答生成: 提出一个有潜力的解题草案。
- 自我改进: 对草案进行第一次优化和精炼。
- 解答验证: 扮演“评委”,严格审查解答中的错误和漏洞。
- 审查Bug报告: 连“评委”的判断也可能出错,所以需要一个“仲裁者”来复核验证报告的合理性。
- 针对性改进: 根据最终确定的“Bug报告”进行精确修改。
- 最终决策: 只有当一个解答连续5次通过验证,才被最终接受,否则拒绝。
Part 3: 关键技术创新 (Innovations)
-
“思维预算”扩充 (32768 → 65536+):
- 本质: 巧妙地绕过了模型单次思考的上限(32768个token)。
- 类比: 这就像一个游戏玩家,主角色(初始解答)的“法力值”用完了,系统立刻切换到另一个满“法力值”的新角色(自我改进)上场继续战斗。通过分步执行,每一“步”都获得了全新的思维资源,从而让思考的深度和广度翻倍。
-
统计学思想的引入:
- 本质: “连续五次通过验证”的设计,确保了结果的稳定性和可靠性,排除了AI偶然“猜对”的可能性。
- 类比: 这类似于科学实验中的重复性检验。一个实验结果只有在多次重复后依然成立,才会被科学界接受。
-
分级错误处理:
- 本质: 验证器将问题分为“致命错误”(Critical Error)和“论证瑕疵”(Justification Gap)。
- 类比: 这好比医生看病。前者是需要立刻手术的急症(如心脏骤停),一旦发现,后续治疗(推理)就失去了意义;后者是可以观察或后续处理的小毛病(如轻微擦伤),医生会先假设它不影响大局,继续检查身体的其他部分。
Part 4: 提示词策略 (Prompts)
提示词是整个系统的灵魂,它们是给AI下达精确指令的“代码”。
-
生成提示词 (Solution Generation Prompt):
- 核心原则: 严谨性胜过一切 (Rigor is Paramount)。
- 最大亮点: 直接命令AI**“承认不会,不能胡编乱造”**。这是一种“防御性编程”思想,从根本上解决了AI最臭名昭著的“幻觉”问题。它要求AI诚实地提交它能严格证明的“部分成果”,而不是一个看似完整却充满漏洞的答案。
-
验证提示词 (Verification Prompt):
- 核心角色: 扮演一个苛刻的IMO审稿人。
- 最大亮点: 指令清晰,要求验证器只验证,不修正。它必须按照“致命错误”和“论证瑕疵”的分类标准,出具一份详细的审查日志,并且为了清晰,必须引用原文来定位问题。
Part 5: 实践案例分析 (The 6 Problems)
-
AI的优势领域:
- 解析几何 (问题2): 当问题可以转化为大规模代数运算时,AI展现出巨大优势。这道题被作者称为“AI最容易的IMO问题”。
- 有明确路径的问题 (问题1): 在得到“试试数学归纳法”这类标准工具的提示后,AI能高效执行。
-
系统的威力体现:
- 数论 (问题3, 4) & 博弈论 (问题5): 这些问题需要复杂的逻辑和策略分析,系统通过迭代和自我修正,成功找到了最优解或证明了关键性质,展现了其强大的推理能力。
-
AI的挑战领域:
- 组合优化 (问题6): 在瓦片覆盖问题上,AI只得出了一个平凡的解。这揭示了当前方法在处理需要高度创造性构造和全局优化的组合问题上,仍然存在局限。
Part 6: 本质与局限性 (Essence & Limitations)
-
这玩意儿的本质是什么?
- 这项研究的本质不是关于模型本身有多强大,而是关于如何设计一个智能系统来最大化利用模型的能力。它证明了通过**“流程设计 + 精确指令 (Prompt)”**,可以引导AI完成远超其单次能力的复杂推理任务。它是一种将大型语言模型从一个“聊天机器人”转变为一个“严谨问题解决引擎”的工程范式。
-
局限性:
- 评分的客观性: 目前的“金牌”是研究团队根据证明的完整性自行评估的,尚未得到IMO官方的认证。
- 问题类型的依赖: 系统在某些类型的问题上(如组合优化)表现不佳,说明其能力并非普适。
- 提示词依赖: 尽管论文公布了关键提示词,但整个系统(如自我改进、修正环节)的完整提示词并未公开,复现全套系统仍有困难。
Part 7: 未来展望与实践建议
-
对我们的启发:
- 从“Prompt Engineering”到“System Engineering”: 解决复杂问题,不要指望一个完美的“超级Prompt”,而应该思考如何设计一个多步骤、带反馈循环的系统,让AI在其中自我进化。
- 代码思维的应用: 整个系统就像一个复杂的程序,包含了条件分支(
if-else
)、循环(for/while
)和错误处理(try-catch
)。我们可以借鉴这种结构化、流程化的思维来构建自己的Agent。 - “让AI承认无知”的重要性: 在构建应用时,特别是严肃场景,设计让AI能识别并坦白自己能力边界的机制,比让它强行回答更重要。
-
下一步的实践建议:
- 动手测试: 使用文章中提供的两个核心Prompt,在你熟悉的领域(不一定是数学)测试一下大模型的能力。比如,用“生成提示词”的结构,让它为你写一段严谨的代码或技术方案;用“验证提示词”的结构,让它审查你已有的代码或文档。
- 构建迷你系统: 模仿这个六步流程,尝试用代码(比如Python脚本)将几个API调用串联起来,构建一个解决特定小问题的“迷你流水线”。例如,一个“文章生成与校对”系统:
- Step 1: 调用API生成初稿。
- Step 2: 调用API进行语法和事实核查(模拟验证)。
- Step 3: 根据核查结果,再次调用API进行修改。
- 关注作者: 作者提到未来会发布一个自动化Agent,可以持续关注他们的研究进展。
3. 总结反思
这项工作最有趣的地方在于,它揭示了一种与AI协作的新范式。我们不再仅仅是AI的使用者,更像是AI系统的架构师。我们设计的不再是静态的提示,而是一个动态的、能自我纠错和成长的流程。这对于任何希望利用AI解决复杂、严肃问题的人来说,都具有极大的启发价值。它告诉我们,AI的潜力极限,很大程度上取决于我们为它设计的“舞台”有多精妙。