DeepSeek R2难产:近期DeepSeek-V3.1 发布更新并开源,成功实现迈向 Agent 时代的第一步
DeepSeek R2难产:近期DeepSeek-V3.1 发布更新并开源,成功实现迈向 Agent 时代的第一步
要说 AI 模型的江湖,这一年简直就是 “大模型修罗场”。前脚 R2 传出难产的风声,后脚 DeepSeek 就甩出了一张大招牌:DeepSeek-V3.1。这波操作不仅没有掉队,反倒像是提前踩进了 Agent 时代的门槛。作为一只长年蹲在模型圈子里的猫头虎,看完更新细节后,忍不住来跟大家聊聊这次升级到底藏着什么乾坤。
文章目录
- DeepSeek R2难产:近期DeepSeek-V3.1 发布更新并开源,成功实现迈向 Agent 时代的第一步
- 🚀 V3.1 的核心升级
- 🛠️ Agent 能力:更像一个“工具人”了
- 编程智能体
- 搜索智能体
- ⏳ 思考效率:省字、省钱、省时间
- 📂 模型开源与生态
- 💰 价格调整:9月6日起执行
- 🦉 我的几点思考
- 📌 总结
🚀 V3.1 的核心升级
这次 V3.1 最大的亮点,可以总结为三板斧:
-
混合推理架构
传统模型要么全程“深度思考”,要么直接“无脑快答”。V3.1 干脆把这两种模式合体,用户可以在需要时切换成“深度思考”模式,不需要时就走“快答流”。 -
思考效率暴击提升
相比 R1-0528,V3.1-Think 在保持精度的情况下,输出 token 数量减少了 20%-50%。换句话说,省字又省钱,还不掉链子。 -
Agent 能力进化
通过后训练(Post-Training)优化,V3.1 在编程、搜索、任务执行这些典型 Agent 场景下有了肉眼可见的飞跃。
官方 App 和网页端已经同步升级,DeepSeek API 也对接好了:
deepseek-chat
= 非思考模式deepseek-reasoner
= 思考模式
API 还顺手拉通了 Anthropic API 格式,开发者能把 V3.1 直接塞进 Claude Code 框架里,简直不要太丝滑。
🛠️ Agent 能力:更像一个“工具人”了
编程智能体
从表格能看出来,V3.1 在 SWE 代码修复测试和 Terminal-Bench 终端任务里跑得更快,轮次更少。对于一个想在代码场景里立足的 Agent,这就是实打实的生产力提升。
搜索智能体
搜索相关的测试更能说明问题。browsecomp(复杂搜索任务)和 HLE(专家级难题)测试里,V3.1 已经甩开了 R1-0528。多步推理和信息检索能力被显著放大,这就意味着它更适合当“知识助手”。
⏳ 思考效率:省字、省钱、省时间
上图一目了然:在 AIME 2025、GPQA、liveCodeBench 等基准测试里,V3.1-Think 的表现基本持平 R1-0528,但消耗的 token 明显少了。
这其实是个很现实的升级:
- 对开发者来说,API 费用更可控。
- 对用户来说,回答更简洁,没那么“碎碎念”。
📂 模型开源与生态
DeepSeek 这次继续保持“开源精神”:
-
Base 模型(新增 840B tokens 训练)
- Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
- 魔搭: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Base
-
后训练模型
- Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.1
- 魔搭: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1
不过要注意:
- V3.1 用了 UE8M0 FP8 Scale 精度,跟 V3 存在一定不兼容。
- 分词器和 chat template 也改了,需要部署的朋友别拿老版本文档硬套。
💰 价格调整:9月6日起执行
最现实的部分来了:2025 年 9 月 6 日起,API 调用价格调整。夜间优惠取消,按新表收费。不过 DeepSeek 也扩容了 API 服务,算是涨价+提速的组合拳。
🦉 我的几点思考
-
R2 难产,V3.1 接棒
从市场节奏来看,DeepSeek 并没有因为 R2 的停滞而停摆,反倒巧妙地用 V3.1 稳住了用户心智。 -
Agent 时代的试探
这次升级不是单纯的推理性能迭代,而是明确地往“智能体化”方向走。能写代码、能搜索、能调用工具,说明 DeepSeek 已经在搭建下一代 AI 工作流的底层砖瓦。 -
生态和价格的平衡
开源+价格调整,看似矛盾,但背后其实是 “控成本+扩规模” 的必然选择。
📌 总结
DeepSeek-V3.1 不是那种让人一眼惊艳的“天花板式”模型,但它非常实用:
- 效率更高,花钱更少
- Agent 能力更强,适配更多场景
- 开源透明,开发者门槛低
在这个人人喊着做 Agent 的时代,DeepSeek 用 V3.1 稳稳迈出了一步。也许真正的“R2 神话”还在路上,但 V3.1 已经足够让人期待下一步了。
🦉 我的观点:别再纠结 R2 了,V3.1 已经开始布下一盘更大的棋。