当前位置：首页 > news >正文

DeepSeek 登《自然》封面，OpenAI 推出 GPT-5-Codex，Notion Agent 首亮相！| AI Weekly 9.15-9.21

news 2025/9/22 7:29:56

📢 本周 AI 快讯 | 1 分钟速览 🚀

1️⃣ 🚨 DeepSeek 发布反诈声明 ：警惕"算力租赁"和"股权融资"骗局，强调网页版、App 均为免费使用，API 充值仅通过官网进行。

2️⃣ 📚 DeepSeek-R1 登 Nature 封面 ：全球首个经同行评审的主流大语言模型，训练成本仅 29.4 万美元，使用 512 张 H800 GPU 训练 278 小时。

3️⃣ 📊 豆包月活 1.57 亿登顶 ：超越 DeepSeek 成为中国原生 AI App 月活榜首，环比增长 6.6%，腾讯元宝以 22.4% 增速位居第三。

4️⃣ 🔬 阿里通义 DeepResearch 开源 ：30B-A3B 轻量模型性能超越 OpenAI o3，激活参数仅 3.3B，采用 Apache 2.0 协议全面开源。

5️⃣ 🎭 通义万相开源 Wan2.2-Animate ：性能最强动作生成模型，支持驱动人物、动漫和动物照片，超越 Runway Act-two 等闭源模型。

6️⃣ 🎤 小米开源 MiMo-Audio ：首个原生端到端语音大模型，基于 1 亿小时训练数据，突破 7000 亿 token 后出现"能力涌现"。

7️⃣ 💻 OpenAI 发布 GPT-5-Codex ：可独立编程超 7 小时，SWE-bench 测试达 74.9%，代码重构能力从 33.9% 跃升至 51.3%。

8️⃣ ⚡ OpenAI 推出思考时长调节 ：Pro 用户独享四档模式（Light、Standard、Extended、Heavy），内部 "juice" 级别从 5 到 64 可调。

9️⃣ 🌐 Gemini 登陆桌面 Chrome ：向美国所有用户免费开放，支持跨标签页工作，未来将具备代理性功能自动执行任务。

🔟 🚀 xAI 发布 Grok 4 Fast ：推理成本降低 98%，免费开放全功能，API 输入仅需 $0.20/百万 tokens，比竞品便宜 47 倍。

1️⃣1️⃣ 🤖 Notion 发布首个 AI Agent ：可执行长达 20 分钟自主工作，同时处理数百页面，年收入已突破 5 亿美元。

01｜DeepSeek 发布反诈骗声明，警惕"算力租赁"和"股权融资"骗局

9 月 17 日，DeepSeek（深度求索）发布紧急声明，披露近期出现多起冒充公司名义的诈骗案件。不法分子冒充 DeepSeek 官方或在职员工，伪造工牌、营业执照等材料，在多个平台以"算力租赁"、"股权融资"等名义向用户收取费用实施诈骗。深度求索强调，公司从未要求用户向个人账户或非官方账户付款，任何要求私下转账的行为均属诈骗。

官方特别提醒，DeepSeek 网页版、App 产品目前均为免费使用，如需 API 调用服务应通过官网开放平台进行充值，官方收款账户名称为"杭州深度求索人工智能基础技术研究有限公司"。除官方用户交流微信群外，DeepSeek 从未在国内其他平台设立任何群组，一切声称与 DeepSeek 官方群组有关的收费行为均系假冒。用户如遇可疑情况，可通过官方邮箱 service@deepseek.com 联系核实，或向公安机关举报。值得注意的是，就在本周，DeepSeek-R1 推理模型研究论文刚刚登上国际权威期刊《Nature》封面，成为全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究。

02｜DeepSeek-R1 论文登上 Nature 封面，训练成本仅需 29.4 万美元

9 月 18 日，由 DeepSeek 团队共同完成、梁文锋担任通讯作者的 DeepSeek-R1 推理模型研究论文登上国际权威期刊《Nature》第 645 期封面。这是全球首个经过同行评审的主流大语言模型，Nature 评价道："几乎所有主流的大模型都还没有经过独立同行评审，这一空白终于被 DeepSeek 打破"。论文首次披露 R1 的训练成本仅为 29.4 万美元（约合人民币 209 万元），使用 512 张 H800 GPU 分别训练 R1-Zero 198 小时和 R1 80 小时，相比其他推理模型动辄千万美元的成本实现了极大降本。

此次发表的论文对外界质疑作出正面回应。针对 OpenAI 指控的"蒸馏"质疑，DeepSeek 明确表示训练数据仅使用普通网页和电子书，虽然部分网页可能包含 OpenAI 模型生成的答案，但并未刻意加入合成数据，所有数据都是通过网络爬取自然获取。论文展示了 DeepSeek-R1 采用纯强化学习训练，模型正确解答数学问题时获得高分奖励，答错则受惩罚，使其学会了推理、自我验证和自我反思能力。自 1 月在 Hugging Face 发布以来，R1 已成为该平台最受欢迎的模型，下载量突破 1090 万次。

03｜QuestMobile 报告：豆包月活达 1.57 亿，超越 DeepSeek 登顶中国 AI App 榜首

9 月 16 日，QuestMobile 发布 2025 年 8 月 AI 应用行业数据显示，豆包以 1.5742 亿月活跃用户规模超越 DeepSeek，重回中国原生 AI App 月活榜首。豆包月活环比增长 6.6%，从第二名升至第一名，而曾居首位的 DeepSeek 虽仍处亿级规模，但因 -4.0% 的环比增速，排名下滑至第二位。腾讯元宝以 22.4% 的高环比增速稳坐第三，月活规模处于 1000 万至 1 亿量级。

此次排名变动反映出 AI 应用市场的激烈竞争格局。豆包凭借深度搜索、模式化写作微调以及 AI 音乐、视频等多元功能矩阵，成功拓展用户覆盖面。相比之下，DeepSeek 虽在深度推理能力上表现卓越，但其手动联网设置、响应速度较慢等问题影响了普通用户体验。值得注意的是，Kimi 环比下降 9.6% 位居第四，即梦 AI 在"AI 创作设计"赛道环比增长 10.8% 位居第五。业内分析认为，豆包背靠字节跳动完善的流量体系和商业化能力，在用户增长和留存上更具优势，而 DeepSeek 的技术优势更适合面向专业用户和开发者群体。

04｜阿里通义 DeepResearch 全面开源，30B 轻量模型性能超越 OpenAI

9 月 17 日，阿里通义实验室宣布全面开源通义 DeepResearch 技术方案，让 AI 从"能聊天"跃迁到"会做研究"。该项目针对数据、Agent 范式、训练、基础设施（Infra）、Test Time Scaling 进行了系统性创新，围绕问题完成完整的"研究闭环"，通过深度搜寻-多源交叉-结构化归纳-报告生成来产出有引用、可复现的调研报告。在 Humanity's Last Exam、BrowseComp、GAIA、xbench-DeepSearch、WebWalkerQA 五个权威 Benchmark 上，通义 DeepResearch Agent 30B-A3B 轻量级模型达到了 SOTA 效果。

该模型采用 MoE 架构，总参数约 30.5B、激活参数约 3.3B，支持 128K tokens 上下文，同时支持原生 ReAct 模式和 IterResearch "Heavy" 测试时扩展模式。通义 DeepResearch 凭借 3B 激活参数，性能超越基于 OpenAI o3、DeepSeek V3.1 和 Claude-4-Sonnet 等旗舰模型的 ReAct Agent。实际应用方面，通义 DeepResearch 已赋能高德地图和通义法睿两款应用，其中通义法睿在"法条引用相关性"和"案例引用相关性"两项关键指标上全面领先 OpenAI、Claude 等国际顶尖模型。该项目共发布 11 篇论文，凝聚近 10 个团队 8 个月的心血，全部模型权重采用 Apache 2.0 协议开源。

05｜阿里通义万相开源 Wan2.2-Animate，性能最强动作生成模型

9 月 19 日，阿里通义万相团队正式开源全新动作生成模型 Wan2.2-Animate，支持驱动人物、动漫形象和动物照片，可广泛应用于短视频创作、舞蹈模板生成、动漫制作等领域。该模型基于此前开源的 Animate Anyone 模型全面升级，在人物一致性、生成质量等关键指标上大幅提升，并首次实现单一模型同时支持动作模仿和角色扮演两种模式。在人类主观评测中，Wan2.2-Animate 甚至超越了以 Runway Act-two 为代表的闭源模型。

技术架构上，Wan2.2-Animate 将角色信息、环境信息和动作等规范到统一的表示格式，针对身体运动和脸部表情分别使用骨骼信号和隐式特征，配合动作重定向模块实现精准复刻。在角色模仿模式下，输入一张角色图片和参考视频即可将视频角色的动作表情迁移到图片角色；角色扮演模式则能在保留原视频动作、表情和环境基础上替换视频角色。团队还设计了独立的光照融合 LoRA，确保完美的光照融合效果。实测显示，该模型在视频生成质量、主体一致性和感知损失等指标上超越 StableAnimator、LivePortrait 等开源模型，成为目前性能最强的动作生成模型。模型已在 GitHub、HuggingFace 和魔搭社区开源，同时支持通过阿里云百炼平台 API 调用。

06｜小米开源 Xiaomi-MiMo-Audio，首次实现语音领域 ICL 少样本泛化

9 月 19 日，小米正式开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio，基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL（In-Context Learning）的少样本泛化能力。该模型在突破 7000 亿 token 阈值后出现显著的"能力涌现"，被业界认为是语音领域的"GPT-3 时刻"。在音频理解基准 MMAU 测试中，MiMo-Audio 超越谷歌闭源模型 Gemini-2.5-Flash；在 Big Bench Audio S2T 复杂推理任务中，同样超越 OpenAI 的 GPT-4o-Audio-Preview。

Xiaomi-MiMo-Audio 采用 patch 编码器 + 大语言模型 + patch 解码器的三段式结构，在 1 亿多小时多源语料上完成预训练。配备的 MiMo-Audio-Tokenizer 为 12 亿参数 Transformer，以 25Hz 频率运行，采用 8 层 RVQ（残差矢量量化）架构。该模型首次证明将语音无损压缩预训练扩展至 1 亿小时可"涌现"出跨任务泛化性，表现为 Few-Shot Learning 能力。小米同时开源了预训练版 MiMo-Audio-7B-Base 和指令微调版 MiMo-Audio-7B-Instruct，采用 Apache 2.0 协议授权，打破音频 AI 领域闭源垄断格局，上线首日即获 3000+ 开发者关注。

07｜OpenAI 发布 GPT-5-Codex，七小时持续编程刷新 Agent 极限

9 月 15 日，OpenAI 正式发布 GPT-5-Codex，这是专为智能体编程深度优化的 GPT-5 新版本，标志着 AI 编程助手从"辅助工具"向"自主工程师"的关键跃迁。该模型在 SWE-bench Verified 基准测试中取得 74.9% 的成绩，超越 o3 的 69.1%，同时在代码重构评测中从 GPT-5 的 33.9% 跃升至 51.3%。GPT-5-Codex 现已在 Codex CLI、IDE 扩展、GitHub 集成和 ChatGPT 移动端全面上线，Plus、Pro 和 Team 用户均可即刻体验。

GPT-5-Codex 的核心突破在于动态自适应推理能力——它可根据任务复杂度智能调节思考时间，简单任务如"列出目录文件"仅需几秒响应，而复杂重构任务则可独立运行超过 7 小时。相比使用路由器切换子模型的传统方案，该模型能在执行过程中实时判断是否需要延长推理时间，在保持交互流畅性的同时确保复杂任务的完成质量。相比 GPT-5，GPT-5-Codex 在底层 10% 用户交互中减少了 93.7% 的 token 消耗，大幅提升了成本效率。

08｜OpenAI 推出 GPT-5 思考时长调节功能，Pro 用户独享四档模式

9 月 17 日，OpenAI 在 X 平台宣布为 Plus、Pro 和 Business 用户推出全新的 Thinking 调整功能，允许用户自主控制 GPT-5 模型的思考时长。新功能提供四种思考模式：Standard（标准，新默认）平衡速度与智能、Extended（扩展，原默认）提供更深入响应、Light（轻量，Pro 专享）最快速回复、Heavy（深度，Pro 专享）深度分析。不同模式采用内部称为"juice"的算力级别系统，Standard 设置为级别 18，Extended 达到级别 64，而 Pro 专享的 Light 模式仅为级别 5，实现了速度与深度的精准控制。

这项更新直接回应了用户对响应延迟的反馈，持久性设置确保跨会话的一致用户体验，增强了 ChatGPT 作为商业级 AI 生产力工具的价值。Plus 和 Business 用户可通过模型选择器手动选择 GPT-5-Thinking 模式，每周使用上限为 3000 条消息。根据 Gartner 在 2024 年的预测，到 2027 年，80% 的 AI 交互将可定制速度，这将深刻影响医疗等行业——Light 模式的快速诊断可能挽救生命，而 Heavy 模式则确保复杂病例的全面分析。

09｜谷歌 Gemini 登陆桌面 Chrome，向美国所有用户免费开放

9 月 18 日，谷歌宣布将此前仅对 Google AI Pro 和 Google AI Ultra 订阅用户开放的 Gemini 功能，正式向美国所有 Mac 和 Windows 桌面 Chrome 用户免费开放。用户需将 Chrome 语言设置为英文，即可通过浏览器右上角的 Gemini 图标请求 AI 帮助理解任何网页上的复杂信息。Gemini 现已能够跨多个标签页工作，快速比较和总结多个网站的信息，例如在规划旅行时整合航班、酒店和活动信息，或在购物时对比不同产品。

更值得关注的是，谷歌正在为 Chrome 引入代理性（agentic）功能，未来几个月内，Gemini 将能够代替用户执行诸如预约理发、订购杂货等繁琐任务。Gemini 能够在网站上进行点击、滚动和输入操作，但在最终购买等关键步骤仍需用户确认。此外，Gemini 已深度整合 Calendar、YouTube、Maps 等谷歌应用，用户可在不离开当前页面的情况下安排会议、查看位置详情或定位 YouTube 视频中的特定片段。本月晚些时候，Chrome 地址栏还将支持 AI Mode 搜索，允许用户直接提出更长、更复杂的问题并获得 AI 响应。iOS 版 Chrome 也将很快内置 Gemini 功能。

10｜xAI 发布 Grok 4 Fast，推理成本降低 98%，免费开放全功能

9 月 20 日，马斯克旗下 xAI 公司正式推出新一代推理模型 Grok 4 Fast，在保持与旗舰版 Grok 4 相当推理能力的同时，平均减少 40% 的推理 tokens 使用量。该模型在企业与消费级任务中实现了 98% 的成本降幅，同时首次向所有用户（包括免费用户）开放完整功能访问权限。在数学推理基准测试中，Grok 4 Fast 在 AIME 2025 取得 92.0% 的通过率，GPQA Diamond 科学推理测试达到 85.7%，与原版 Grok 4 性能基本持平。

Grok 4 Fast 引入了统一权重架构，将推理（reasoning）和非推理（non-reasoning）模式整合到单一模型中，通过系统提示词即可灵活切换，有效降低了延迟和成本。该模型配备 200 万 tokens 的超长上下文窗口，并通过端到端工具使用强化学习进行优化，原生支持网页搜索、X 平台搜索及多跳浏览功能。

在 LMArena 测试平台上，Grok 4 Fast 以第一名的成绩登顶搜索任务排行榜，超越了 OpenAI 的 o3-search 和谷歌的 Gemini 2.5-pro-grounding。API 定价极具竞争力：输入每百万 tokens 仅需 0.20 美元，输出 0.50 美元，相比 GPT-5 和 Claude 等竞品便宜高达 47 倍。

11｜Notion 发布首个 AI Agent，20 分钟自主完成跨数百页复杂任务

9 月 18 日，Notion 在旧金山年度 Make with Notion 大会上正式发布首个 AI Agent，标志着该平台从 2.0 时代正式迈入 3.0 时代。新 Agent 能执行长达 20 分钟的自主工作，同时处理数百个页面，具备创建文档、构建数据库、跨工具搜索和执行多步骤工作流等能力。目前 Notion 年收入已突破 5 亿美元，超过 50% 的客户正在使用 AI 功能，该功能将免费提供给现有 Notion AI 订阅用户。

Notion Agent 与现有 AI 助手的核心区别在于其多步骤执行能力，可完成端到端的复杂工作流程。该系统配备记忆功能，能通过可编辑的 profile 文档学习用户的工作风格、引用规则和写作偏好，并随时间自动更新优化。在实际应用中，Agent 可从 Slack、邮件和 Google Drive 等多个来源汇总用户反馈生成分析报告，将会议笔记转换为提案和任务分配，或创建包含数百篇文章的新闻数据库。即将推出的 Custom Agents 可设置定时触发或事件触发，实现真正的自动化工作流，如每周自动生成相关文章列表、处理 IT 请求或更新项目进度。