AI日报 · 2025年5月09日|OpenAI Deep Research 上线 GitHub Connector Beta
1、OpenAI 任命 Fidji Simo 负责应用业务
继去年 11 月董事会风波后,OpenAI 继续强化治理与业务分工:公司 5 月 8 日宣布,原 Instacart 首席执行官、前 Meta 首席产品官 Fidji Simo 即日起出任 “应用 CEO”,统筹 ChatGPT、桌面与移动客户端、ChatGPT Teams、教育版及即将推出的定制应用商店等全部面向终端用户的产品线。[1]
Sam Altman 继续担任集团 CEO,但把日常运营、订阅增值、分发渠道合作和品牌营销职能交由 Simo 全权管理,以便其本人专注 GPT‑5 训练、安全治理框架、超级算力采购与长期 AGI 研究。公告特别指出,新角色与 CTO Mira Murati、首席科学家 Ilya Sutskever 等平行,向董事会直接述职,确保产品快速试错与研究安全审查双轨并行。此外,OpenAI 还将产品、增长与合规团队分别独立拆分,未来招聘将重点面向客户成功与区域生态伙伴,强化企业客户定制与垂直场景渗透能力。该调整被业内解读为 “研究—应用 双中枢” 组织模式的最终成型:一方面保持研究端快速演进,以维持模型领先;另一方面引入具备 C 端规模化经验的高管,把 ChatGPT 的 1.4 亿周活跃用户转化为持续付费流量,并在教育、搜索和办公领域构建更完整的生态闭环。分析人士预计,新设岗位将提升业务决策速度,为即将到来的 GPT‑4o 全面覆盖 Plus 与 Teams 订阅奠定运营基础。[1]
2、Deep Research 上线 GitHub Connector Beta
OpenAI Developers 团队于 5 月 8 日凌晨在 X 平台发布消息,面向 ChatGPT Plus 与 Teams 订阅用户开放 “Deep Research” 模块首个 GitHub Connector(Beta)功能。[2]
用户在聊天界面点击 “Research” 标签后,可直接粘贴任何公开 GitHub 仓库链接,系统会自动爬取 README、源码与 issues,并用 GPT‑4o 生成结构化综述,包括功能解析、依赖树、常见漏洞与社区活跃度摘要;对大型仓库,模型会分段增量抓取并在后台异步更新。
本次 Beta 侧重检索与信息整理,暂未开放 Pull Request 编写与自动修复,但官方表示将在后续迭代引入 “代码治理代理” 使用情景,以辅助开发者批量重构与测试。为了避免滥用,单账户每日调用次数上限暂定 100 次,单仓库最大扫描文件数 10 000 个。OpenAI 提醒用户遵守目标仓库 License,暂不支持扫描私有库。社区普遍认为,该能力将进一步压缩初学者熟悉新项目的成本,也将与 Copilot Workspace 形成直接竞争,对 AI 代码搜索赛道影响深远。[2]
3、Gemini 2.5 支持隐式缓存降低 75% 费用
Google Developers Blog 公布,Gemini 2.5 Pro 与 Flash 版本正式加入 “隐式缓存(Implicit Caching)” 机制。[3]
当开发者在 10 分钟窗口内多次提交前缀完全相同、后缀变化不超过 256 Token 的请求时,系统会自动复用已存在的前半段 KV 缓存,仅对增量部分计费并加速推理。官方示例显示,典型文档问答应用的 Token 费用可降至原先 25%,平均响应延迟缩短 41%。为降低门槛,Google 将 Pro 版的缓存触发阈值下调至 2 048 Token,Flash 版降至 1 024 Token,同时在 Vertex AI 及 PaLM Text API 保持相同调用方式,避免迁移成本。若需强制刷新上下文,用户可在 JSON 请求头加入 "cache-control": "no-cache"
。此外,新版本还修复了上周社区报告的 “过早裁剪长引用” 问题,并将 safety_settings
支持的策略枚举扩展至 18 种,以符合即将生效的欧盟 AI 法案要求。Google 强调,隐式缓存默认启用,后台定期清理匿名缓存区,企业用户可在组织层面查看命中率与节省统计。业内评论称,此举将 Gemini 生态在成本敏感型场景(客服、低频文档生成)中的竞争力拉近至 Claude 3 Haiku,并可能推动 LLM 供应商在计费策略上出现 “分层缓存折扣” 的新常态。[3]
4、NVIDIA LM Studio 0.3.15 提升 RTX 本地推理性能
NVIDIA 于 5 月 8 日在官方博客放出 LM Studio 0.3.15 更新包,主打两项改进。[4] 首先,内嵌 CUDA 12.8 Runtime 与 cuDNN 9,配合 Flash Attention‑2,可让 RTX 40 系列显卡在 llama.cpp 推理时显存访问效率提升 30%,实测 7B Q4_K_M 量化模型吞吐从 82 tokens/s 提升至 108 tokens/s;在新发布的 RTX 5080 试验卡上,官方实验对 13B Q5 模型也录得约 27–35% 的综合提速。其次,应用侧增加 tool_choice 编辑器与 System Prompt 版本管理,开发者可一次性保存多组工具链 JSON 方案并在桌面端快速切换,方便本地 Agent 调用浏览器、终端或自定义脚本。界面层面,NVIDIA 重新设计 “推理配置” 面板,支持自动推荐 VRAM Optimal Preset,减少初学者手动调参。更新日志还提到,未来将支持 Blackwell 架构的可变精度张量核心,推理效率预计再增 20% 以上。随着安全性考量和隐私法规强化,本地大模型推理需求日益增长,NVIDIA 通过持续优化桌面工具链,把 GPU 与 llama.cpp、vLLM、GGUF 等开源生态更紧密结合,形成端侧推理的护城河。[4]
5、Perplexity 与 Wiley 合作接入学术内容
Perplexity 5 月 8 日宣布与国际学术出版巨头 Wiley 签订多年协议,将其期刊与教材全文数据库接入 Answer Engine。[5]
在新模式下,K‑12、大学及研究机构订阅用户可直接在 Perplexity 搜索框输入课程名或 DOI,系统会以 GPT‑4 附带引用方式返回章节摘要、关键图表与题目解析,保证所有引用均链接回 Wiley 官方 PDF 页面,确保版权合规。为保护出版商收益,Perplexity 实行 “动态配额” 方案:用户可免费预览 2% 摘要内容,全文需登录学术机构账户或按条计费解锁。双方还计划在今年 Q4 共建 “AI Teaching Kits”,提供自动生成的教学大纲、课堂测验与讨论题模板。教育技术分析师指出,这标志着学术出版商从传统付费墙向 “生成式引用” 转型的又一步,亦为 Perplexity 拓展高校市场增加谈判筹码。不同于 GPT‑4o 插件模式,Perplexity 采用自研 Retrieval Pipeline,对大型文本库进行图谱化索引,并在请求阶段为大语言模型生成稀疏表示,官方称索引更新延迟控制在 24 小时内。此次合作预计覆盖 Wiley 旗下 1 700 余本期刊和 25 000+ 教材,受众覆盖全球 2 000 多所高校。[5]
6、Mistral 发布 Le Chat Enterprise 企业版
法国初创 Mistral AI 5 月 8 日面向企业客户推出 Le Chat Enterprise,核心模型升级为新发布的 Mistral Medium 3,参数规模约 70B,使用 Grouped Query Attention 保持吞吐优势。[6] 企业版支持 Azure Europe、西欧本地数据中心以及专用私有云部署,通过 SAML 2.0、Okta、Entra ID 实现组织级 SSO,并原生对接 Microsoft SharePoint、Google Workspace、Salesforce 与 PostgreSQL 等数据源。Mistral 提供行级加密与细粒度日志审计,满足 GDPR 与 ISO 27001 合规要求;对于法国公共部门可选择在 SecNumCloud 认证机房单租户托管。定价方面,按席位收费,每月 40 欧元起,包含 1 500k 输入 Token 与 500k 输出 Token,超额部分按 1k Token 计费;若选本地部署,需要一次性硬件安装服务费。企业版还引入 “Unstructured Connector”,可对扫描 PDF、图片发票进行 OCR 解析,并通过 RAG Pipeline 实现上下文对齐。Mistral 表示,该产品定位欧洲市场的私有数据主权需求,与 OpenAI GPT‑4o Enterprise 有所区隔,将通过与 Orange Business、Capgemini 等渠道伙伴分销。市场观察者认为,凭借本土合规优势与可私有化部署能力,Mistral 有望在欧盟中大型企业中抢占一席之地。[6]
7、Anthropic 推出 Claude Web Search API
Anthropic 官方博客于 5 月 8 日宣布 Web Search API 正式上线,与現行 Claude 3 系列模型同价计费。[7] 该 API 允许开发者为 Claude 调用实时互联网检索,同时返回点击可追踪的引用链接,并提供自动摘要与冗余合并功能。接口层面,新增 search_scope
参数,可限制搜索域名或设定地理偏好;系统默认保留最近 30 天的缓存,实现重复查询降费。官方给出的案例显示,RAG 问答平均检索时间约 1.4 秒,整体延迟仍低于第三方搜索插件。为了避免生成侵权内容,Anthropic 与 Common Crawl 合作构建黑名单过滤,且不索引付费墙全文。开发者社区关注的 “长链跳转率” 问题已通过改进 URL 解析算法解决,同时开放分页阈值调节,支持返回最多 50 条引用。产品说明强调 Web Search API 每分钟限速 20 请求,后续将视实际负载调整。业内人士认为,该能力将与 OpenAI 的 “Browse with Bing” 及 Perplexity API 形成正面竞争,为构建新闻监测、合规审查、情报分析等场景提供更多选择。[7]
8、Claude 3.5 Sonnet 短暂错误已修复
Anthropic 状态页记录显示,北京时间 5 月 8 日 01:17 至 02:06 期间,Claude 3.5 Sonnet 出现突发 5xx 错误;同日 21:34 至 22:12 再次出现约 7% 调用失败。[8] 官方工程团队在排查中发现,问题源于底层存储节点扩容时的流量削峰逻辑缺陷,已在 22:30 部署修复补丁并重跑健康检查。Anthropic 在事后复盘中披露,为防止相似回归,将存储层限流阈值调低 20%,并增加 Circuit Breaker 熔断策略,未来所有生产级更新需通过灰度发布通道。虽然事故持续时间不足一小时,但部分依赖 Sonnet 的第三方在线客服与文档摘要服务受到间歇性中断;官方建议客户在长期任务中开启重试并容忍幂等。该事件再次凸显对外托管 LLM 服务在扩容阶段的脆弱性,也促使开发者关注服务可用性监测与弹性重试机制设计的重要性。[8]
9、微软禁止员工使用 DeepSeek 应用
在 5 月 8 日美国参议院司法委员会 AI 监管听证会上,微软总裁 Brad Smith 被问及对海外 AI 应用的内部管理策略时承认,已将中国团队开发的 DeepSeek Chat 应用列入封禁清单,禁止员工通过公司账号使用或在自家应用商店上架。[9] Smith 解释,禁令基于两点考虑:其一,DeepSeek 对模型输入日志与埋点数据的域外存储可能导致商业机密泄露;其二,品牌信息可能被利用进行不当宣传,产生合规与声誉风险。微软同时表示,公司已建立 AI 应用风险分级与审批流程,使用需经过 MS‑SEC 安全评估,且所有请求必须通过企业代理记录。DeepSeek 官方暂未回应。分析指出,随着跨境数据安全要求趋严,大型科技公司对外部生成式 AI 工具的 whitelist‑based 策略将变得更加常态化,也为企业提供商发展自营模型与私有部署方案创造机会。[9]
10、NVIDIA 助力林火预测与处方烧
NVIDIA 博客 5 月 8 日报道,美国初创 Fuego AI、澳大利亚 Silvanet 等多家公司利用 NVIDIA RTX GPU 与 CUDA 加速的多模态模型,对卫星与无人机影像执行林火早期识别和处方烧规划。[10] 部署在 AWS G5 实例上的 Vision Transformer‑Fusion 模型可综合 NDVI、气象和地形数据,实现最远 800 公里、最长 7 天的火情概率预估,平均召回率达 0.92。另一方案使用 Jetson Orin Nano SPI,嵌入林区监测杆塔,实时推理功耗低于 15 W,并通过 NV‑JPEG 解码 Pipeline,将单帧处理延迟控制在 40 毫秒。官方案例指出,加州某试点在一个火季通过精确处方烧减少 12% 潜在可燃物,年度巡护成本降低约 40%。NVIDIA 提供的 TAO Toolkit 与 cuOpt 路径规划库也被用于自动生成应急撤离路线。研究人员认为,该实践展示了 AI 与 edge‑to‑cloud 流水线在环境治理中的价值,并与 NVIDIA 对可持续计算与社会责任的长期承诺相呼应。[10]
参考资料
[1] https://openai.com/index/leadership-expansion-with-fidji-simo/
[2] https://x.com/OpenAIDevs/status/1920556386083102844
[3] https://developers.googleblog.com/en/gemini-2-5-models-now-support-implicit-caching/
[4] https://blogs.nvidia.com/blog/rtx-ai-garage-lmstudio-llamacpp-blackwell/
[5] https://www.perplexity.ai/hub/blog/perplexity-partners-with-wiley-to-power-educational-ai-search
[6] https://mistral.ai/news/le-chat-enterprise
[7] https://www.anthropic.com/news/introducing-web-search-on-the-anthropic-api
[8] https://status.anthropic.com/
[9] https://www.reuters.com/world/china/microsoft-doesnt-allow-its-employees-use-chinas-deepseek-president-2025-05-08/
[10] https://blogs.nvidia.com/blog/2025/05/08/wildfire-prevention-ai-startups/
以上为今日重点 AI 新闻,欢迎关注后续更新。