当前位置：首页 > news >正文

AI日报 · 2025年5月09日｜OpenAI Deep Research 上线 GitHub Connector Beta

news 2025/9/15 15:05:47

在这里插入图片描述

1、OpenAI 任命 Fidji Simo 负责应用业务

继去年 11 月董事会风波后，OpenAI 继续强化治理与业务分工：公司 5 月 8 日宣布，原 Instacart 首席执行官、前 Meta 首席产品官 Fidji Simo 即日起出任 “应用 CEO”，统筹 ChatGPT、桌面与移动客户端、ChatGPT Teams、教育版及即将推出的定制应用商店等全部面向终端用户的产品线。[1]
在这里插入图片描述

Sam Altman 继续担任集团 CEO，但把日常运营、订阅增值、分发渠道合作和品牌营销职能交由 Simo 全权管理，以便其本人专注 GPT‑5 训练、安全治理框架、超级算力采购与长期 AGI 研究。公告特别指出，新角色与 CTO Mira Murati、首席科学家 Ilya Sutskever 等平行，向董事会直接述职，确保产品快速试错与研究安全审查双轨并行。此外，OpenAI 还将产品、增长与合规团队分别独立拆分，未来招聘将重点面向客户成功与区域生态伙伴，强化企业客户定制与垂直场景渗透能力。该调整被业内解读为 “研究—应用双中枢” 组织模式的最终成型：一方面保持研究端快速演进，以维持模型领先；另一方面引入具备 C 端规模化经验的高管，把 ChatGPT 的 1.4 亿周活跃用户转化为持续付费流量，并在教育、搜索和办公领域构建更完整的生态闭环。分析人士预计，新设岗位将提升业务决策速度，为即将到来的 GPT‑4o 全面覆盖 Plus 与 Teams 订阅奠定运营基础。[1]

2、Deep Research 上线 GitHub Connector Beta

OpenAI Developers 团队于 5 月 8 日凌晨在 X 平台发布消息，面向 ChatGPT Plus 与 Teams 订阅用户开放 “Deep Research” 模块首个 GitHub Connector（Beta）功能。[2]
在这里插入图片描述

用户在聊天界面点击 “Research” 标签后，可直接粘贴任何公开 GitHub 仓库链接，系统会自动爬取 README、源码与 issues，并用 GPT‑4o 生成结构化综述，包括功能解析、依赖树、常见漏洞与社区活跃度摘要；对大型仓库，模型会分段增量抓取并在后台异步更新。
在这里插入图片描述

本次 Beta 侧重检索与信息整理，暂未开放 Pull Request 编写与自动修复，但官方表示将在后续迭代引入 “代码治理代理” 使用情景，以辅助开发者批量重构与测试。为了避免滥用，单账户每日调用次数上限暂定 100 次，单仓库最大扫描文件数 10 000 个。OpenAI 提醒用户遵守目标仓库 License，暂不支持扫描私有库。社区普遍认为，该能力将进一步压缩初学者熟悉新项目的成本，也将与 Copilot Workspace 形成直接竞争，对 AI 代码搜索赛道影响深远。[2]

3、Gemini 2.5 支持隐式缓存降低 75% 费用

Google Developers Blog 公布，Gemini 2.5 Pro 与 Flash 版本正式加入 “隐式缓存（Implicit Caching）” 机制。[3]
在这里插入图片描述

当开发者在 10 分钟窗口内多次提交前缀完全相同、后缀变化不超过 256 Token 的请求时，系统会自动复用已存在的前半段 KV 缓存，仅对增量部分计费并加速推理。官方示例显示，典型文档问答应用的 Token 费用可降至原先 25%，平均响应延迟缩短 41%。为降低门槛，Google 将 Pro 版的缓存触发阈值下调至 2 048 Token，Flash 版降至 1 024 Token，同时在 Vertex AI 及 PaLM Text API 保持相同调用方式，避免迁移成本。若需强制刷新上下文，用户可在 JSON 请求头加入 "cache-control": "no-cache"。此外，新版本还修复了上周社区报告的 “过早裁剪长引用” 问题，并将 safety_settings 支持的策略枚举扩展至 18 种，以符合即将生效的欧盟 AI 法案要求。Google 强调，隐式缓存默认启用，后台定期清理匿名缓存区，企业用户可在组织层面查看命中率与节省统计。业内评论称，此举将 Gemini 生态在成本敏感型场景（客服、低频文档生成）中的竞争力拉近至 Claude 3 Haiku，并可能推动 LLM 供应商在计费策略上出现 “分层缓存折扣” 的新常态。[3]

4、NVIDIA LM Studio 0.3.15 提升 RTX 本地推理性能

NVIDIA 于 5 月 8 日在官方博客放出 LM Studio 0.3.15 更新包，主打两项改进。[4] 首先，内嵌 CUDA 12.8 Runtime 与 cuDNN 9，配合 Flash Attention‑2，可让 RTX 40 系列显卡在 llama.cpp 推理时显存访问效率提升 30%，实测 7B Q4_K_M 量化模型吞吐从 82 tokens/s 提升至 108 tokens/s；在新发布的 RTX 5080 试验卡上，官方实验对 13B Q5 模型也录得约 27–35% 的综合提速。其次，应用侧增加 tool_choice 编辑器与 System Prompt 版本管理，开发者可一次性保存多组工具链 JSON 方案并在桌面端快速切换，方便本地 Agent 调用浏览器、终端或自定义脚本。界面层面，NVIDIA 重新设计 “推理配置” 面板，支持自动推荐 VRAM Optimal Preset，减少初学者手动调参。更新日志还提到，未来将支持 Blackwell 架构的可变精度张量核心，推理效率预计再增 20% 以上。随着安全性考量和隐私法规强化，本地大模型推理需求日益增长，NVIDIA 通过持续优化桌面工具链，把 GPU 与 llama.cpp、vLLM、GGUF 等开源生态更紧密结合，形成端侧推理的护城河。[4]

5、Perplexity 与 Wiley 合作接入学术内容

Perplexity 5 月 8 日宣布与国际学术出版巨头 Wiley 签订多年协议，将其期刊与教材全文数据库接入 Answer Engine。[5]

在新模式下，K‑12、大学及研究机构订阅用户可直接在 Perplexity 搜索框输入课程名或 DOI，系统会以 GPT‑4 附带引用方式返回章节摘要、关键图表与题目解析，保证所有引用均链接回 Wiley 官方 PDF 页面，确保版权合规。为保护出版商收益，Perplexity 实行 “动态配额” 方案：用户可免费预览 2% 摘要内容，全文需登录学术机构账户或按条计费解锁。双方还计划在今年 Q4 共建 “AI Teaching Kits”，提供自动生成的教学大纲、课堂测验与讨论题模板。教育技术分析师指出，这标志着学术出版商从传统付费墙向 “生成式引用” 转型的又一步，亦为 Perplexity 拓展高校市场增加谈判筹码。不同于 GPT‑4o 插件模式，Perplexity 采用自研 Retrieval Pipeline，对大型文本库进行图谱化索引，并在请求阶段为大语言模型生成稀疏表示，官方称索引更新延迟控制在 24 小时内。此次合作预计覆盖 Wiley 旗下 1 700 余本期刊和 25 000+ 教材，受众覆盖全球 2 000 多所高校。[5]

6、Mistral 发布 Le Chat Enterprise 企业版

法国初创 Mistral AI 5 月 8 日面向企业客户推出 Le Chat Enterprise，核心模型升级为新发布的 Mistral Medium 3，参数规模约 70B，使用 Grouped Query Attention 保持吞吐优势。[6] 企业版支持 Azure Europe、西欧本地数据中心以及专用私有云部署，通过 SAML 2.0、Okta、Entra ID 实现组织级 SSO，并原生对接 Microsoft SharePoint、Google Workspace、Salesforce 与 PostgreSQL 等数据源。Mistral 提供行级加密与细粒度日志审计，满足 GDPR 与 ISO 27001 合规要求；对于法国公共部门可选择在 SecNumCloud 认证机房单租户托管。定价方面，按席位收费，每月 40 欧元起，包含 1 500k 输入 Token 与 500k 输出 Token，超额部分按 1k Token 计费；若选本地部署，需要一次性硬件安装服务费。企业版还引入 “Unstructured Connector”，可对扫描 PDF、图片发票进行 OCR 解析，并通过 RAG Pipeline 实现上下文对齐。Mistral 表示，该产品定位欧洲市场的私有数据主权需求，与 OpenAI GPT‑4o Enterprise 有所区隔，将通过与 Orange Business、Capgemini 等渠道伙伴分销。市场观察者认为，凭借本土合规优势与可私有化部署能力，Mistral 有望在欧盟中大型企业中抢占一席之地。[6]

7、Anthropic 推出 Claude Web Search API

Anthropic 官方博客于 5 月 8 日宣布 Web Search API 正式上线，与現行 Claude 3 系列模型同价计费。[7] 该 API 允许开发者为 Claude 调用实时互联网检索，同时返回点击可追踪的引用链接，并提供自动摘要与冗余合并功能。接口层面，新增 search_scope 参数，可限制搜索域名或设定地理偏好；系统默认保留最近 30 天的缓存，实现重复查询降费。官方给出的案例显示，RAG 问答平均检索时间约 1.4 秒，整体延迟仍低于第三方搜索插件。为了避免生成侵权内容，Anthropic 与 Common Crawl 合作构建黑名单过滤，且不索引付费墙全文。开发者社区关注的 “长链跳转率” 问题已通过改进 URL 解析算法解决，同时开放分页阈值调节，支持返回最多 50 条引用。产品说明强调 Web Search API 每分钟限速 20 请求，后续将视实际负载调整。业内人士认为，该能力将与 OpenAI 的 “Browse with Bing” 及 Perplexity API 形成正面竞争，为构建新闻监测、合规审查、情报分析等场景提供更多选择。[7]

8、Claude 3.5 Sonnet 短暂错误已修复

Anthropic 状态页记录显示，北京时间 5 月 8 日 01:17 至 02:06 期间，Claude 3.5 Sonnet 出现突发 5xx 错误；同日 21:34 至 22:12 再次出现约 7% 调用失败。[8] 官方工程团队在排查中发现，问题源于底层存储节点扩容时的流量削峰逻辑缺陷，已在 22:30 部署修复补丁并重跑健康检查。Anthropic 在事后复盘中披露，为防止相似回归，将存储层限流阈值调低 20%，并增加 Circuit Breaker 熔断策略，未来所有生产级更新需通过灰度发布通道。虽然事故持续时间不足一小时，但部分依赖 Sonnet 的第三方在线客服与文档摘要服务受到间歇性中断；官方建议客户在长期任务中开启重试并容忍幂等。该事件再次凸显对外托管 LLM 服务在扩容阶段的脆弱性，也促使开发者关注服务可用性监测与弹性重试机制设计的重要性。[8]

9、微软禁止员工使用 DeepSeek 应用

在 5 月 8 日美国参议院司法委员会 AI 监管听证会上，微软总裁 Brad Smith 被问及对海外 AI 应用的内部管理策略时承认，已将中国团队开发的 DeepSeek Chat 应用列入封禁清单，禁止员工通过公司账号使用或在自家应用商店上架。[9] Smith 解释，禁令基于两点考虑：其一，DeepSeek 对模型输入日志与埋点数据的域外存储可能导致商业机密泄露；其二，品牌信息可能被利用进行不当宣传，产生合规与声誉风险。微软同时表示，公司已建立 AI 应用风险分级与审批流程，使用需经过 MS‑SEC 安全评估，且所有请求必须通过企业代理记录。DeepSeek 官方暂未回应。分析指出，随着跨境数据安全要求趋严，大型科技公司对外部生成式 AI 工具的 whitelist‑based 策略将变得更加常态化，也为企业提供商发展自营模型与私有部署方案创造机会。[9]

10、NVIDIA 助力林火预测与处方烧

NVIDIA 博客 5 月 8 日报道，美国初创 Fuego AI、澳大利亚 Silvanet 等多家公司利用 NVIDIA RTX GPU 与 CUDA 加速的多模态模型，对卫星与无人机影像执行林火早期识别和处方烧规划。[10] 部署在 AWS G5 实例上的 Vision Transformer‑Fusion 模型可综合 NDVI、气象和地形数据，实现最远 800 公里、最长 7 天的火情概率预估，平均召回率达 0.92。另一方案使用 Jetson Orin Nano SPI，嵌入林区监测杆塔，实时推理功耗低于 15 W，并通过 NV‑JPEG 解码 Pipeline，将单帧处理延迟控制在 40 毫秒。官方案例指出，加州某试点在一个火季通过精确处方烧减少 12% 潜在可燃物，年度巡护成本降低约 40%。NVIDIA 提供的 TAO Toolkit 与 cuOpt 路径规划库也被用于自动生成应急撤离路线。研究人员认为，该实践展示了 AI 与 edge‑to‑cloud 流水线在环境治理中的价值，并与 NVIDIA 对可持续计算与社会责任的长期承诺相呼应。[10]

参考资料

[1] https://openai.com/index/leadership-expansion-with-fidji-simo/
[2] https://x.com/OpenAIDevs/status/1920556386083102844
[3] https://developers.googleblog.com/en/gemini-2-5-models-now-support-implicit-caching/
[4] https://blogs.nvidia.com/blog/rtx-ai-garage-lmstudio-llamacpp-blackwell/
[5] https://www.perplexity.ai/hub/blog/perplexity-partners-with-wiley-to-power-educational-ai-search
[6] https://mistral.ai/news/le-chat-enterprise
[7] https://www.anthropic.com/news/introducing-web-search-on-the-anthropic-api
[8] https://status.anthropic.com/
[9] https://www.reuters.com/world/china/microsoft-doesnt-allow-its-employees-use-chinas-deepseek-president-2025-05-08/
[10] https://blogs.nvidia.com/blog/2025/05/08/wildfire-prevention-ai-startups/

以上为今日重点 AI 新闻，欢迎关注后续更新。