当前位置：首页 > news >正文

AI日报 · 2025年5月15日｜GPT-4.1 登陆 ChatGPT

news 2025/10/17 2:45:26

AI日报 · 2025年5月15日｜GPT-4.1 登陆 ChatGPT

1、OpenAI 在 ChatGPT 全面开放 GPT-4.1 与 GPT-4.1 mini

北京时间 5 月 14 日晚，OpenAI 在官方 Release Notes 中宣布：专为复杂代码与精细指令场景打造的 GPT-4.1 正式加入 ChatGPT，Plus／Pro／Team 付费用户即日起可在模型下拉菜单中直接调用；企业版与 Edu 版将于数周内接入。更新同步推出 GPT-4.1 mini——在保持推理深度的同时大幅缩短响应延迟，取代原 GPT-4o mini 成为免费层超额 fallback 模型。
在这里插入图片描述

OpenAI 同时上线「Safety Evaluations Hub」，公开 GPT-4.1 系列最新安全基准数据，以期提升外部透明度。官方强调，两款模型沿用 GPT-4o 相同速率限制，且在编码、网页开发与工具调用链路上具备更高稳健度，预计将成为开发者与高级用户日常工作的“主力编译器”。[1]

2、API 直接吃 PDF：OpenAI 推出原生文件输入能力

5 月 15 日，OpenAI 在开发者社区公告板发布 「Direct PDF file input now supported in the API」，首次开放 PDF 作为 file_id 直传格式，无需预先转为文本或多页图片。新能力意味着开发者可在一次调用中上传、解析并让模型对复杂 PDF 结构（目录、表格、批注）进行语义检索、摘要或链式推理。官方示例还展示了结合 o4-mini-high 进行长链路推理的最佳实践。此举将进一步降低文档智能化门槛，为 RAG、合同审核、科研论文导航等场景提供即插即用的后端能力。[2]

3、Google DeepMind 发布 AlphaEvolve：Gemini 驱动的算法设计代理

DeepMind 于 5 月 14 日深夜（PDT）发布博客，推出 AlphaEvolve —— 基于 Gemini 2.5 系列的跨语言多模态编码代理。
在这里插入图片描述

官方称，AlphaEvolve 通过自监督进化搜索结合强化学习，可在数小时内自动生成高质量近似最优算法，并支持 Python／C++/Rust 等语言输出；内部基准显示在图着色、约束满足与半定规划等 12 个经典难题上平均超越人类专家基线 8.3 %。团队还开源了评测框架与部分搜索日志，邀请学术界共同验证可重复性。该项目被视作 AlphaGo 系列“搜索+RL”路线在通用算法设计上的首次产品化落地。[3]

4、Hugging Face × Kaggle：模型一键直连笔记本生态

开源社区旗舰 Hugging Face 5 月 14 日宣布与 Google Kaggle 达成深度集成：即日起，Hugging Face Hub 模型页新增 “Open in Kaggle” 按钮，用户可一键生成预填代码的 Kaggle Notebook；反向地，Kaggle 模型页也同步展示 Hub 元数据与 Spaces 示例。双方还自动为 Notebook 中引用且尚未托管的模型创建 Hub Entry，打通社区示例与数据血缘。官方博客指出，该集成后续将支持离线竞赛场景与私有模型令牌透传，目标是“让任何开发者在零配置下练手最前沿开源 LLM”。[4]

5、DeepSeek-V3 硬件共设论文披露 2 048 张 H800 GPU 训练细节

DeepSeek 团队于 5 月 14 日 20:39 （北京时间）在 arXiv 发布论文《Insights into DeepSeek-V3》。
在这里插入图片描述

“硬件–模型协同”成为核心主题：团队针对 H800 GPU 显存与带宽限制提出 Multi-head Latent Attention、FP8 混精度与多平面网络拓扑，将 128 k 上下文训练成本压缩 43 %。文中还公开了 2 048 卡集群 55 天预训练总耗 $5.6 M 的资源曲线，为大规模推理模型节能给出硬件参考。论文透露 DeepSeek-V3/R1 在推理阶段已内置动态混合专家路由，指向下一代「R2 多代理协同」的实验路线。[5]

6、Qwen 3 技术报告：思考模式与非思考模式合一

阿里 Qwen 团队 5 月 14 日深夜释出 Qwen 3 Technical Report。Qwen 3 覆盖 0.6B-235B 多尺度密集与 MoE 版本，首创“Thinking Mode / Non-Thinking Mode 动态切换”与 思考预算机制：模型可根据任务复杂度自适应调用专家数与计算步长，在保持延迟可控的同时提升多步推理准确率。团队声称，旗舰 235B-A22B MoE 模型在 MATH、CoderBench 与 Agent Arena 多项基准上全面领先同尺寸闭源模型，并扩充至 119 种语言方言。全部权重 Apache 2.0 开源。[6]

7、OpenAI 上线「Safety Evaluations Hub」集中公开模型安全指标

继 GPT-4.1 入驻 ChatGPT 之际，OpenAI 同步推出 Safety Evaluations Hub。该站点汇总 GPT-4o、o-series、GPT-4.1 以及未来版本的越权输出、拒答率、隐私泄漏等多维评测数据，并将随模型迭代定期更新。官方表示此举旨在让外界更直观追踪模型风险曲线、促进社区复现与外部红队反馈，从而加速内部安全对齐流程。业内人士认为，OpenAI 此番“类 Model Card 即时化”策略，或将成为高强度监管语境下的大模型新合规范式。[7]

参考资料

[1] ChatGPT — Release Notes，更新日期：2025-05-14，OpenAI Help Center.
[2] Direct PDF file input now supported in the API，2025-05-15，OpenAI Developer Forum Announcements.
[3] AlphaEvolve: A Gemini-Powered Coding Agent for Designing Advanced Algorithms，2025-05-14，Google DeepMind Blog.
[4] Improving Hugging Face Model Access for Kaggle Users，2025-05-14，Hugging Face Blog.
[5] Zhao C. et al., “Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures”，arXiv preprint arXiv:2505.09343，2025-05-14.
[6] Qwen Team, “Qwen 3 Technical Report”，arXiv preprint arXiv:2505.09388，2025-05-14.
[7] Safety Evaluations Hub，OpenAI 官方网站，访问时间：2025-05-15.

以上为今日重点 AI 新闻，欢迎关注后续更新。

查看全文

http://www.dtcms.com/a/192536.html