《AI智脉速递》2025 年 9月22 日 - 10月7日
-
OpenAI Sora 2 登顶免费榜:AI 视频终于懂物理规律
10 月 1 日 OpenAI 发布 Sora 2 及专属 App,号称 “最强想象力引擎”,突破前作局限实现真实物理交互模拟(如滑板翻转动态)。3 日 Sora App 登顶 App Store 免费榜,同日推出的 Pro 版支持 15 秒高分辨率视频生成,虽耗时 20-30 分钟,却点燃商业电影创作期待。
-
Anthropic 官宣 “全球最佳编码模型”:Claude Sonnet 4.5 能写生产级代码
9 月 30 日 Anthropic 发布新一代模型,在 SWE-bench Verified 测试中登顶,编码能力可支撑 “生产级应用开发” 而非原型创作。其在网络安全、金融等专业领域表现突出,可靠性较前代实现质的飞跃。
-
智谱 GLM 4.6 打破垄断:国产芯片跑赢国外旗舰,成本降 30%
9 月 30 日发布的 GLM 4.6 在编程任务中超越 Claude Sonnet 4,首次实现寒武纪、摩尔线程等国产芯片的 FP8+Int4 混合量化部署。上下文窗口扩展至 200K,真实任务 token 消耗减少 30%,重塑国产代码模型竞争力。
-
阿里 Qwen3-Omni 横空出世:全球首个端到端全模态 AI 能 “听看说同步”
9 月 23 日阿里发布的 Qwen3-Omni 可统一处理文本、图像、音频、视频四模态输入,实时生成语音或文本输出。支持多语言方言,拟人音色自然,在 AR/VR、车载等沉浸式场景展现落地潜力。
-
DeepSeek API 成本腰斩:稀疏注意力模型让开发者 “用得起”
9 月 29 日 DeepSeek 推出 V3.2-Exp 实验模型,引入 Sparse Attention 稀疏机制优化长文本效率。同步宣布 API 价格直降 50% 以上,官方全平台更新,大幅降低中小开发者的 AI 集成门槛。
-
豆包视觉模型突破:看图能 “动手”,推理过程全透明
9 月 30 日发布的 Doubao-Seed-1.6-vision 具备 VisualCoT 能力,可对图像裁剪、旋转后融入思维链推理。输出可解释性显著提升,且功能原生化无需依赖第三方模型,重塑视觉 AI 交互逻辑。
-
数字人能跑能演了!即梦 OmniHuman 1.5 解锁影视级互动
9 月 30 日即梦发布的 1.5 版本打破数字人固定姿势限制,可根据音频情绪演绎角色动作,支持跑跳、多人互动及镜头切换。与即梦 4.0 结合可生成高品质 MV,影视、直播场景应用潜力爆发。
-
腾讯开源 “工业级 3D 生成工具”:混元模型免费解锁游戏 / AR 生产链
9 月 26 日腾讯开源混元 3D-Omni/Part 模型,9 月 28 日再发 80B 参数的原生多模态生图模型 3.0。两类模型均开放推理代码与权重,彻底降低 3D 建模、游戏美术的 AI 开发门槛。
-
Meta 颠覆编码逻辑:Code World Model 先 “预演” 再写代码,缺陷修复率 65.8%
9 月 25 日 Meta 发布图灵奖得主 LeCun 支持的 CWM 模型,以 32B 参数模拟程序员思考流程 —— 先预测代码执行效果再反向编程。在开源项目缺陷修复评测中获 65.8% 高分,跻身开源模型第一梯队。
-
美团开源 “省 Token 神器”:LongCat 模型准确率 90%,效率提升 64.5%
9 月 22 日美团发布的 LongCat-Flash-Thinking 模型,在 AIME25 框架下实现高效工具调用。确保 90% 准确率的同时,较传统方案节省 64.5% Token 消耗,已全量开源供企业落地使用。