当前位置：首页 > news >正文

AI科技前沿动态：5.26 - 5.30 一周速览

news 2025/8/4 16:05:20

在这里插入图片描述

⭐ 本周热点
- 💡 阿里巴巴开源自主搜索 AI 智能体 WebAgent
- 💡 我国首个软件开发 AI 智能体标准发布，20 余家巨头联手参编
- 💡 刚刚，新版DeepSeek-R1正式开源！直逼o3编程强到离谱，一手实测来了
🌟 技术突破
- 💡 AI编程新王Claude 4，深夜震撼登基！连续编码7小时，开发者惊掉下巴
- - 现状对比？
  - 案例演示 1？
  - 案例演示 2？
  - 开发区别？
  - 如何选择？
- 💡 Trae 国际版开启付费订阅模式，首月Pro 订阅仅3美元，Claude 4 加持
- 💡 QwenLong-L1-32B 模型登场：阿里通义千问首个强化学习训练的长文本推理 AI 模型
- 💡 告别卡脖子，华为黑科技破局！昇腾推理加速1.6倍打破LLM降智魔咒
- 💡 o4-mini暴击六大数学天团，攻破陶哲轩难题！4.5h激战人类阵地失守
- 💡 国家新型工业化操作系统“鸿道”发布：用于具身智能机器人，支持华为、龙芯、英伟达、英特尔等 GPU / NPU 架构
💫 企业动态
- 💡 智元机器人灵犀 X2 计划今年下半年规模化出货
- 💡 H20之后，英伟达全新特供版GPU曝光！单GPU售价低至6500美元
- 💡 北京：针对 AI 手机等智能产品，支持有条件的企业牵头建设中试平台、智能产品柔性生产线
- 💡 OpenAI 首款 AI 硬件被曝 2026 年登场，ChatGPT 全面融入用户生活
- 💡 中国石油发布 3000 亿参数昆仑大模型，AI 智能体嵌入加油站管理系统
- 💡 第二次Sora时刻来了！全球首款实时摄像头诞生，真人感拉满颠覆全行业
- 💡 荣耀确认进军机器人产业，机器人跑步速度达 4m/s 创行业纪录
- 💡 “一天内完成更新”：腾讯多款产品接入 DeepSeek R1-0528 最新版
- 💡 微软 CEO 纳德拉：我更关注 AI 为现实世界带来的实际影响，而非单纯追求 AGI
- 💡 扎克伯格称 Meta AI 助手月活跃用户规模破 10 亿
- 💡 中国信通院、vivo、荣耀、OPPO、小米、华为联合倡议：共建终端智能体生态
✨ 行业观点
- 💡 2025 高考临近“AI 大模型押题卷”火热，央视网提醒考生应独立思考避免过度依赖
- 💡 前OpenAI高管新作力挺模型思考，哈佛却称AI越「想」越笨
- 💡 全球顶尖AI做物理，被人类按地摩擦？不懂推理大翻车，本科生碾压
- 💡 AI 冲击就业，调查显示四成雇主拟削减相关岗位

⭐ 本周热点

💡 阿里巴巴开源自主搜索 AI 智能体 WebAgent

IT之家 | 阅读原文

5月30日消息，阿里巴巴于Github开源自主搜索AI智能体WebAgent，它有自主信息检索与多步推理能力。WebAgent分为WebDancer和WebWalker。WebDancer框架由4大块构成，通过创新数据合成法解决传统数据集局限，经监督微调、强化学习（采用DAPO算法）等阶段，让智能体实现高效多步推理和信息检索。还附上了WebAgent官方及相关论文地址

💡 我国首个软件开发 AI 智能体标准发布，20 余家巨头联手参编

IT之家 | 阅读原文

5月27日，中国信通院联合工行、百度、腾讯等二十余家头部企业，发布我国首个软件开发AI智能体标准。该标准围绕技术与服务能力，建立全栈式技术规范。其从感知、记忆等提出技术能力要求，还明确编码、测试等五大核心服务场景。通过“能力建设指导 + 技术选型参考”，减少厂商重复研发投入，提供合作评估依据，推动产业发展

💡 刚刚，新版DeepSeek-R1正式开源！直逼o3编程强到离谱，一手实测来了

新智元 | 阅读原文

5月29日凌晨，新版DeepSeek-R1正式开源，权重已上传到HuggingFace 。它基于DeepSeek-V3-0324训练（参数660B），性能几乎与o4-mini（Medium）相当，编码能力超进化。在编程实测中超越Claude 4 Sonnet等，还能持续正确计算简单数学题。与Gemini 2.5 Pro对标各有胜负。实测其性能「史诗级」加强，思考更稳定，简单任务思考时间缩短，多步骤复杂推理也能应对，思考能力似加强，发布高峰「测评」期算力也提升

🌟 技术突破

💡 AI编程新王Claude 4，深夜震撼登基！连续编码7小时，开发者惊掉下巴

新智元 | 阅读原文

Anthropic发布全球最强编程模型Claude 4，包括Claude Opus 4和Claude Sonnet 4。Opus 4是顶尖编码模型，在多项测试中领先；Sonnet 4在编码和推理上升级。还发布系列产品，如混合模型模式等。新模型部分用户可立即体验，开发者可通过多种方式调用，定价与此前一致。2025年推理模型受关注，Claude 4融入工具使用，减少走捷径行为，记忆等能力提升，获网友好评，Claude Code也发布

现状对比？

特性	Claude 4（Opus 4/Sonnet 4）	Claude 3.7 Sonnet
编程能力	▪ SWE-bench 通过率：72.5%-72.7%（并行计算达80.2%） ▪ 多文件协同修改准确率提升40%，支持跨文件接口调整	▪ SWE-bench 通过率：70.3%（扩展思考模式） ▪ 复杂依赖处理易遗漏，需人工干预
长时间任务	▪ Opus 4 持续工作7+小时（如重构开源项目） ▪ 自动创建"记忆文件"维护进度（如游戏导航指南）	▪ 极限45分钟，超时后性能衰减 >30%
工具使用	▪ 并行调用工具（搜索+代码执行+文件编辑） ▪ 扩展思考中动态结合工具（测试版），效率提升78%	▪ 工具串行执行，易步骤冲突
安全与行为	▪ 减少65%"走捷径"行为（漏洞利用/作弊） ▪ Opus 4 达 ASL-3 安全等级，内置宪法分类器	▪ 奖励破解（Reward Hacks）比例45%
推理模式	▪ 混合推理自动切换，新增"思考总结"压缩冗长过程	▪ 需手动切换标准/扩展思考模式
价格（API/百万tokens）	▪ Opus 4：15/75（输入/输出） ▪ Sonnet 4：3/15	▪ 3/15（与Sonnet 4同价）
适用场景	▪ Opus 4：企业级开发/科研/7h+代理工作流 ▪ Sonnet 4：日常编码/高性价比部署	▪ 简单脚本生成/成本敏感场景

案例演示 1？

用原生语法给我做一个 登录页

案例演示 2？

给我做一个 CRM 仪表盘

开发区别？

特性	Claude 3.7 Sonnet	Claude 4 Sonnet
生成效率/文件规模	效率较低，处理速度较慢	效率一半，文件规模两倍
开发规范	代码、文件组织能力强	代码、文件、数据规范更高（注释能力提升 2个 level）
依赖引入	过度引入依赖组件	只引入核心功能、善于使用组件库
错误处理	无运行前自查功能，容易出现错误	运行前可自查错误，降低运行时出错概率
页面交互	交互有限，用户体验较差	交互感强（阴影、浮动、动画等）
任务拓展性	仅限于完成布局任务，功能单一	可拓展任务，功能丰富，适用范围更广（错误校验、同级页面处理）

如何选择？

选 Claude 4 Opus：深度开发、科研、复杂代理工作流（如 7 小时自动化项目）
选 Claude 4 Sonnet：日常编码、内容生成，性价比高（API 成本为 Opus 的 20%）
保留 Claude 3.7：简单脚本生成或成本敏感场景，但需人工复核输出

💡 Trae 国际版开启付费订阅模式，首月Pro 订阅仅3美元，Claude 4 加持

AI 头条 | 阅读原文

5月27日，字节跳动推出的AI驱动集成开发环境Trae国际版开启付费订阅模式，首月Pro订阅仅需3美元，后续月费10美元，年付方案每月7.5美元。订阅用户可享受更快的AI响应速度，支持Claude4和Gemini2.5Pro等先进AI模型，进一步提升开发效率。Trae基于VS Code架构，支持多语言和无缝迁移插件，优化了AI模型的上下文理解能力。不过，其隐私政策显示数据可能被用于AI训练，开发者需关注数据隐私问题。字节跳动已要求内部办公优先使用Trae，以推动其在AI开发领域的应用。

💡 QwenLong-L1-32B 模型登场：阿里通义千问首个强化学习训练的长文本推理 AI 模型

IT之家 | 阅读原文

5月26日，阿里通义千问Qwen团队发布QwenLong-L1-32B模型，这是其首个用强化学习训练的长文本情境推理模型。在长文本DocQA基准测试中表现出色，与Claude-3.7-Sonnet-Thinking相当。模型亮点是上下文窗口最高支持131072个tokens，采用先进算法提升长上下文推理准确性和效率。此外，阿里还发布长文本推理完整解决方案，含高性能模型、优化数据集、创新训练方法和评估体系

💡 告别卡脖子，华为黑科技破局！昇腾推理加速1.6倍打破LLM降智魔咒

新智元 | 阅读原文

华为诺亚方舟实验室推出Pangu Light框架，打破「剪枝即降智」魔咒。大模型参数规模增长带来计算成本和推理延迟问题，结构化剪枝虽适合硬件加速，但简单剪枝易致模型性能下降。Pangu Light通过跨层注意力剪枝、稳定化LayerNorm剪枝等技术，在压缩率、推理速度和模型精度上表现优异。实验显示，其相比部分已有框架效果更优，降低了大模型应用门槛

💡 o4-mini暴击六大数学天团，攻破陶哲轩难题！4.5h激战人类阵地失守

新智元 | 阅读原文

Epoch AI团队举办竞赛，约40位数学精英分组与o4-mini-medium在FrontierMath基准上对决。比赛23题限时4.5小时，o4-mini-medium解决约22%题目，超越人类平均水平（19%），击败6组团队，人类总体解决约35%题目。经调整，人类基准约30 - 52%，AI加权得分约37%。比赛注重推理，Epoch AI预测2025年底AI或超越人类基准，不过AI解题机制等仍待探索

💡 国家新型工业化操作系统“鸿道”发布：用于具身智能机器人，支持华为、龙芯、英伟达、英特尔等 GPU / NPU 架构

IT之家 | 阅读原文

5月29日，国家新型工业化操作系统“鸿道”发布。它是东土科技旗下产品，实现了芯片-系统-应用垂直整合，支持多种GPU / NPU 架构。采用“大脑-小脑协同”类脑架构设计，有强实时性等特性。未来将赋能多场景，是国内唯一通过四项功能安全认证的操作系统，还构建了全栈安全防护体系，能确保家庭场景安全

💫 企业动态

💡 智元机器人灵犀 X2 计划今年下半年规模化出货

IT之家 | 阅读原文

稚晖君旗下智元机器人宣布，其研发的灵动机器人灵犀 X2 启动合作伙伴招募计划。预计 2025 年下半年规模化出货，2026 年底出货量达数千台。灵犀 X2 由 X-Lab 开发，全身 28 个自由度等多部件自研。它是首台具复杂交互能力的灵动机器人，有毫秒级交互反应等能力，但泛化智能作业表现稍弱，能进行简单作业。目前部分参数暂未公布

💡 H20之后，英伟达全新特供版GPU曝光！单GPU售价低至6500美元

IT之家 | 阅读原文

过去英伟达在中国 AI 芯片市场出货占比 95%，如今受美国出口限制和国产芯片崛起影响，份额跌至 50%。为应对，黄仁勋将推出「阉割版」Blackwell GPU，预计 6 月量产，定价 6500 - 8000 美元。该芯片以 RTX Pro 6000D 为基础设计，带宽等符合出口限制，不用台积电先进技术。英伟达还在开发另一款 Blackwell 芯片，9 月或生产。因出口限制，英伟达承担 55 亿美元费用，放弃 150 亿美元销售额，此款 GPU 是其一场豪赌

💡 北京：针对 AI 手机等智能产品，支持有条件的企业牵头建设中试平台、智能产品柔性生产线

IT之家 | 阅读原文

5月27日，北京市经信局印发《北京市人工智能赋能新型工业化行动方案（2025年）》。方案涵盖多方面举措，如建设行业数据集、打造行业大模型等。在项目支持上，对具身智能工厂示范项目最高支持3000万元；对中试平台及柔性产线建设项目最高支持5000万元。还涉及人才培养、金融服务、案例推广等内容，助力人工智能与工业深度融合，推动制造业智能化升级

💡 OpenAI 首款 AI 硬件被曝 2026 年登场，ChatGPT 全面融入用户生活

IT之家 | 阅读原文

5月27日消息，科技媒体称OpenAI计划2026年发布由ChatGPT驱动的新产品。其披露的文件展示了OpenAI 2025年上半年规划。目前ChatGPT已通过多种形式融入用户生活，OpenAI希望其在更多场景发挥作用，如日常问答、办公协助等。OpenAI暗示可能开发原生运行ChatGPT的硬件设备，2025年不推出，2026年目标实现突破，且已着手准备相关工作

💡 中国石油发布 3000 亿参数昆仑大模型，AI 智能体嵌入加油站管理系统

IT之家 | 阅读原文

5月28日，中国石油发布3000亿参数昆仑大模型。其于2024年8月完成备案，此前还发布700亿参数成果。行业和专业大模型参数提升，发布100个应用场景。在多领域应用效果显著，如勘探开发效率提升10倍以上等，还有“数字员工”上岗。AI中台统一纳管工具链，搭建智算环境，算力高峰达1950P，数据集规模达500TB

💡 第二次Sora时刻来了！全球首款实时摄像头诞生，真人感拉满颠覆全行业

新智元 | 阅读原文

5月28日，AKOOL公司发布了全球首款实时摄像头AKOOL Live Camera。该产品具备虚拟数字人、AI视频翻译、实时换脸和实时视频生成四大功能，通过4D面部映射技术捕捉微表情和语音语调，支持150多种语言的实时翻译，并能无缝替换人脸。其最低延迟仅500毫秒，94%的人在盲测中无法区分真假。自2022年成立以来，AKOOL发展迅猛，2024年实现4000万美元营收，并与多家世界500强公司达成合作

💡 荣耀确认进军机器人产业，机器人跑步速度达 4m/s 创行业纪录

新智元 | 阅读原文

5月28日荣耀400系列新品发布会上，荣耀CEO李健确认进军机器人业务。李健讲述员工与研发故事时意外官宣。荣耀这款机器人跑步速度达4m/s，创行业纪录。2025年世界移动通信大会上荣耀发布“阿尔法战略”，计划五年内投入100亿美元构建全球AI终端生态体系，重点布局人工智能和机器人技术

💡 “一天内完成更新”：腾讯多款产品接入 DeepSeek R1-0528 最新版

IT之家 | 阅读原文

5月29日腾讯官方宣布，腾讯元宝、ima、搜狗输入法、QQ浏览器等产品升级，率先接入DeepSeek R1-0528最新版，多项能力提升，如推理、写作等。用户在指定产品中选该模型可免费不限量使用。产品从模型开源到上线不到1天，腾讯将坚持双模型驱动，选用更好更先进模型并及时上线

💡 微软 CEO 纳德拉：我更关注 AI 为现实世界带来的实际影响，而非单纯追求 AGI

IT之家 | 阅读原文

5月29日消息，多数人工智能实验室聚焦通用人工智能（AGI，超越人类智能的人工智能系统），但微软CEO纳德拉称更关注AI给现实世界带来的实际影响，批评科技行业自恋。微软人工智能愿景与OpenAI相关，但二者关系现裂痕。同时，微软开发内部模型、测试第三方模型，微软人工智能部门负责人称其模型比OpenAI最新产品落后3到6个月，战略是紧随以降低成本

💡 扎克伯格称 Meta AI 助手月活跃用户规模破 10 亿

IT之家 | 阅读原文

5 月 29 日，Meta 首席执行官马克・扎克伯格在年度股东大会称，旗下 Facebook 等系列应用中 AI 助手月活用户突破 10 亿。今年重点深化体验，让 Meta AI 成领先专属 AI。Meta 将围绕 AI 产品拓展业务，未来改进中考虑变现，如‘付费推荐’或订阅服务。他认为月活破 10 亿是重要里程碑，但对 Meta 业务规模而言还不够，产品正高速增长

💡 中国信通院、vivo、荣耀、OPPO、小米、华为联合倡议：共建终端智能体生态

IT之家 | 阅读原文

5月27日，中国信通院携手 vivo、荣耀、OPPO、小米、华为等发布《关于共建终端智能体生态的倡议》，共同制定终端智能体生态统一技术标准，旨在为用户提供懂你、能干、可信、安全的终端智能体服务。未来重点开展打通终端智能体与三方应用等交互接口工作，诚邀产业各方携手，用智能技术创造美好生活

✨ 行业观点

💡 2025 高考临近“AI 大模型押题卷”火热，央视网提醒考生应独立思考避免过度依赖

IT之家 | 阅读原文

高考临近，模拟押题卷热度高，部分教辅企业推出“AI 大模型押题卷”且标价高昂。央视网盘点发现其“押中”标准宽泛，如以同一考点就判定“押中” ，但仍有家长心动。江西省遂川中学教师袁媛称不应将升学希望寄托于此。也有老师认为 AI 可辅助复习，如安徽教师徐传林表示，学生应了解大模型，避免过度依赖，要有独立思考能力

💡 前OpenAI高管新作力挺模型思考，哈佛却称AI越「想」越笨

新智元 | 阅读原文

AI是否在「思考」及产生意识成核心议题。观点1：前OpenAI的翁荔称增加模型「思考时间」能提升性能，如DeepSeek-R1等证实；观点2：哈佛/亚马逊团队认为思维链有时让大模型越想越错，分散「注意力」；观点3：Aneil Mallavarapu从物理等理论出发，认为数字计算机不可能有意识。这场争论不仅是技术路线之争，更是对人类认知边界的反思

💡 全球顶尖AI做物理，被人类按地摩擦？不懂推理大翻车，本科生碾压

新智元 | 阅读原文

港大等机构研究发现，用3000道物理题测试，顶尖AI模型如GPT-4o、Claude 3.7 Sonnet等准确率低，被人类专家碾压。如GPT-4o准确率仅32.5% ，与人类差距超29%。研究者推出PHYX基准测试，发现模型存在依赖记忆知识、公式和表层视觉匹配等局限。还发现人类专家远超模型，开放式问题区分度高，模型在不同物理领域表现有差异，分析了模型错误类型

💡 AI 冲击就业，调查显示四成雇主拟削减相关岗位

IT之家 | 阅读原文

世界经济论坛调查显示，40%雇主计划在AI能自动化任务的领域裁员。SignalFire分析发现，2024年科技公司应届大学毕业生招聘量减少，大型科技公司减25%，初创企业减11%，或因AI影响。同时，有经验专业人士招聘量上升，大型科技公司增27%，初创企业增14% 。专家称AI加剧应届生就业困境，建议精通AI工具，可避免被取代

查看全文

http://www.dtcms.com/a/222411.html