当前位置: 首页 > news >正文

西安百度推广网站建设辽宁做网站哪家好

西安百度推广网站建设,辽宁做网站哪家好,网站建设投标文档,wordpress 主题商店近日,阿里云通义实验室对外宣布开源通义 DeepResearch,这款轻量级 AI 代理凭借出色的性能,实现了与 OpenAI 深度研究工具的比肩,在信息检索和推理领域展现出强劲实力。为让 AI 真正具备 “做研究” 的能力,通义 DeepRe…

近日,阿里云通义实验室对外宣布开源通义 DeepResearch,这款轻量级 AI 代理凭借出色的性能,实现了与 OpenAI 深度研究工具的比肩,在信息检索和推理领域展现出强劲实力。为让 AI 真正具备 “做研究” 的能力,通义 DeepResearch 团队围绕数据、Agent 范式、训练、基础设施(Infra)、Test Time Scaling 开展系统性创新,所有技术方案均已开源,其开源资源同步在多个平台上线,欢迎全球开发者共建。​

轻量级参数设计实现高性能突破​

通义 DeepResearch 在参数配置上颇具亮点,其整体参数规模达 300 亿,而实际激活参数为 30 亿。这一轻量化的参数设计,不仅在资源占用上更具优势,还能实现出色性能,成功达成对标 OpenAI 的突破。这种高效的参数利用模式,打破了人们对高参数与高性能必然绑定的固有认知,为轻量级 AI 代理的发展提供了新方向,也让更多开发者能够轻松部署和使用先进的 AI 研究工具。​

权威基准测试验证技术实力​

在权威基准测试中,通义 DeepResearch 的表现同样可圈可点。以 Humanity's Last Exam 测试为例,该 AI 代理获得了 32.9 分的优异成绩。这一分数充分证明了其在复杂任务处理、知识掌握与运用等方面的卓越能力,也让行业看到了阿里云在 AI 技术研发上的深厚积累与突出实力。对于需要可靠 AI 研究助手的用户来说,这样的测试成绩无疑是重要的参考依据。​

系统性技术创新:打造 AI 研究能力核心支撑​

1. 全流程合成数据方案:突破智能体能力上限​

通义 DeepResearch 自研行业领先的全流程合成数据方案,无需任何人类干预即可构造超越人类水平的数据集,为智能体能力提升奠定基础。​

  • 增量预训练数据(Agentic CPT):首次提出在 Agent 模型训练中加入智能体增量预训练阶段,提供支持大规模扩展的预训练数据合成方案 AgentFounder [1],与后训练过程中产生的数据形成 “数据飞轮”。数据重组和问题构建基于知识文档、爬虫数据、知识图谱及后训练轨迹数据,以实体为锚定构建开放世界知识记忆,生成多风格(问题,答案)对;动作合成则基于多风格问题和历史轨迹,构建规划、推理、决策三类动作数据,离线探索推理 - 动作空间,无需额外商业工具 API 调用。​

  • 后训练数据合成:团队经多代方案迭代,从 WebWalker 的网页点击轨迹逆向合成 QA 对、WebDancer 的搜索式问题难度升级,到 WebSailor 的图结构复杂问题合成、WebShaper 的系统化可控方案,在保证数据高质量的同时实现可扩展性。​

  • SailorFog-QA 系列数据生成:针对 WebSailor Level3 任务,先从真实网站通过随机游走构建含复杂关系的知识图谱,再采样子图生成问答,最后通过信息模糊化制造难度,确保问题真实性与非线性结构。​

  • 形式化建模(WebShaper):以实体集合为 QA 基本构成,以实体关系操作为难度单元,通过合并、模糊化等原子操作逐步提升 QA 复杂度,实现难度可控化。​

  • PhD-Level 学科合成数据自动化生成:基于百万级多学科知识库(含网页、学术论文、电子书),经 “预处理(浓缩核心语义信息块)→种子生成(组合信息块生成多源依赖 QA)→迭代式复杂度升级(造题 Agent 用工具扩展知识、深化抽象、强化事实、构建计算任务)” 流程,形成难度持续提升的 “良性循环”。​

2. 多模态 Agent 推理范式:适配复杂研究场景​

团队对深度研究型智能体的推理范式展开广泛探索,最终模型支持多种推理形式,满足不同研究需求。​

  • ReAct 模式:遵循 “思考 - 行动 - 观察” 循环,通过多轮迭代解决问题,依托 128K 上下文长度处理大量交互轮次,实现环境交互可扩展性。选择该模式受 “The Bitter Lesson” 启发,以可扩展计算的通用方法提升模型适用性,为训练有效性提供清晰基准。​

  • 深度模式(Iterative Deep-Research Paradigm [3]):提出以 “综合与重构” 动态循环取代单一膨胀上下文,将复杂研究任务解构为多个 “研究回合”。每回合流程包括:重构精简工作区(基于上回合报告和工具响应生成轻量工作区)→执行 “思考(内部分析反思,不带入下一回合)- 综合(提炼关键信息到核心报告)- 行动(调用工具或输出答案)”,实现 “严谨状态维护”;同时推出 Research-Synthesis 框架,并行多个 IterResearch Agent 探索同一问题,整合报告结论,提升答案准确性与研究路径覆盖率。​

3. Agent 模型训练流程优化:打通全链路闭环​

团队重新设计 Agent 模型训练流程,构建 “Agentic CPT→Agentic SFT→Agentic RL” 端到端循环,为 AI Agent 提供无缝训练路径,其中强化学习(RL)环节对行为与高阶目标一致性至关重要:​

  • RL 算法优化:基于 GRPO 进行定制,采用 on-policy 训练范式确保学习信号与模型能力匹配,使用 token 级策略梯度损失函数;通过留一法降低优势估计方差,筛选负样本(排除未生成最终答案的超长样本)避免 “格式崩溃”;增大 batch size 和 group size 替代动态采样,平衡方差与监督信号效率。​

  • 训练动态表现:奖励(reward)持续上升,策略熵维持高位,模型持续探索避免过早收敛,这得益于 Web 环境非平稳性促进的稳健自适应策略,无需显式熵正则化。​

  • 关键认知:数据质量和训练环境稳定性比算法更关键 —— 直接用 BrowseComp 测试集训练效果远差于合成数据,因合成数据分布更一致,而人工标注数据噪声多、规模有限,难以提炼可学习的潜在分布。​

4. 高稳定基础设施(Infra):支撑高效训练与运行​

针对工具训练智能体的需求,构建高度稳定高效的基础设施体系:​

  • 仿真训练环境:用离线维基百科数据库和自定义工具套件替代实时 Web API,结合 SailorFog-QA-V2 专属数据,降低开发成本、提升速度与一致性,加速研究迭代。​

  • 稳定高效工具沙盒:开发统一沙盒,通过结果缓存、失败重试、饱和式响应处理并发与故障,为智能体提供鲁棒交互环境,避免工具错误破坏学习轨迹。​

  • 自动数据管理:以数据为核心驱动力,结合训练动态实时优化数据,通过全自动合成与数据漏斗调整训练集,形成 “数据生成 - 模型训练” 正向循环,保障训练稳定与性能提升。​

  • 基于策略的异步框架:在 rLLM 之上实现异步 RL 训练推理框架,多 Agent 实例并行与环境交互,独立生成轨迹,提升训练效率。​

超长上下文支持拓展应用边界​

通义 DeepResearch 支持 128K 超长上下文,这一特性使其在应对复杂任务时游刃有余。无论是多日行程规划,需要整合不同时间段、不同地点的各类信息;还是法律文档分析,要求精准捕捉复杂条款中的关键信息与逻辑关系,这款 AI 代理都能高效处理。128K 超长上下文 AI 技术的应用,为用户提供了精准、全面的解决方案,进一步拓展了 AI 技术在实际场景中的应用边界。​

实际应用落地:赋能多领域生产力提升​

目前通义 DeepResearch 已赋能多个阿里巴巴内部应用,成为提升效率、创造价值的 “生产力引擎”:​

  • 高德地图 AI 原生出行 Agent:与高德地图深度共建,推出全球首个 AI 原生出行 Agent,预置专属地图 API、实时天气查询、交通状况监测工具,可结合实时场景提供精准建议(如晚高峰避开拥堵路线前往机场)。​

  • 通义法睿法律智能体:注入 “通义法睿” 打造法律研究优化智能体,自动检索法条、类案和裁判文书并深度归纳分析。在与 OpenAI、Claude 等国际顶尖模型的对比中,其 “法条引用相关性”“案例引用相关性” 两项关键指标全面领先,综合表现最优,验证了复杂推理场景硬实力。​

开源资源全面开放:助力开发者共建生态​

阿里云此次开源通义 DeepResearch 的所有技术方案,为全球 AI 开发者社区提供宝贵资源。目前,通义 DeepResearch 的模型、框架和方案均已全面开源,用户可通过以下平台获取:​

  • GitHub:https://tongyi-agent.github.io​

  • Hugging Face:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B​

  • 魔搭社区:https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B​

  • 技术博客:https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/​

此外,通义 DeepResearch 拥有丰富的 DeepResearch Agent 家族,相关技术细节可参考系列论文:​

[1] Scaling Agents via Continual Pre-training:https://arxiv.org/pdf/2509.13310​

[2] WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning:https://arxiv.org/pdf/2509.13305​

[3] WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents:https://arxiv.org/pdf/2509.13309​

[4] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended DeepResearch:https://arxiv.org/pdf/2509.13312​

[5] Towards General Agentic Intelligence via Environment Scaling:https://arxiv.org/pdf/2509.13311​

[6] ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization:https://arxiv.org/pdf/2509.13313​

[7] WebWalker: Benchmarking LLMs in Web Traversal:https://arxiv.org/pdf/2501.07572​

[8] WebDancer: Towards Autonomous Information Seeking Agency:https://arxiv.org/pdf/2505.22648​

[9] WebSailor: Navigating Super-human Reasoning for Web Agent:https://arxiv.org/pdf/2507.02592​

[10] WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization:https://arxiv.org/pdf/2507.15061​

[11] WebWatcher: Breaking New Frontier of Vision-Language DeepResearch Agent:https://arxiv.org/pdf/2508.05748​

http://www.dtcms.com/a/448302.html

相关文章:

  • 榆林市建设局官方网站企业所得税5%的标准
  • 广东品牌网站建设哪家好静态网页设计报告
  • 侗族网站建设越秀金融大厦北塔
  • 网站建设需要的技术设备资兴市住房和城乡建设局网站
  • 注册做网站的公司有哪些wordpress 下载远程图片
  • 网站怎么做按钮著名设计网站deviantart的id模板
  • 网站价格网站ui设计素材
  • phpcms 手机网站wordpress每个标签文章置顶
  • 在线做汉字头像的网站网站模板的功能
  • 国内做游戏破解的网站网站链接查询
  • 网站开发的8个步骤上海推广seo
  • 免费做ppt网站wordpress 微信 主题
  • 商城网站模板框架wordpress随机
  • 网站开发项目流程图模板中国建设银行预约网站
  • 给彩票网站做代理违法吗最吸引人的广告图片
  • 义乌网站建设推广wordpress免费主题
  • 网站模板目录扫描个人网站可以做商城吗
  • 网站建设与管理好过吗湛江知名网站建设电话
  • 网站建设方面的外文网站左侧分类菜单怎么做
  • 甘肃建投建设有限公司网站申请邮箱163免费注册
  • 双辽建设局网站百度指数预测
  • 国内特效比漂亮的网站长春做高端网站公司
  • 江都网站制作vps网站如何绑定多个域名
  • 四川做网站的公司有哪些信息流广告模板
  • 中国住房和城乡建设部网站资质查询两山开发公司
  • 网站建设陕西郑州市网站建设
  • 网站建设灰色关键词观澜做网站
  • 徐州营销网站建设报价wordpress多站点批量添加
  • 网络营销推广的工具seo网络推广怎么做
  • 成都flash互动网站开发变化型网站