当前位置: 首页 > news >正文

​​字节跳动重磅开源 Seed-OSS 大模型系列,12T tokens训练,原生支持512K长上下文​

​​字节跳动重磅开源 Seed-OSS 大模型系列,12T tokens训练,原生支持512K长上下文​

近日,字节跳动Seed团队开源了其最新的大语言模型Seed-OSS系列,凭借其卓越的长上下文处理、强大的推理与智能体(Agent)能力、以及业界独有的“灵活思考预算”机制,为开发者与研究者提供了一个在性能与效率间取得绝佳平衡的高效工具。

Seed-OSS这个命名绝非偶然,从名称到策略,都可以看作是对 OpenAI GPT-OSS 系列的一次精准呼应与正面回应。

与OpenAI的策略异曲同工,字节跳动并未选择直接开源其核心商业模型豆包(Doubao),而是基于其内部经过验证的先进技术,重新打造了一个专为开源社区设计的版本。这既保护了核心商业资产,又将内部的技术红利以开放共享的方式释放给全球开发者社区,体现了其深耕开源生态的长期战略意图。

该模型使用高达12万亿(12T)tokens进行训练,在多项主流基准测试中表现出色。其原生的512K长上下文支持,使其能够无缝处理超长文档与代码库;而可动态控制的推理长度,则让用户能根据任务复杂度精准调配算力,实现成本与效益的最优解。

尤为值得一提的是,秉承真正开放的精神,团队同步发布了含合成数据与不含合成数据的预训练模型版本,为学术研究提供了纯净的起点,彰显了其研究友好(Research-Friendly)的核心理念。

核心亮点

1. 原生长上下文

技术实现:模型在预训练阶段即使用长达 512K(52万)token 的上下文窗口进行训练,而非通过后期的“外推”技术实现。这意味着其对长文本的理解和连贯性更为原生和稳定。

应用价值:轻松处理超长文档、代码库、学术论文、会议记录等。用户可以一次性输入大量信息,让模型进行深度总结、分析、问答,无需分段处理,避免了信息割裂和丢失。

2. 灵活思考预算

技术实现:这是一个极具创新性的特性。用户可以通过参数(如 max_thought)动态限制模型在生成回答时的“内部推理步数”(即思考的深度和长度)。

应用价值

  • 简单任务:对于只需简单回答的问题,限制思考预算,模型会快速给出答案,极大降低响应延迟和计算成本
  • 复杂任务:对于需要多步推理的数学题或复杂规划,允许更大的思考预算,让模型“多想一会儿”,得出更精准的结果。

下图展示了在不同思考预算下,模型各项任务的性能变化曲线:对于简单任务(如IFEval),模型的思维链(CoT)较短,且得分随思考预算增加呈现波动趋势;而对于更具挑战性的任务(如AIME和LiveCodeBench),模型的思维链更长,且得分随着思考预算的增加而显著提升。

3. 增强的推理与智能体能力

  • 推理能力(Reasoning):模型在数学推导、逻辑推理、代码生成等需要多步思维链(Chain-of-Thought)的任务上进行了专项优化。它不仅能给出答案,更能展现出清晰的推理过程。
  • 智能体能力(Agent):在工具使用(Tool Use)、API调用、问题解决(Problem-Solving)等智能体核心场景中表现卓越。这意味着 Seed-OSS 模型可以作为“大脑”,驱动智能体去理解用户指令、规划步骤、调用外部工具(如搜索引擎、计算器、数据库)并最终完成任务,是构建自主AI应用的良好基础。

4. 研究友好与模型选择

独特发布策略:团队罕见地同时发布了包含合成指令数据和不包含合成指令数据(woSyn)的预训练模型版本。不含合成数据的版本(Seed-OSS-36B-Base-woSyn)为研究人员提供了一个更为“纯净”的预训练起点,避免了合成数据对后续指令微调、对齐实验等方面可能造成的潜在干扰,便于更准确地评估不同训练方法的效果。含合成数据的版本则提供了更强的开箱即用性能。这种贴心的安排彰显了其真正服务于研究社区的初衷,为学术探索提供了更多可能。

评测结果

模型架构方面,Seed-OSS采用了成熟稳定的设计:

360亿参数的稠密模型(不是MoE),使用了RoPE位置编码、GQA注意力机制、RMSNorm归一化和SwiGLU激活函数。整个模型有64层,隐藏层维度5120,词汇表大小155K。

完成预训练的 Seed-OSS-36B-Base 模型在多数评测基准上有较好表现。其中,包含合成数据的 Seed-OSS-36B-Base 效果优于不包含合成数据的 woSyn 版本。

image

Seed-OSS-36B-Instruct 是基于 Seed-OSS-36B-Base 进行后训练的模型版本,在数学、代码、推理、Agent能力、长文本能力等评测中,接近或达到同级别尺寸开源模型的最好水平。

社区地址

OpenCSG社区:https://opencsg.com/models/AIWizards/Seed-OSS-36B-Base
hf社区:https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Base

关于 OpenCSG

OpenCSG 是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续的 AI 开发者生态。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

http://www.dtcms.com/a/357535.html

相关文章:

  • python 2025/7/28
  • 【完整源码+数据集+部署教程】工地建筑进度监测系统源码和数据集:改进yolo11-SDI
  • 【笔记】扩散模型(一二)U-ViT|Diffusion with Transformer
  • 智慧园区系统:基于Java微服务架构与全栈信创国产化的数字化赋能平台
  • 人工智能一些基础概念与应用场景学习笔记
  • C++基础(③反转字符串(字符串 + 双指针))
  • solidity地址、智能合约、交易概念
  • Pointer--Learing MOOC-C语言第九周指针
  • 鸿蒙地址选择库(ArkTs UI)
  • Idea2025.2 MybatisX插件失效问题
  • Suno-API - OpenI
  • 【计算机网络】前端基础知识Cookie、localStorage、sessionStorage 以及 Token
  • 04.《VLAN基础与配置实践指南》
  • 掌握 Linux 文件权限:chown 命令深度解析与实践
  • css绘制三角形
  • 软件开发准则
  • 隧道搭建技术
  • 零成本解锁 Cursor Pro:虚拟卡白嫖1个月+14天试用全攻略
  • 鬼泣:索定系统
  • 基于能量方法的纳维-斯托克斯方程高阶范数有界性理论推导-陈墨仙
  • Java接口和抽象类的区别,并举例说明
  • Coze智能体小练习-根据主题生成小红书宣传图片
  • (十一)ps识别: epoch 训练日志解析
  • 国务院提出“人工智能+”行动,容智智能体引领产业变革发展
  • Java 学习笔记(基础篇11)
  • SyncBack 安全备份: 加密文件名及文件内容, 防止黑客及未授权的访问
  • 三维动画渲染农场哪家便宜?
  • Redis开发06:使用stackexchange.redis库结合WebAPI对redis进行增删改查
  • vue在函数内部调用onMounted
  • 论文阅读:arixv 2025 WideSearch: Benchmarking Agentic Broad Info-Seeking