当前位置: 首页 > news >正文

字节Seed发布扩散语言模型,推理速度达2146 tokens/s,比同规模自回归快5.4倍

扩散模型写代码,不仅像开了倍速,改起来还特别灵活!

字节Seed最新发布扩散语言模型Seed Diffusion Preview,这款模型主要聚焦于代码生成领域,它的特别之处在于采用了离散状态扩散技术,在推理速度上表现出色。

它的代码推理速度能达到2146 tokens/s,比同类的Mercury和Gemini Diffusion等模型快不少,同时比同等规模的自回归模型快5.4倍,并且在代码编辑任务中更具优势。

Seed Diffusion Preview以结构化的代码生成为实验领域,系统性地验证离散扩散技术路线作为下一代语言模型基础框架的可行性。

下面介绍它的具体技术细节。

核心是两阶段训练学习

自回归模型存在串行解码延迟瓶颈,理论上,扩散模型的并行生成潜力和整体性生成的优势可以解决自回归模型推理速度局限这一痛点。

但理论优势与实际效果还是有差距,离散扩散模型在语言任务中的大规模部署仍面临两大核心瓶颈:归纳偏置冲突和推理效率瓶颈。

为解决上述问题,Seed Diffusion Preview采用了四项关键的技术创新。

两阶段训练

两阶段训练是模型的核心训练策略。

这是针对离散扩散过程设计的渐进式训练方案,两个阶段分别采用不同的corruption过程(即对原始数据的扰动方式)。通过分阶段优化模型对token的理解与生成能力,平衡训练效率与生成质量。

第一个阶段是基于掩码的扩散训练,学习上下文补全,占整个训练步骤的80%。

目标是将原始序列中的token替换为特殊的[MASK]标记,让模型学习从部分被掩盖的序列中恢复原始token,以此奠定基础的语言建模能力。

第二个阶段是基于编辑的扩散训练,增强全局的合理性。

掩码训练可能带来“捷径依赖”的问题——优先利用未掩码token的局部关联性进行恢复,而非理解整个序列的全局逻辑。

此阶段的目标就是通过插入、删除、替换等编辑操作对原始序列进行扰动,并用编辑距离衡量扰动程度,编辑次数由特定函数控制在合理范围内,打破模型对未掩码token的错误认知,迫使模型重新评估所有token。

实证表明,引入编辑阶段后,模型在代码修复基准CanItEdit上的pass@1对比自回归模型(AR模型)提升了4.8%(54.3vs.50.5),明显增强了模型的代码逻辑理解与修复能力。

Seed Diffusion Preview的测试结果验证了了离散扩散路线在大语言模型推理上的潜力。

http://www.dtcms.com/a/311618.html

相关文章:

  • 【C++/STL】vector的OJ,深度剖析和模拟实现
  • Java多线程入门-基础概念与线程操作
  • JVM 01 运行区域
  • 动态规划经典模型:双数组问题的通用解决框架与实战
  • C++ STL 组件及其关系:从模块化设计到图形化展示
  • SpringBoot AOP
  • CYUSB3014-BZXC-USB3.0接口芯片-富利威
  • python---literal_eval函数
  • Python管道编程解析:构建高效数据流处理框架
  • Redis从入门到实战
  • Effective C++ 条款18:让接口容易被正确使用,不易被误用
  • IOT物联网平台发布,可私有化部署
  • 算法刷题【面试经典150题】
  • 技巧|SwanLab记录PR曲线攻略
  • 【Unity3D实例-功能-移动】小兵移动-通过鼠标点击进行
  • 【微实验】弦振动 MATLAB 物理模型 动画仿真
  • 腕管综合征 : “鼠标手”| “数字时代工伤”,在我国视频终端工作者中患病率达12%到15%。“
  • web:js的模块导出/导入
  • 【编号413】“一带一路”25个港口城市及其周边区域海岸线分类数据
  • 译|Netflix 数据平台运营中基于机器学习自动修复系统
  • 【网络与爬虫 38】Apify全栈指南:从0到1构建企业级自动化爬虫平台
  • 【Android】使用 Intent 传递对象的两种序列化方式
  • RPG增容2.尝试使用MMC根据游戏难度自定义更改怪物属性(三)
  • 推荐系统学习笔记(六)自监督学习
  • 【语音技术】意图与语料
  • gcc-arm-none-eabi安装后,找不到libgcc.a的拉置
  • 边缘计算优化!陌讯轻量化模型实现路面裂缝误检率↓78%
  • 【大模型LLM】大模型训练加速 - 深度混合精度训练(Mixed Precision Training)原理详解
  • 数字化生产管理系统设计
  • Leetcode 11 java