当前位置: 首页 > news >正文

跨芯片 AI 算子库 FlagGems 正式加入PyTorch 基金会生态项目体系

2025年北京智源大会 · PyTorch Day China 论坛上,PyTorch 基金会执行董事 Matt White 宣布高性能通用 AI 算子库 FlagGems 项目获得批准,正式加入 PyTorch 生态项目体系。Pytorch基金会于6月26日在推特上进行了官方宣布。

作为唯一支持多种AI芯片架构的算子库,FlagGems 的加入加速了 PyTorch 实现“在多种芯片架构上无忧部署大模型”的技术创新。同时,这一进展也彰显了智源研究院主导开发的 FlagGems 对全球开源 AI 的重要价值——为开发者利用各种AI加速硬件提供便捷支持,加快在多种芯片的人工智能算法创新和产业落地。

PyTorch Ecosystem 由科研人员、应用开发者以及机器学习工程师共同打造,是全球机器学习和深度学习领域的重要生态系统。该生态系统汇聚了一系列能够扩展、集成或构建于 PyTorch 之上的创新型开源 AI 项目,旨在提供一个动态、灵活且强大的开发环境。

PyTorch 基金会对 PyTorch Ecosystem 项目的遴选有着十分严格的要求,只有对 AI 开源社区具有重要价值、在社区中具有公认的技术口碑的开源项目,才能进入其评估和项目申报。PyTorch技术委员会投票决定哪些项目能成为Pytorch Ecosystem生态项目体系。Pytorch Ecosystem体系中的开源项目作为Pytorch这一深度学习框架项目的重要补充,一同为全球社区提供各种AI开发的重要工具。

扩展 PyTorch 能力,FlagGems 带来「跨芯无忧」的模型部署解决方案

FlagGems 是由智源研究院联合多家机构共同研发的 Triton 高性能通用算子库,算子贡献单位包括中科加禾、摩尔线程、硅基流动、先进编译实验室等,通过提供一套内核函数,加速大语言模型的训练和推理过程。通过在 PyTorch 的 ATen 后端进行注册,FlagGems 让用户无需修改模型代码即可切换到 Triton 函数库。历时一年多的打造,FlagGems 已经成为全球支持芯片种类最多、数量最大的(超过 180 个)Triton 语言算子库。

当前 AI 芯片市场呈现多种技术路线并行、多种产品形态共存的现象,为解决用户“一次编写、处处编译、处处执行”的难题,FlagGems 重点在以下方面做技术攻关。

  • 性能表现:平均性能超过各个芯片厂商的原生算子性能,比 PyTorch ATen 的CUDA算子库平均提速 30%

  • 可插拔式设计:无感注册到 PyTorch 的 ATen 后端

  • 算子规模:全球支持芯片种类最多、数量最大的 Triton 算子库,总数超 180+

  • 模型验证:在 DeepSeek 和 Qwen 重点模型上的训推落地验证中,FlagGems 均有不俗的表现。

整体而言,作为连接桥梁,FlagGems 加入 PyTorch 生态系统,能够搭建起 PyTorch 框架和硬件架构之间的互通。用户无需在代码中逐个替换算子,就能在 eager 模式下隐式地广泛使用 Triton 操作符。FlagGems 提供的统一代码算子库,帮助 PyTorch 适配多个芯片硬件后端生态,降低算法在不同硬件平台之间的迁移难度。

FlagGems 在主流大模型 DeepSeek 和 Qwen 的推理与训练验证中,均能稳定支持上层算法。多种不同 AI 平台上,FlagGems 也完成了在 NVIDIA、Cambricon、MooreThreads、TsingMicro、Ascend 等多种芯片架构的后端支持。

FlagOS技术生态推动多团队针对FlagGems开源合作,共创创新

为了推动FlagGems的发展,FlagOS 社群已经成功举办了数十场社区活动,包括 AI 高校公益行、Triton 生态活动、技术meetup、tech tutorial等,覆盖开发者人群15000+,汇聚 160+ 社区贡献者共建高性能统一AI 算子库,展现了FlagGems项目强大的生态张力。

FlagGems 是面向多芯片的统一开源 AI 系统软件栈 FlagOS 的重要组成部分。FlagGems 连同多后端统一 AI 编译器 FlagTree、并行训推一体框架 FlagScale 和统一通信库 FlagCX 等开源核心库,以及大模型自动迁移部署平台 FlagRelease、大模型评测平台 FlagPerf 等开源工具,共同构建起一个面向多种 AI 芯片的开源、统一系统软件生态。

FlagGems 与 PyTorch 社区的深度融合,丰富了 PyTorch Ecosystem 的多样性和实用性,也是 FlagOS 系统软件生态与更多成熟生态合作的良好开端。这将对 AI 技术的发展和应用创新贡献出更多、更有用的技术组件,让开发者享受到统一、开源开放系统软件带来的便利;方便多种主流大模型在不同 AI 芯片上极速部署,推动不同架构 AI 硬件系统的规模化落地,打破生态壁垒。

相关文章:

  • idea的EasyCode插件连接瀚高数据库(APP)
  • 基于Anaconda环境开发IntelliJ IDEA实用JSON转Java实体插件
  • ASM1042在矿山设备通信中的抗干扰性能优化研究
  • JavaEE-Spring事务和事务的传播机制
  • SpringMVC系列(四)(请求处理的十个实验(下))
  • LabVIEW疲劳试验机模糊PID
  • 人工智能-基础篇-3-什么是深度学习?(DL,卷积神经网络CNN,循环神经网络RNN,Transformer等)
  • 华为云Flexus+DeepSeek征文|高可用部署 Dify 平台构建 Flux 绘画中台 Chatflow 的设计与实现
  • Android11 wifi开启源码分析
  • SQl中多使用EXISTS导致多查出了一条不符合条件的数据
  • 设计模式之房产中介——代理模式
  • redisTemplate简单实现幂等性校验
  • 机器人 URDF学习笔记
  • 51单片机教程(十三)- 单片机串口通信
  • mac docker desktop 安装 oracle
  • 并发基础7(守护线程)
  • Python基础知识之文件
  • 快慢指针深度解析
  • NV025NV033美光固态闪存NV038NV040
  • 机器人领域EI论文写作突围指南:从创新点到技术落地的关键跨越