当前位置: 首页 > news >正文

Data+AI 时代,对象存储为 AI 应用注入全局动力

Data + AI 时代,AI Storage 新挑战

在 Data+AI 时代,我们正处在一个由数据驱动创新的新纪元。尤其是在生成式 AI 和智能驾驶等前沿领域,海量数据的产生、流动与存储已成为推动技术突破的核心引擎。然而,数据的爆炸式增长也给传统的存储方案带来了前所未有的挑战,面对 AI 时代 “海量容量、超大规模、并发密集” 的极致需求,传统的文件存储与对象存储逐渐打破各自独立的界限,高性能文件存储与海量对象存储紧密结合、文件与对象统一访问的模式正在成为主流。在这一趋势下,得益于对象存储弹性容量、高扩展性、低成本等特点,在 AI 大模型训练、推理、智能驾驶等场景,越来越多的客户选择对象存储作为支持 AI 训练级别的统一存储底座,这也对对象存储的吞吐、性能、生态兼容、安全性和可靠性提出了新的挑战。

POSIX 协议转换性能不足:AI 训练框架通常依赖 POSIX 文件系统接口与数据进行交互,而标准对象存储服务则基于HTTP 协议。尽管社区提供了S3FS、Goofys等协议转换工具,但这些工具往往更关注功能的实现,而忽略了 AI 场景对高吞吐、低延迟的极致性能追求,导致协议转换成为性能瓶颈。

分布式训练数据协同困难:大模型训练往往采用分布式集群,训练数据也可能分散在不同地域。传统的跨区域数据复制方案,不仅效率低下,而且一旦某个地域的存储出现故障,就可能导致整个训练任务中断,造成巨大的资源浪费。

存储性能瓶颈拖慢训练效率:在分布式训练中,训练集、特征库、模型权重、CheckPoint 文件等需要被高频、并发地访问,这对存储的带宽和 QPS 都提出了极高的要求。如果存储性能不足,就会出现“算力等数据”的尴尬局面,GPU资源被大量闲置,严重拖慢模型训练的整体进度。

那么,如何才能打破这些瓶颈,让数据真正成为AI应用的“全局动力”?火山引擎对象存储 TOS 提供了一套创新的全链路加速解决方案,旨在解决 AI 场景下的数据存储与访问难题。本文将深入剖析TOS 如何通过其核心组件——FSX for TOS、多区域接入点(MRAP)和 TOS 加速器,为 AI 应用注入澎湃动力,并提供可复现、可落地的实操指引。

面向 AI 数据读取和训练推理,提供全链路加速和智能数据流动能力

为了应对 AI 时代的存储挑战,火山引擎 TOS 推出了一套创新的全链路加速解决方案,通过 FSX for TOS多区域接入点(MRAP)TOS 加速器三大核心组件的协同工作,为AI应用提供从数据接入、处理到消费的全程加速能力。

  • FSX for TOS:提供高性能的 POSIX 语义,让 AI 训练框架能够像访问本地文件一样访问 TOS,同时通过一系列优化手段,大幅提升读写性能。

  • 多区域接入点(MRAP):实现多地域数据的统一接入和智能路由,解决分布式训练中的数据协同难题。

  • TOS加速器:提供近计算的服务端缓存,为热点数据提供毫秒级的访问延迟和超高的吞吐能力。

接下来,我们将逐一深入探讨这三大“法宝”的技术细节和实战应用。

FSX for TOS:打破协议瓶颈,释放读写性能

FSX for TOS 是火山引擎 TOS 为 AI 大模型场景量身打造的高性能客户端解决方案。它能够将 TOS存储桶(无论是扁平命名空间还是分层命名空间)挂载为本地文件系统,不仅让上层应用可以无缝地通过 POSIX 接口进行数据读写,还充分结合了 HNS 能力。借助 HNS,FSX for TOS 能够在对象存储之上实现接近本地文件系统的高性能目录操作,支持毫秒级的目录创建、重命名和批量遍历,大幅降低传统扁平命名空间下目录管理的开销。更重要的是,FSX for TOS 针对 AI 场景的特点,在数据读写链路上进行了深度优化,能够充分发挥 TOS 的高吞吐能力。

深度读写优化

为了满足 AI 训练对性能的苛刻要求,FSX for TOS 在读写流程上进行了大量的优化。

  • 写流程优化

FSX for TOS 采用“异步并发上传”的策略,将写操作转化为后台任务,并利用 TOS 的分片上传能力来大幅提升写入性能。实测单挂载点可达到 12.5GB/s 的带宽吞吐和 11K 的小文件写入 IOPS。

写性能对比(VS S3FS)

写带宽

写 IOPS

  • 读流程优化

FSX for TOS通过“异步并发预取”的机制,提前将数据加载到内存中,大幅提升读取性能。实测单挂载点直读带宽可达 12GB/s,小文件读取 IOPS 可达 330K

暂时无法在飞书文档外展示此内容

读性能对比(VS S3FS

读带宽

读 IOPS

  • 分布式缓存

为了追求极致性能,FSX for TOS 还提供了一项“黑科技”:分布式缓存,基于火山存储自研的分布式KV存储,提供可多节点共享的读缓存能力,缓存容量不受限于单机本地盘规格,使用本地缓存读带宽可达 27GB/s,搭载分布式缓存后读吞吐能力更是高达 45GB/s,完美匹配 AI 训练等大带宽需求场景。

崩溃恢复与热升级

在AI训练等长周期任务中,稳定性至关重要。FSX for TOS 具备强大的崩溃恢复能力,当挂载点因 OOM 等原因异常退出时,能够自动重新拉起并恢复上下文,整个过程对上层业务几乎无感。同时,FSX for TOS 还支持客户端热升级,更新版本无需重新挂载,极大地提升了运维效率和业务连续性。

实现崩溃恢复的核心要点是持久化记录 InodeTable 信息、FD 信息以及正在执行的请求状态。从技术实现上,FSX 使用 mmap 零拷贝技术来记录 InodeTable 和 FD 信息,使用日志来记录请求的执行状态,如下图:

多区域接入点:实现全局数据的智能流动

Multi-Region Access Point(MRAP) 是火山引擎 TOS 为多地域数据流动场景提供的一站式解决方案。它为分布在不同地域的多个存储桶提供“单一全球入口”的能力,应用只需面向一个全球统一域名发起请求,TOS 会基于请求来源位置与网络状态智能路由到就近的目标区域桶,实现低时延访问与弹性冗余。

传统多地域数据协同模式

MRAP 模式

传统模式的痛点

  • 数据复制完成时间不可控,长期等待导致 GPU 闲置

  • 单地域故障后,业务不可用

  • 访问域名繁多,增加了复杂度和维护成本

TOS MRAP 的优势

  • 支持同步回源,全局写后即读,无需等待异步复制

  • 支持故障转移,实现区域级容灾

  • 统一访问域名,简化网络和运维配置

首创跨域回源

火山引擎 TOS MRAP 支持跨地域同步回源能力,用户在某一地域上传对象后,在其他任意地域都可以实时读取,无需等待异步复制完成,提供强大的写后读一致性。

故障转移控制

MRAP 还具备分钟级的故障控制转移能力,当单个区域出现故障时,可以自动切换路由,实现区域级的 failover,整个过程对应用层透明。

TOS 加速器:AZ亲和的服务端缓存

TOS 加速器是专为AI训练、推理等需要海量带宽和数据重复读取的场景设计的全托管缓存服务。它基于高性能的 SSD存储介质,将数据“拉近”到计算集群,提供毫秒级的访问延迟和高达百 GB/s 的吞吐能力。

传统近计算缓存的局限

  • 客户端空间有限,扩缩容复杂,成本高。

  • 数据一致性多为最终一致,难以保证。

  • 多产品拼装,增加了复杂度和维护成本。

TOS 加速器的优势

  • 弹性伸缩,容量可灵活调整。

  • 强一致性,更新即生效。

  • 服务端全托管,集成与运维零负担。

工作流程

创建加速器时绑定加速器域名(MRAP 域名),通过绑定的加速域名即可轻松访问加速器内的资源,具体访问流程如下。

读请求

  1. 客户端通过加速域名向加速器发送读请求,该请求会自动转发到 TOS 加速器。

  2. 收到读请求后,TOS 加速器会从缓存空间中查找数据。

    1. 如果加速器中存在该数据,则直接返回给客户端。

    2. 如果加速器不存在该数据,则从 TOS 中读取数据返回给客户端,同时写入到缓存空间,此时如果缓存空间已满,则根据数据热度淘汰缓存空间中的低热度数据,再将数据写入缓存空间。

写请求

  • 客户端通过加速域名向加速器发起写请求时,请求会直接转发至 TOS,并将数据写入到 TOS 中。

功能优势

时延

带宽

  • 低时延:加速器缓存数据与用户计算资源处于同一可用区,可提供毫秒级下载时延。

  • 高吞吐:加速器带宽随容量线性增长,提供高达百 GB/s 的吞吐能力。

  • 弹性伸缩:加速器容量可以灵活地扩容或缩容,适应业务快速变化。

  • 强一致性:当 TOS 上的数据发生变化,通过加速器读取数据时,加速器会自动重新加载新数据,确保始终获取到最新的数据。

  • 多种预热策略:提供多种预热方式,包括读时预热、同步预热和异步预热,满足不同业务场景的预热需求,提升访问效率。

  • 数据一次写入,多可用区加速:数据写入 TOS 后,用户在任何计算资源所在可用区创建加速器,即可获得性能加速效果,而无需重复写入数据或者迁移数据。

实际客户解决方案解构

智能驾驶客户,海量多地域训练数据,存储到 TOS 数据湖,使用 FSX+加速器+MRAP 实现全链路加速和数据流动

面向跨地域的训练数据采集与复用,统一存储到 TOS 数据湖;在训练集群端侧通过 FSX 提供高性能 POSIX 文件访问,在访问接入层通过 MRAP 做跨地域统一接入与就近路由;在数据侧通过 TOS 加速器实现热点数据低时延高吞吐的读加速,形成端到端的数据流动与性能闭环。

FSX

  • POSIX 文件访问,高吞吐低时延。

  • 就地挂载,兼容训练框架文件接口。

MRAP

  • 跨地域统一入口与就近路由。

  • 故障转移与策略统一配置。

TOS 加速器

  • 同 AZ SSD 服务端读缓存,强一致。

  • 缓存预热与淘汰策略。

以某头部 AI 大模型公司的实践为例,通过深度整合 FSX+MRAP+加速器的全链路加速方案,其训练数据加载环节实现了从 "数据流动效率" 到 "访问时延" 的多维性能跃升。FSX 通过分布式缓存、Bypass Kernel 模式等技术将读取吞吐提升至传统方式 2 倍以上;MRAP 实现多地域数据即时协同访问;TOS 加速器将热数据同 AZ 访问 P99 时延从 200ms~400ms 降至 70ms,最终数据加载整体效率提升 100%。

总结

在 Data+AI 时代,面对生成式 AI 与智能驾驶等场景所催生的海量数据存储需求,传统对象存储需应对三大核心挑战:POSIX 协议转换性能不足、分布式训练数据跨域协同困难、分布式训练场景下的存储性能瓶颈(高频并发访问导致算力空转)。针对这些问题,TOS 创新性地提出 FSX+MRAP+加速器 全链路加速方案。其中,FSX 实现了 AI 场景下 POSIX 协议转换能力的打通,MRAP 解决了分布式训练场景下多地域数据协同的难题,加速器在近计算资源侧提供全托管缓存服务,以满足模型训练推理的极致性能需求,为 AI 应用赋予全局动力。

http://www.dtcms.com/a/577645.html

相关文章:

  • linux:io基础
  • WSL+openEuler云原生实践:Docker全流程部署与多容器编排深度评测
  • 个人笔记|单臂路由,子接口,VLAN标签
  • 罗湖商城网站设计推荐小程序服务开发公司
  • 赣州网站建设jx25网页开发用到的技术
  • 企业服务在产业平台领域的渗透率现状和发展未来
  • 【P27 回归算法及应用实践】有监督的机器学习、分类与回归、一元线性回归、最小二乘法、多元回归与梯度下降、学习率
  • Spring Boot 如何支持国际化
  • Excel斜线表头怎么做?合并单元格后添加对角线+两侧输入文字,新手也能秒会!
  • ara::core——Adaptive AUTOSAR
  • 大语言模型训推一体机:AI算力革命的“新引擎”,2031年市场规模突破123亿的黄金赛道
  • 百度网站降级的原因计算机一级考试网站怎么做
  • 复数的矩阵表示 | 欧拉恒等式的复数矩阵变换
  • Linux 系统调用在 ARM 上的实现与工作机制
  • 红松小课如何成为激活老年人生活的新引擎?从兴趣学习到价值重塑!
  • 怎么才能去定义自己的生活呢?
  • 嘉兴云建站模板重庆网站备案大厅
  • Java并发实战:ConcurrentHashMap原理与常见面试题
  • 前端FAQ: 在React中,如何优化⼤列表的渲染性能?
  • 华硕ROC奥创中心Armoury Crate服务崩溃解决办法
  • 工业软件国产替代:突破“卡脖子”,筑牢制造业升级基石
  • 大专生就业是否存在学历歧视?
  • Java 8 Stream API 进阶实战:从基础到业务落地的全解析​
  • Java117 最长公共前缀
  • 共聚焦显微镜(LSCM)的针孔尺寸标准解析
  • 长春网站优化方式投票链接制作
  • 酷炫的网站欢迎页面wordpress图片分页
  • 深入理解 flex-shrink:CSS 弹性布局中的 “收缩” 智慧
  • React+Tailwind CSS+Shadcn UI
  • 神经网络—— 优化