AIDC智算中心建设:存储核心技术解析
目录
一、智算中心存储概述
1、存储发展
2、智算存储指导政策
3、智算智能存储必要性
二、智算中心存储架构及特征
1、智算存储中心架构
2、智算存储特征
三、智算中心存储核心技术解析
1、长记忆存储范式为推理提质增效
2、数据编织加强全局数据高效处理
3、超节点存储架构持续支撑扩展法则
4、高性能并行文件系统以存强算
5、全闪存存储技术为数据提速降耗
6、存储内生安全保护企业数据资产
一、智算中心存储概述
1、存储发展
人工智能(Artificial Intelligence)起源于20 世纪五六十年代,历经符号主义、连接主义和行为主义三次浪潮的相互交织发展,如今作为一项新兴的通用技术,正推动着社会生活与各行各业的巨变。随着大模型的爆发式增长和持续迭代,模型参数量从几万跃升至数千亿甚至更大,模型层数从开始的个位数逐步发展到成百上千,原始数据集也达到 PB 级,对以数据存储为代表的多领域产生了根本性的影响。
2024 年 2 月 16 日,OpenAI 再度引领风潮,发布了首款文生视频大模型 Sora,大模型由单模态的 NLP 领域向文生视频等多模态方向迅速演进,标志着 AI 技术正迈向一个全新的高峰。相较于传统的NLP 语言大模型,视频大模型所需的训练数据量极为庞大,原始数据体量相较于 NLP 能达到几百甚至上千 PB 级以上,2025 年2 月,Grok3发布,其多模态能力获得全球瞩目,Grok 3 所用数据量比Grok2增加了 3 倍,通过增加数据量而不是模型参数的方式实现了大模型能力的倍增。这些都对人工智能基础设施的数据存储和处理能力提出了极高的挑战。
来源:中国信息通信研究院
新型AI存储是指专为人工智能应用和服务设计的数据存储系统,具备超高性能、超大容量、极致安全、数据编织等特征,可以有效支撑海量数据的分析和学习,是AI基础架构不可或缺的组成部分。如上述AI基础架构图,作为大模型的数据载体,新型AI存储与大模型数据归集、预处理、训练、推理等全生命周期流程紧密相关,且逐步成为AI数据全生命周期服务与管理平台的重要组成部分。当今在不同行业和组织内部具备形成多元化数据集的条件下,新型AI存储正在成为数据资源的统一管理平台,并以此为基础构成跨域跨部门的AI数据湖,为数据赋能提供关键的技术支撑。
2、智算存储指导政策
国外较早布局人工智能战略,AI存储逐步成为战略关键技术竞争力的重要体现。
-
欧盟委员会在2020年2月发布《人工智能白皮书》,确保对计算和数据基础设施的访问安全,同时提出改善数据访问和管理是根本。
-
英国政府在2021年9月发布《国家人工智能战略》,AI系统中的数据基础和使用将提高专业人工智能、软件和数据技术的能力,并支持关键的新型数据基础设施的发展。
-
美国国防部在2023年11月的《数据、分析和人工智能采用战略》中,提出推进数据、分析和人工智能生态系统,同时改善基础数据管理,为美国人工智能发展和相关国家安全战略制定提供依据。
国内目前对数据存储的产业布局主要在于通用存储。
-
2023年11月,《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》中提出加强人工智能场景创新要素供给。推动场景算力设施开放,集聚人工智能场景数据资源。
-
2021年12月,中央网信办在《“十四五”国家信息化规划》中提出加强数据收集、汇聚、存储、流通、应用等全生命周期的安全管理,建立健全相关技术保障措施。
-
2020年7月,国家标准化管理委员会等五部门在《国家新一代人工智能标准体系建设指南》中提出规范人工智能研发及应用等过程涉及到的数据存储、处理、分析等大数据相关支撑技术要素,包括大数据系统产品、数据共享开放、数据管理机制、数据治理等标准。
3、智算智能存储必要性
数据决定人工智能高度。
大模型三要素是数据、算力和算法。随着AI技术快速成熟,各企业所使用的算力已逐渐趋同;各企业采用的算法也同样逐渐收敛,大多依托Transformer模型基础架构和以Pytorch、TensorFlow等为代表的开发框架;因此真正体现大模型差异性的要素是数据。
根据公开数据显示,Meta开发的LLaMA3拥有700亿参数和15TB训练数据,而OpenAI的GPT-3.5拥有 1750 亿参数和 570GB 训练数据,尽管 LLaMA3 在参数规模上还不到GPT-3.5的一半,但其表现能力在大部分基准上均超过后者。不难看出,除了模型参数规模以外,训练数据的体量对提升大模型的效果具有显著作用。
此外数据的质量同样重要,大模型需要规范性、完整性、时效性的高质量数据支撑。对于基础大模型,其数据质量主要基于厂商从公开渠道所获取数据的整体质量。而对于行业大模型的训练及细分场景推理应用,模型效果取决于行业专属的私域数据的质量,其中包含了企业原有数据和行业知识库等。
AI 存储逐步成为大模型的关键基础设施。
AI 存储是大模型数据收集、预处理、训练、推理的关键一环,决定了能保存利用的数据容量、训练及推理的数据存取效率、基础设施可用度以及数据安全。
-
一是 AI 存储与大模型数据处理效率紧密相关,AI 存储直接影响数据访问速度,从而影响大模型训练和推理速度。
-
二是 AI 存储是模型规模和数据量激增时平衡成本的重要因素。模型参数增大会伴随训练数据集规模的指数级增长,从而大幅增加数据储存成本。
-
三是大模型行业落地需要依托 AI 存储来加速数据在各环节的自动流转,保护数据安全,并形成统一的数据管理。面对大模型带来的大量数据处理和工程化工作,也需要结合 AI 存储中的相关技术一并解决。
这五个环节,是计算与存储高度耦合的过程,也被称为:半计算半存储型任务。
存储万万不能拖后腿,否则GPU再强都白搭。
二、智算中心存储架构及特征
1、智算存储中心架构
以数据为中心,统一存储基座,融合多元异构算力的新 AI 技术架构,已逐步成为人工智能计算中心的主流架构。多种异构算力紧密围绕在统一的数据底座,改变了过去“数据跟着算力跑”的算力烟囱工作模式,朝着“算力围着数据转”的新模式演进,如下图所示。作为数据载体,数据存储已成为构建大模型的关键基础设施之一。
2、智算存储特征
新型人工智能存储(面向 AI 的存储系统)具备极致性能、数据安全、大模型数据范式、高扩展性、数据编织和绿色节能 6 大关键特征。
-
极致的性能密度可以加速数据供给,缩短训练数据的归集与预处理、CheckPoint 数据的保存以及断点续训等造成的算力等待,提升 AI 全流程效率;
-
支持向量、张量、KV Cache 等大模型数据范式,能显著加速数据的融合检索,更好的支持推理应用;
-
AI 存储 99.9999%的可靠性提升 AI 基础设施的持续服务时间,防勒索和存储加密进一步保障数据安全;
-
跨域跨集群的 AI 数据湖支撑异构计算,近存计算的扩展;
-
数据编织提供全局数据可视、可管,实现数据流动效率的倍数提升,并通过数据版本管理和数据血缘管理,保证数据质量不被破坏;
-
绿色的AI存储,可降低每TB 数据的能耗和占用空间。
构建先进的 AI 存储,要从存储介质、系统、架构、数据编织、数据范式和数据安全等多方面发力,协同提升大模型数据存储能力,智算存储结构分层架构如下图所示。
三、智算中心存储核心技术解析
1、长记忆存储范式为推理提质增效
长记忆存储通过多级 KV Cache 助力大模型推理成本降低,用户体验增强。长记忆存储是专业记录大模型思考结果的存储,作为内存的扩展,以分级的方式实现月级、年级、乃至“终身”的记忆能力, 让大模型推理具备慢思考能力,如下图所示。
来源:中国信息通信研究院
-
一方面,大模型推理过程中需处理长序列以获取准确的上下文信息、生成高质量输出,模型的计算成本和内存需求通常随序列长度的增加而显著增加,通过 KV Cache 缓存机制,可以有效降低模型长序列推理的内存占用和计算开销,实现有限硬件条件下的高效推理。
-
另一方面,基于高性能长记忆存储技术构建的多级 KV Cache 缓存机制,可以保证 KV Cache 具备随时在线和全局池化共享能力,配合以查代算算法,实现从持久化的KV Cache“长记忆”中调取前期已执行过的计算结果,减少推理过程中的重复计算。根据企业实践,利用该技术可实现推理吞吐提速超50%,显著降低推理的端到端成本,提升大模型行业应用的长序列场景体验。
近数据向量知识库提高大模型检索效率,减少输出幻觉。近数据向量知识库基于快速知识生成、大库容高召回率与多模融合检索关键能力,可实现百亿知识库秒级检索。通过分布式合并建图技术,实现近数建库,根据企业实践,知识生成从月级降至天级,建库时长缩短5 倍,实现知识实时更新。同时利用存储侧容灾备份特性组合,可提供数据库高可用保障,消除单点故障引发重新建库的巨大开销。
2、数据编织加强全局数据高效处理
数据编织成为跨域跨集群数据归集、流动和处理的强大助力,通过数据版本管理和数据血缘管理,保证数据质量不下降。
数据编织是通过构建统一的数据视图,实现跨域跨集群数据的整合和调度,从而使得数据能够被快速地发现和访问,保障全局数据可视可管。随着数据量的爆炸性增长,海量数据往往分散在不同的数据中心,形成所谓的“数据孤岛”,这不仅阻碍了数据的流通和共享,也降低了数据的利用效率。
-
数据编织一方面能将来自多个源头的价值数据快速归集和流动,使数据高效的从源端移动到训练和推理环境的 AI 存储上来,并通过数据版本管理和数据血缘管理,保证数据质量不被破坏,满足权限、安全等方面的各类数据使用规则,提升海量复杂数据的管理效率,直接减少 AI 训练推理端到端周期。
-
另一方面也能实现 AI 训练数据集的按需筛选。通过数据画像,凭借数据的时空信息、数据的标签, 以简化数据的分级分类管理,做到按场景化的数据治理,满足大模型的场景化要求。
AI 全流程业务加速需要数据易共享、高性能、易扩展的统一数据底座。
如上图所示,统一数据底座是指对内兼容 AI 全流程工具链所需的多种存储协议,并保证各协议的语义无损,对外呈现统一的命名空间,方便用户管理和访问数据,能够实现数据全生命周期管理。传统解决方案由于需要在不同系统间来回拷贝数据,会严重影响数据处理效率,浪费存储空间,增加运维难度。统一数据管理能够具备高效的数据流转能力,可以在不同阶段实现数据的零拷贝和格式的零转换,实现 AI 各阶段协同业务的无缝对接,减少等待时间。
-
首先,可以指定数据首次写入时的放置策略,例如在数据获取阶段,新获取的数据需要在短时间内处理的,可以直接放置到高性能层;而新获取的数据在短时间内无需处理的或用来长期归档的数据,则可以直接写入容量层;
-
其次,可以设置丰富的数据分级流动策略,例如可以设置访问频度与时间相结合的流动策略,也可以设置容量水位触发的流动策略;
-
再者,根据用户制定的分级策略,数据能够在高性能层和大容量层之间自动分级流动,数据分级迁移过程对业务应用完全透明;
-
最后, 对于已经分级到容量层的数据,用户可以通过命令或 API 对指定的数据集配置预热策略,来加速任务的启动速度。
3、超节点存储架构持续支撑扩展法则
大模型时代,AI 存储架构从传统的层次化、主从服务器架构, 向全对等、全直通的超节点架构转变。
超节点存储能够构建全对等、全直通的架构,实现“DC as a Computer”。存储与计算之间高并行数据直通,通过开放的协议标准,既支持 Scale-up 扩展容量,也支持Scale-out 扩展性能的超节点架构。
-
一方面在宏观上存算分离,计算、存储资源独立部署,通过高通量数据总线互联,统一内存语义访问数据,实现计算、存储资源解耦灵活调度,资源利用率最大化。目前, 模型训练仍然需要通过 CPU 去访问内存,但由于 CPU 的发展逐步放缓,导致内存的带宽和容量成为瓶颈。以 CXL(Compute Express Link) 为代表的高速互联总线,将系统中的计算、存储、内存等资源彻底解构,各自形成统一的共享资源池,让 GPU 可以直接通过 CXL 总线以更快的速度访问内存与存储,从而极大提升大模型的数据加载及流转 效率,实现以数据为中心的超节点架构。
-
另一方面在微观上存算一体, 通过近数据处理,减少数据非必要移动,在数据产生的边缘、数据流动的网络中、数据存储系统中布置专用数据处理算力,算网存融合提升数据处理效率。大模型训练与应用阶段对数据处理效率有极高要求,在传统的数据处理流程中,数据需要在存储介质和处理器之间频繁移动,这不仅耗时而且效率较低。通过近存计算将数据预处理功能卸载到存储设备中,从而减少数据搬运的开销,提高数据处理的速度和效率。基于超节点存储能力,AI 存储能够支撑超十万卡算力集群,为人工智能的持续发展提供动力。
4、高性能并行文件系统以存强算
大模型需要 AI 存储具备高性能并行文件系统以提高数据存取效率,并提供加速卡直通存储技术实现数据直达。
并行文件系统是指支持数据并行读写的高性能文件系统,被广泛使用于需要高算力与高数据量的应用。随着大模型的发展,需要 AI 存储具备高并发、高带宽、 高 IOPS 的并行文件系统,以提高 GPU/NPU 的训练推理效率。AI 存储并行文件系统需具备以下四大能力:
-
高性能。百 PB/s 级带宽 和亿级 IOPS 支持能力,可实现超万卡集群数据调度简化、供给无瓶颈,保障规模扩展场景下的系统性能。每U大于 50GB/s 带宽、百万IOPS 和 PB 级容量,可实现数据存储与处理的高密度,提升大模型使用效率,降低成本。
-
高可靠。通过多路径、全交换、全互联等设计,确保存储系统的高可用性达到
99.9999%,可以实现软硬件故障的自动切换。
-
高扩展。能够支持 EB 级的数据量,且性能随节点数增加而线性增加。
-
加速卡直通存储技术。利用基于总线 P2P的底层传输协议机制,使数据路径无需再经过 CPU,实现加速卡的HBM 和存储设备间数据一跳直达,消除 CPU 处理瓶颈,极大的提升了数据从存储到加速卡的传输效率,在检查点状态数据保存、训练数据加载以及 KV Cache 加速等场景发挥重要作用。
5、全闪存存储技术为数据提速降耗
高性能低能耗的大模型数据存储与处理需要 AI 存储走向全闪存。
存储介质是指用于存储数据的载体,是数据存储的基础。闪存存储是新一代存储介质,相比传统的机械硬盘,在性能、能耗、容量密度等方面有巨大优势,已经成为了业界的共识。闪存存储比机械硬盘时延小 100 倍左右,每秒数据读写次数大1000 倍以上,空间占用节省 50%。 随着闪存介质堆叠层数与颗粒类型方面的突破,其成本也在持续走低,成为处理大模型数据的理想选择。数据读写性能的大幅提升,将减少计算、网络等资源的等待,加速大模型的部署与应用。
根据行业测算, 以 GPT-3 采用 100PFlops 算力下,当存储的读写性能提升 30%,将优化计算侧 30%的利用率,训练周期将从 48 天降低至 36 天,整体训练 时间缩短 32%。使用闪存存储相比机械硬盘能减少能耗 70%。尤其是高密存储节点密度能达到传统存储服务器的 2.6 倍以上,结合存算分离架构,相对使用通用型服务器,减少了存储节点 CPU、内存及配套交换机, 同等容量下带来能耗节约 10%~30%,显著降低大模型数据的存储能耗。数据算法和数据融合技术正在大幅度提高存储能效。
-
数据融合: 随着数据融合技术的成熟,一套存储系统能够同时提供文件、对象等多协议访问能力,通过多协议融合互通能力,一份数据无须协议转换就能够被多种协议同时访问,减少数据搬迁和重复存储,提升 35%的数据处理能效。
-
数据算法:数据压缩,数据重删正在向无损化,场景化演进,随着应用语义压缩/重删技术的发展,有望从根本上解决非结构化数据的存储效率问题,从而进一步提升数据能效。
6、存储内生安全保护企业数据资产
存储内生安全是构建大模型系统数据安全防护的最后一道防线。
存储内生安全强调在 AI 存储系统中内置安全机制,以保障数据的机密性、完整性和可用性。相比于传统的外部安全措施,存储内生安全具有更高的灵活性和可控性,能够更好地适应不断变化的安全威胁。在大模型的应用中,存储内生安全通过将安全功能融入到 AI 存储系统中实现对数据的保护。这种方式可以避免将敏感信息暴露在外部网络中,从而降低数据被攻击的风险。同时,存储内生安全还能够提供灵活的安全管理策略,根据不同用户的需求进行定制化的安全设置,提高数据的安全性和合规性。
-
从硬件角度,存储内生安全主要包括构建关键硬件自主能力、硬件三防(防侧信道、防故障注入、防物理攻击)和可信启动等技术。
-
从软件算法角度,重点解决开源软件的风险治理。
-
从数据安全防护角度,AI 存储会围绕数据采集、传输、存储、 处理、共享和销毁全生命周期提供安全防护能力。
-
其一是围绕数据全生命周期,提供端到端加密能力,包括数据传输加密,落盘加密等,提升数据流动和数据储存的安全,并在数据生命周期结束时提供数据安全销毁能力;
-
其二是针对数据完整性、真实性和可用性提供安全快照、本地备份、异地备份、双活容灾等数据容灾与备份能力,结合企业数据分类分级可实施符合政策法规要求的数据保护措施;
-
其三是针对勒索病毒攻击提供网络+存储协同防勒索的能力,实现事前防御勒索病毒攻击、事中进行勒索病毒检测、事后保障数据可恢复。勒索病毒隐蔽性极强、变种频繁,往往使用零日漏洞、钓鱼邮件等方式入侵, 单靠杀毒软件防不胜防;
-
网络防火墙等设备以进不来为防范目标,可拦截 90%左右勒索病毒,而 AI 存储作为数据的最终载体,可以在第一时间感知勒索软件对数据的修改行为,通过侦测分析、安全副本、及时恢复,确保病毒进不来、改不了,数据可恢复。
往期推荐
AIDC智算中心建设:资源池化核心技术解析-CSDN博客
AIDC智算中心建设:计算力核心技术解析-CSDN博客
一文解读DeepSeek在保险业的应用_deepseek 保险行业应用-CSDN博客
一文解读DeepSeek在银行业的应用_deepseek在银行的应用-CSDN博客
欢迎 点赞👍 | 收藏⭐ | 评论✍ | 关注🤗