当前位置: 首页 > news >正文

AI智算-K8s如何利用GPFS分布式并行文件存储加速训练or推理

文章目录

    • GPFS简介
      • 核心特性
      • 存储环境介绍
      • 存储软件版本
      • 客户端存储RoCE
    • GPFS 管理(GUI)
      • 1. 创建 CSI 用户
      • 2. 检查GUI与k8s通信
    • 文件系统配置
      • 1. 开启配额
      • 2. 启用filesetdf文件系统
      • 3. 验证文件系统配置
      • 4. 启用自动inode扩展
    • 存储集群配置
      • 1. 启用对根文件集(root fileset)配额
      • 2. ignoreReplicationForQuota参数
      • 3. ignoreReplicationOnStatfs参数
      • 4. ignoreReplicaSpaceOnStat参数
    • 部署 GPFS CSI-Operator
      • 1. YAML下载
      • 2. 创建csi-operator
      • 3. 创建 CSI 用户秘钥
      • 4. CSI 标签应用秘钥
      • 5. 修改 CR
        • 存储单集群
        • 存储远程集群
        • 存储节点名称获取
      • 6. k8s 节点打标签
      • 7. 创建 CSI cr 驱动
      • 8. 检查 csiScaleOperator 状态
      • 9. 检查 CSI Pod 状态
    • 创建 Storage Class
      • 1. 不同存储类的区别
      • 2. 创建基于文件集的卷的存储类
        • 独立文件集存储类
      • 3. 申请 PVC
      • 4. check pv & pvc
      • 5. 修改PVC Inode
      • 6. 测试验证
    • GPFS存储性能测试
      • 1. 编排测试Pod Manifest
      • 2. 编写vdb压测脚本
      • 3. 压测用例
      • 4. 性能测试结果
        • 报告总结
    • 分布式训练
      • 分布式训练中的数据访问优化
      • 加速大模型训练的具体机制
    • GPFS运维常用命令
        • 参考

GPFS简介

GPFS(General Parallel File System,通用并行文件系统)是由 IBM 开发的高性能分布式文件系统,最初设计于 1990 年代,用于满足高性能计算(HPC)环境对大规模数据存储和访问的需求。GPFS 现已广泛应用于企业级存储、云计算、大数据分析、人工智能和媒体处理等领域。它以其高性能、可扩展性和可靠性著称,能够支持从小型集群到超大规模系统的各种部署场景。

核心特性

  • 并行数据访问:GPFS允许多个节点同时读写同一文件或文件的不同部分,利用分布式锁和字节范围锁(byte-range locking)实现高效的并发访问。这对于分布式训练中多个工作节点并行读取训练数据尤为重要。
  • 高吞吐量和低延迟:GPFS通过将数据分布在多个存储节点上,并支持高带宽网络(如InfiniBand),提供极高的I/O吞吐量和低延迟,满足大模型训练对大规模数据集的快速访问需求。
  • 分布式元数据管理:与传统的集中式元数据服务器不同,GPFS将元数据分布在多个节点上,避免单点瓶颈,特别适合处理包含数百万小文件的AI训练数据集。
  • 可扩展性:GPFS支持动态扩展存储容量和计算节点,能够轻

相关文章:

  • Windows环境下PyCharm 配置miniforge
  • 前端开发vue项目(node-modules 可视化神器 Node Modules Inspector)
  • 【题解-Acwing】798. 差分矩阵
  • java版鸿鹄招采系统源码招投标系统源码 供应商招投标平台源码-数字化浪潮下的招投标管理系统:技术赋能采购全流程
  • 【我赢职场】安克创新自适应能力cata测评全解析
  • Docker学习--网络相关命令
  • Kubernetes 集群搭建(三):使用dashboard用户界面(需要访问外网获取yaml)
  • 2010年-全国大学生数学建模竞赛(CUMCM)试题速浏、分类及浅析
  • 【算法实践】跳跃游戏——计算到达终点的最小跳数
  • 目标跟踪Deepsort算法学习2025.4.7
  • 前端基础总结
  • [数据结构]图krusakl算法实现
  • [蓝桥杯] 求和(C语言)
  • 探秘区块链开发:智能合约在 DApp 中的地位及与传统开发差异
  • redis中的hash
  • window下通过wsl搭建linux虚拟环境
  • leetcode_59. 螺旋矩阵 II_java
  • 【ISP】HDR技术中Sub-Pixel与DOL的对比分析
  • 系统与网络安全------Windows系统安全(10)
  • Module模块化
  • 蔡建忠已任昆山市副市长、市公安局局长
  • 通用汽车回应进口车业务调整传闻:因经济形势变化重组,致力于在中国持续发展
  • 娃哈哈:调整产销布局致部分工厂停工,布局新产线可实现自主生产,不排除推新品牌
  • 体坛联播|博洛尼亚时隔51年再夺意杯,皇马逆转马洛卡
  • 金砖国家召开经贸联络组司局级特别会议,呼吁共同抵制单边主义和贸易保护主义
  • “80后”德州市接待事务中心副主任刘巍“拟进一步使用”