当前位置：首页 > news >正文

GPFS不同存储方式的优劣

news 2025/8/20 15:28:44

“8+2” 表示将数据分成8 个数据分片（Data Chunk） 和2 个校验分片（Parity Chunk），总共有 10 个分片。具体工作机制如下：

空间效率高
相比副本模式（如 3 副本需 3 倍存储空间），“8+2” 的存储开销仅为 25%（10 个分片存储 8 份原始数据），大幅节省存储空间，适合海量数据场景（如 PB 级存储）。
可靠性保障
允许同时丢失任意 2 个分片（无论是数据分片还是校验分片），系统可通过剩余的 8 个分片（6 数据 + 2 校验或 8 数据 + 0 校验等）重建丢失的数据，容错能力强。
性能平衡
读取时可并行从 8 个数据分片读取，提升带宽；写入时需计算并存储 2 个校验分片，性能略低于 1 副本，但优于多副本模式。
适用场景
适合存储访问频率中等、容量大、可靠性要求高的数据，如归档数据、备份文件、科研数据集等。

# 创建8+2纠删码策略
mmchpolicy <文件系统> --create --erasure-code-ratio 8:2
# 为目录应用该策略（目录下文件将自动使用8+2存储）
mmchattr -E 8:2 /gpfs/data/archive

注意事项
- 需至少 10 个独立的存储单元（节点或磁盘），确保分片分散存储。
- 重建丢失数据时会消耗额外的 CPU 和 IO 资源，建议在业务低峰期执行。
- 不适合频繁修改的小文件（分片和校验计算开销相对较大）。

副本模式是最基础且广泛使用的存储方式，通过直接复制数据实现可靠性，简单高效。

除了 “8+2”，纠删码还有多种分片比例，平衡容错能力和空间效率。

通过分层存储结合不同冗余策略，实现性能与成本的平衡，是企业级存储的常用方案。

热数据（高频访问）：采用 3 副本或 2 副本，优先保证读写性能和快速恢复。
冷数据（低频访问）：采用纠删码（如 8+2、10+3），节省空间，降低长期存储成本。
实现方式：通过 GPFS 的 “数据生命周期管理” 自动将热数据迁移到高性能存储（如 SSD）并使用副本模式，冷数据迁移到大容量 HDD 并启用纠删码。

例如：数据库文件用 3 副本，视频文件用 8+2 纠删码，临时缓存用 1 副本，通过 GPFS 的存储策略规则（Policy-Based Management）自动匹配。

在节点内部，物理磁盘可通过 RAID 提供本地冗余，再结合分布式存储的全局冗余，形成 “双层保护”：

优先看数据特性：
- 热数据、高 IOPS → 3 副本或 2 副本。
- 冷数据、大容量 → 纠删码（8+2、10+3）。
- 小文件 → 2+1 纠删码或 2 副本。
平衡成本与可靠性：副本模式成本高但简单可靠，纠删码空间效率高但依赖集群规模。
结合分层存储：通过自动化策略让数据在生命周期内 “流动”，动态匹配最优存储方式。

GPFS 的优势在于支持多种存储方式的灵活配置，可根据业务需求动态调整，最大化存储系统的性价比