【存储基础】数据存储基础知识
文章目录
- 1. 概述:数据存储基础知识
- 2. 存储物理介质
- 3. 数据存储的分类
- 3.1按存储架构分类
- DAS 直连存储
- SAN 存储区域网络
- NAS 网络附加存储
- 分布式存储
- 四种架构之间的核心区别
- 3.2 按数据模型分类
- 块存储
- 文件存储
- 对象存储
- 4. 数据存储的关键技术方案和核心机制
- 冗余与容错
- 数据保护与恢复
- 缓存
- 数据一致性模型
- 数据压缩与数据去重
- 参考内容
1. 概述:数据存储基础知识
数存的基础知识可以从以下几个方面出发去了解:
- 物理介质特性——数据真正存放的地方
- 存储架构——如DAS、SAN、NAS、分布式架构等
- 数据模型——数据的组织方式,如块、文件、对象等
- 数据存储的关键技术方案与核心机制
2. 存储物理介质
- 机械硬盘 HDD
- 原理:磁盘+机械臂读写
- 特点:容量大、成本低、速度慢、怕震动
- 场景:冷数据备份,归档存储等
- 固态硬盘 SSD
- 原理:基于NAND闪存芯片,无机械部件
- 特点:速度快、抗震、功耗低;成本较高,写入寿命有限(需磨损均衡)
- 类型:SATA SSD(兼容传统接口);NVMe SSD(PCIe通道,性能提升3~5倍)
- 场景:数据库、操作系统、高频读写业务
- 存储级内存 SCM
- 特点:性能接近内存(纳秒级延迟),兼具持久化能力;
- 场景:超低延迟缓存、金融高频交易等场景
3. 数据存储的分类
3.1按存储架构分类
按存储架构分类可分为:DAS、NAS、SAN、分布式存储
DAS 直连存储
DAS:Direct Attached Storage,存储设备(如硬盘)直接连接到单个服务器(通过SATA、SAS、NVMe等接口),存储资源无法共享,仅限连接的服务器访问。
- 优点:简单、成本低,性能直接;
- 缺点:存储资源无法在服务器之间共享,扩展性差;
- 场景:如个人电脑的硬盘、本地服务器内置硬盘/SSD
SAN 存储区域网络
SAN:Storage Area Network,是一种用于在计算机系统和存储设备之间、或在多个存储设备之间传输数据的网络,能提供块级存储访问的高速专用网络(通常使用光纤通道FC或iSCSI)
- 特点:通过高速专用网络连接服务器和存储,服务器看到的是一块“虚拟磁盘”,由SAN设备提供;高性能、高可靠性、支持快照、克隆、远程复制等高级功能;但成本高,配置管理复杂。
- 场景:大型企业数据库、虚拟机集群的后端存储。
NAS 网络附加存储
NAS : Network Attached Storage,是一种连接到网络的存储设备,与该网络共享自己的存储,并用作文件服务器进行文件访问。
- 特点:易于设置和管理,支持多客户端共享文件;但性能受网络影响;
- 场景:企业级文件服务器
三者之间的关系和区别:
分布式存储
分布式存储:数据分散存储在多个节点(服务器)上,通过网络协作提供服务。其核心目标是解决单点瓶颈,实现横向扩展性、高可用性、高容错性。
- 关键技术有:数据分片(shard)、复制、多协议互通、分布式元数据管理等。
- 类型:
- 分布式文件系统:如HDFS
- 分布式对象存储:如Amazon S3, OpenStack Swift
- 分布式块存储:如 iSCSI over Distributed Storage
- 分布式数据库
- 特点:扩展性强、容错性高、无单点故障;但系统复杂度高、维护难度大、网络依赖性强。
四种架构之间的核心区别
对比维度 | DAS | SAN | NAS | 分布式存储 |
---|---|---|---|---|
连接方式 | 直连(SATA/SAS) | 专用网络(FC/iSCSI) | 标准以太网(TCP/IP) | 以太网/Infiniband |
共享性 | 单服务器独占 | 多服务器共享块设备 | 多客户端共享文件 | 全局共享 |
数据粒度 | 块级 | 块级 | 文件级 | 块/文件/对象 |
协议 | SCSI | FC, iSCSI, FCoE | NFS,CIFS | S3,HDFS |
扩展性 | 差,单机限制 | 中,受SAN交换机端口限制 | 中,受NAS网关性能限制 | 高,横向线性扩展 |
延迟 | 低(直连) | 极低(微秒级,FC网络) | 中(毫秒级,受网络影响) | 中高(依赖元数据查询) |
成本 | 低 | 高(专用硬件) | 中 | 中高(软件+服务器) |
适用场景 | 单机应用 | 高性能数据库、虚拟化 | 企业级文件共享 | 云平台、大数据、海量非结构化 |
打个比方,比较这四种架构之间的联系和区别:
- DAS:私人仓库,仅供自己使用;
- SAN:共享货架,支持多人存取裸箱子;
- NAS:共享文件柜,支持多人直接存取文件;
- 分布式存储:智能云仓库,支持自动调度货物到最近网点
3.2 按数据模型分类
按照数据模型分类,可分为块存储、文件存储、对象存储
块存储
块存储存储结构化数据,通过读写存储空间中的一个或多个地址直接读写数据;直接访问裸盘,没有文件系统。
- 结构:裸盘,无文件系统;
- 协议:iSCSI、Fibre Channel(FC);
- 场景:数据库裸设备、虚拟化磁盘等
文件存储
文件存储主要用于存储非结构化数据,通过在块存储设备上添加专业文件系统,实现文件共享。
- 结构:树状目录(文件夹/文件)
- 协议:NFS、SMB、FTP等
- 场景:Windows文件共享、NAS设备、HDFS(分布式文件系统)等
对象存储
对象存储与块存储和文件存储的主要区别在于对象存储提供的接口;对象存储仅为存储数据的元数据生成一个ID,并存储该ID,而不管数据类型如何。
- 结构:扁平化结构,数据以对象形式存储(含ID、数据、元数据);
- 协议:HTTP、RESTful、S3等
- 特点:无线扩展,适合非结构化数据;
- 场景:Amazon S3等,适用于对性能要求不高但对容量要求较高的场景。
4. 数据存储的关键技术方案和核心机制
冗余与容错
- RAID :将多个物理磁盘组合成一个逻辑单元,提供性能提升和数据冗余;
- 复制 Replication(多副本):在分布式系统中,将同一份数据(分片/对象)的多个副本存储在不同节点,提高可用性和容错能力。
数据保护与恢复
- 备份 Backup:将数据复制到另一个独立的存储介质/位置,用于灾难恢复;
- 快照 Snapshot:在特定时间点创建数据集的只读副本,速度快(通常是指针引用),用于快速回复或克隆。
- 复制/容灾(Replication/DR):将数据实时或近实时地复制到异地站点,保证业务连续性。
缓存
将频繁访问的数据副本存储在更快的介质(如内存、SSD)中,提升访问速度。
常见位置:CPU Cache;操作系统Page Cache;数据库缓存;应用缓存。
数据一致性模型
数据一致性:在分布式系统或并发访问下,客户端何时能看到最新的数据写入。
- 强一致性:任何读取都能看到最新写入的结果,实现复杂且可能影响性能;
- 最终一致性:若不再有新的写入,经过一段时间后,所有副本最终会达到一致状态
数据压缩与数据去重
- 数据压缩 Compression :减少数据占用的物理存储空间;
- 数据去重:识别并消除存储系统中重复的数据块,常用于备份系统和对象存储。
参考内容
- 架构师之路 - 存储架构-阿里云开发者社区
- 存储系列之 DAS、SAN、NAS三种常见架构概述 - orange-C - 博客园
- 一文读懂三种存储技术DAS,SAN和NAS的区别 - 知乎