Minio文件系统
文章目录
- 1 Minio介绍
- 2 Minio安装
- 1_安装DockerCompose
- 2_集群架构介绍
- 3_安装Minio集群
- 3 Minio客户端
- 1_Bucket
- 2_用户管理
- 4 SDK
- 1_依赖说明
- 2_上传文件
- 3_删除文件
- 4_查询文件
- 5_获取图片地址/预签名URL
- 5 Minio原理讲解
- 1_数据的存储结构
- 2_纠删码
- 1 什么是纠删码
- 2 EC(4+2)编解码简介
- 3 EC存储的优缺点
- 3_EC纠删码原理
1 Minio介绍
MinIO是全球领先的对象存储先锋,是一个非常轻量的服务,可以很简单的和其他应用的结合使用。
- 高性能 ,在标准硬件上,读/写速度上高达183GB/秒和171GB/秒,拥有更高的吞吐量和更低的延迟
- 可扩展性 ,为对象存储带来了简单的缩放模型,通过添加更多集群可以扩展空间
- 简单 ,极简主义是MinIO的指导性设计原则,即可在几分钟内安装和配置
- 与Amazon S3兼容 ,兼荣亚马逊云的
S3 API
(接口协议/云存储服务接口)是在全球范围内达到共识的对象存储的协议,是全世界内大家都认可的标准 - 数据安全 ,使用纠删码来保护数据免受硬件故障和无声数据损坏
官网:https://min.io
中文:https://www.minio.org.cn/,http://docs.minio.org.cn/docs/
下载地址:https://dl.min.io/server/minio/release/
2 Minio安装
为了快速搞定Minio的部署工作。我们通过Docker-Compose来一键快速部署操作
1_安装DockerCompose
安装DockerCompose的前提是先安装一个Docker环境,如果还没安装请参考此博客地址:https://shenyang.blog.csdn.net/article/details/144206701
Compose 是用于定义和运行多容器 Docker 应用程序的工具。通过 Compose,您可以使用 YAML 文件来配置应用程序需要的所有服务。然后,使用一个命令,就可以从 YAML 文件配置中创建并启动所有服务。
一键启动所有的服务
DockerCompose的使用步骤:https://shenyang.blog.csdn.net/article/details/144403709
2_集群架构介绍
MinIO集群采用去中心化共享架构,每个结点是对等关系,通过Nginx可对MinIO进行负载均衡访问。
去中心化有什么好处?
在大数据领域,通常的设计理念都是无中心和分布式。Minio分布式模式可以帮助你搭建一个高可用的对象存储服务,你可以使用这些存储设备,而不用考虑其真实物理位置。
它将分布在不同服务器上的多块硬盘组成一个对象存储服务。由于硬盘分布在不同的节点上,分布式Minio避免了单点故障。如下图:
3_安装Minio集群
官方推荐 docker-compose.yaml
,稍加修改,内容如下:
version: '3.7'
# 所有容器通用的设置和配置
x-minio-common: &minio-common
image: minio/minio
command: server --console-address ":9001" http://minio{1...4}/data
expose:
- "9000"
# environment:
# MINIO_ROOT_USER: minioadmin
# MINIO_ROOT_PASSWORD: minioadmin
healthcheck:
test: ["CMD", "curl", "-f", "http://localhost:9000/minio/health/live"]
interval: 30s
timeout: 20s
retries: 3
# 启动4个docker容器运行minio服务器实例
# 使用nginx反向代理9000端口,负载均衡, 你可以通过9001、9002、9003、9004端口访问它们的web console
services:
minio1:
<<: *minio-common
hostname: minio1
ports:
- "9001:9001"
volumes:
- ./data/data1:/data
minio2:
<<: *minio-common
hostname: minio2
ports:
- "9002:9001"
volumes:
- ./data/data2:/data
minio3:
<<: *minio-common
hostname: minio3
ports:
- "9003:9001"
volumes:
- ./data/data3:/data
minio4:
<<: *minio-common
hostname: minio4
ports:
- "9004:9001"
volumes:
- ./data/data4:/data
nginx:
image: nginx:1.19.2-alpine
hostname: nginx
volumes:
- ./config/nginx.conf:/etc/nginx/nginx.conf:ro
ports:
- "9000:9000"
depends_on:
- minio1
- minio2
- minio3
- minio4
接着新建文件夹 config
,新建配置 nginx.conf
user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 4096;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main;
sendfile on;
keepalive_timeout 65;
# include /etc/nginx/conf.d/*.conf;
upstream minio {
server minio1:9000;
server minio2:9000;
server minio3:9000;
server minio4:9000;
}
server {
listen 9000;
listen [::]:9000;
server_name localhost;
# To allow special characters in headers
ignore_invalid_headers off;
# Allow any size file to be uploaded.
# Set to a value such as 1000m; to restrict file size to a specific value
client_max_body_size 0;
# To disable buffering
proxy_buffering off;
location / {
proxy_set_header Host $http_host;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_set_header X-Forwarded-Proto $scheme;
proxy_connect_timeout 300;
# Default is HTTP/1, keepalive is only enabled in HTTP/1.1
proxy_http_version 1.1;
proxy_set_header Connection "";
chunked_transfer_encoding off;
proxy_pass http://minio;
}
}
}
然后执行对应的命令
docker compose up -d
访问控制台:http://192.168.200.129:9001/login
默认账号密码为:minioadmin
3 Minio客户端
我们可以创建一个Java项目来操作文件上传下载操作。
1_Bucket
Bucket是桶的意思,我们创建一个Bucket。
我们还可以直接上传图片文件等
2_用户管理
针对客户端的操作,我们需要维护相关的账号来管理。
直接点击创建相关的用户即可
用户创建完成后我们就可以通过客户端工具来操作了。
4 SDK
MinIO 提供多个语言版本 SDK 的支持,下边找到 JAVA 版本的文档。
快速文档地址:https://docs.min.io/docs/java-client-quickstart-guide.html
API 文档地址:https://min.io/docs/minio/linux/developers/java/API.html
最低需求Java 1.8或更高版本;在API文档中可以查看到说明,操作主要分为两大类:
- 对桶的操作
- 对文件对象的操作
1_依赖说明
首先添加必要的依赖
<dependency>
<groupId>io.minio</groupId>
<artifactId>minio</artifactId>
<version>8.5.17</version>
</dependency>
这里需要三个参数才能连接到minio服务。
参数 | 说明 |
---|---|
Endpoint | 对象存储服务的URL |
Access Key | Access key就像用户ID,可以唯一标识你的账户。 |
Secret Key | Secret key是你账户的密码。 |
然后通过相关的API操作即可,修改自官方示例:
import io.minio.BucketExistsArgs;
import io.minio.MakeBucketArgs;
import io.minio.MinioClient;
import io.minio.UploadObjectArgs;
import io.minio.errors.MinioException;
import java.io.IOException;
import java.security.InvalidKeyException;
import java.security.NoSuchAlgorithmException;
public class FileUploader {
// 准备参数
private static final String endpoint = "http://192.168.200.129:9000";
private static final String accessKey = "shenyang";
private static final String secretKey = "12345678";
public static void main(String[] args)
throws IOException, NoSuchAlgorithmException, InvalidKeyException {
// 创建MinIO客户端
try (MinioClient minioClient = MinioClient.builder()
.endpoint(endpoint)
.credentials(accessKey, secretKey)
.build()) {
// 如果不存在则创建存储桶 test
boolean found = minioClient.bucketExists(BucketExistsArgs.builder().bucket("test").build());
if (!found) {
// Make a new bucket called 'test'.
minioClient.makeBucket(MakeBucketArgs.builder().bucket("test").build());
} else {
System.out.println("Bucket 'test' already exists.");
}
// 上传文件到存储桶中
minioClient.uploadObject(UploadObjectArgs.builder()
.bucket("test")
.object("my.txt")
.filename("upload.txt")
.build());
System.out.println("'/classpath/upload.txt' is successfully uploaded as " + "my.txt' to bucket 'test'.");
} catch (MinioException e) {
System.out.println("Error occurred: " + e);
System.out.println("HTTP trace: " + e.httpTrace());
} catch (Exception e) {
throw new RuntimeException(e);
}
}
}
执行后成功:
搞定
2_上传文件
根据上面的操作其实我们已经基本了解到了如何去上传文件,再以如下示例详细说明
public void upload(MinioClient minioClient) {
try {
UploadObjectArgs uploadObjectArgs = UploadObjectArgs.builder()
.bucket("test")
.object("001/test.mp4")//添加子目录
.filename("D:\\WorkSpace\\IdeaProject\\minio_test\\src\\main\\resources\\mp4.temp")
.contentType("video/mp4")//默认根据扩展名确定文件内容类型,也可以指定
.build();
minioClient.uploadObject(uploadObjectArgs);
System.out.println("上传成功");
} catch (Exception e) {
e.printStackTrace();
System.out.println("上传失败");
}
}
3_删除文件
参考:https://min.io/docs/minio/linux/developers/java/API.html#restoreObject
public void delete(MinioClient minioClient) {
try {
minioClient.removeObject(RemoveObjectArgs.builder()
.bucket("test")
.object("001/test.mp4").build());
System.out.println("删除成功");
} catch (Exception e) {
e.printStackTrace();
System.out.println("删除失败");
}
}
4_查询文件
通过查询文件查看文件是否存在minio中。
参考:https://min.io/docs/minio/linux/developers/java/API.html#getObject
public void getFile(MinioClient minioClient) {
GetObjectArgs getObjectArgs = GetObjectArgs.builder().bucket("test").object("001/test.mp4").build();
try (
FilterInputStream inputStream = minioClient.getObject(getObjectArgs);
FileOutputStream outputStream = new FileOutputStream("D:\\WorkSpace\\IdeaProject\\minio_test\\src\\main\\resources\\test.mp4");
) {
IOUtils.copy(inputStream, outputStream);
} catch (Exception e) {
e.printStackTrace();
}
}
不是把文件下载到本地后就结束了,我们还需要对其进行校验才能确保下载的是一个完整的、没有缺失的文件。
文件的完整性校验:对文件计算出MD5值,比较原始文件的MD5和目标文件的MD5,一致则说明完整。
//校验文件的完整性对文件的内容进行md5
FileInputStream sourceInputStream = new FileInputStream("D:\\WorkSpace\\IdeaProject\\minio_test\\src\\main\\resources\\test.mp4");
String source_md5 = DigestUtils.md5Hex(sourceInputStream);
FileInputStream localInputStream = new FileInputStream("D:\\WorkSpace\\IdeaProject\\minio_test\\src\\main\\resources\\test.mp4");
String local_md5 = DigestUtils.md5Hex(localInputStream);
if(source_md5.equals(local_md5)){
System.out.println("下载成功");
}
5_获取图片地址/预签名URL
如果上传的是普通文件,我们可以获取对应的字节流来操作。
但是如果我们需要获取的是图片,只要访问就可以了。
这时我们可以通过对应的API来获取图片的URL地址就可以了。
使用预签名API生成用于获取对象元数据的预签名 URL,仅用于查看对象的元数据而不下载实际内容。
参考:https://min.io/docs/minio/linux/developers/java/API.html#getPresignedObjectUrl
public void getFileUrl(MinioClient minioClient) throws ServerException, InsufficientDataException, ErrorResponseException, IOException, NoSuchAlgorithmException, InvalidKeyException, InvalidResponseException, XmlParserException, InternalException {
Map<String, String> reqParams = new HashMap<>();
reqParams.put("response-content-type", "image/png");//响应的文件格式类型,默认根据扩展名确定响应内容类型,也可以指定
String url = minioClient.getPresignedObjectUrl(GetPresignedObjectUrlArgs.builder()
.method(Method.GET) //GET请求: 获取到的URL该以什么样的方式进行访问
.bucket("test")
.object("10937845.jpg")
.expiry(2, TimeUnit.HOURS) //过期时间
.extraQueryParams(reqParams) //扩展请求参数
.build());
System.out.println(url);
//http://192.168.200.129:9000/test/10937845.jpg?response-content-type=image%2Fpng&X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=shenyang%2F20250407%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20250407T082144Z&X-Amz-Expires=7200&X-Amz-SignedHeaders=host&X-Amz-Signature=25460ca63a2359a7a267361d14a60c2c53dea41b1486f5f1c4b020bdeffee5d0
}
访问控制台打印的 URL:
可以看到,Minio 给我们生成的 URL 十分长,这是因为我们Bucket的访问策略为 Private,所以URL中会含有一些生成的秘钥相关信息。
如果我们设置Bucket的访问策略为 Public,那么可以直接使用http://{minio_url}/{bucket_name}/{file_path}
作为资源路径进行访问。
改变访问策略
直接访问就可以了,如果存在疑问可以在 Private 访问策略下使用此资源路径直接访问进行对比验证。
搞定~
5 Minio原理讲解
1_数据的存储结构
我们在Minio中存储一个比较大的文件,如下:
然后我们进入对应的磁盘目录中查看
可以看到在4个磁盘目录中都有上传的文件。
而且对应的目录下都有 part.1
和 xl.meta
数据,前者是编码数据块及检验块,后者是元数据文件。
而且可以看看每个文件的大小都是 40M【part.1】
ls -lh data/data4/test/001/1.mp4/7397857d-6ed9-43f9-860b-fa9efcf7462e/part.1
2_纠删码
参考文档:https://min.io/docs/minio/linux/operations/concepts/erasure-coding.html
1 什么是纠删码
Minio 使用纠删码技术来保护数据,纠删码是一种恢复丢失和损坏数据的数学算法, 它将数据分块冗余的分散存储在各各节点的磁盘上,所有的可用磁盘组成一个集合。
Minio 当上传一个文件时会通过纠删码算法计算对文件进行分块存储,默认采用 Reed-Solomon code 将数据拆分成N/2个数据块(文件本身)和N/2个奇偶校验块。
这就意味着如果是16块盘,一个对象会被分成8个数据块、8个奇偶校验块,你可以丢失任意8块盘(不管其是存放的数据块还是校验块),你仍可以从剩下的盘中的数据进行恢复。
总结——之后统一简称为EC
EC:纠删码-Erasure Code,是一种编码理论:
- EC是纠错码的一种,通过增加校验片,保证数据可靠性。
- 特性:将数据分成k个分片,生成m个校验片,假设n=k+m,在n个分片中任意选取k个分片,就可以将原始数据恢复回来。
EC不仅应用在存储领域,通信领域也是EC的主要应用场景。
2 EC(4+2)编解码简介
上图可以简单说明EC(4+2)的编码、解码以及故障恢复的主要流程,包括:
- chunk:将数据进行分片,如图分成4个片:d1、d2、d3、d4.
- encode:根据4个数据片,生成2个校验片(生成校验片的逻辑请看下一节),这样就形成4+2的EC数据片
- 故障:4+2的EC,允许这6个数据片任意损坏2个,假如损坏了d2和c1,如图
- decode:通过d1、d3、d4、c2,根据EC的计算,可以算出原始的数据块
- re-encode:将原始的数据块分成d1、d2、d3、d4,再次计算出c1、c2
- replace:将损坏的数据块d2、c1进行替换掉即可
可以发现EC的故障恢复比副本更复杂,副本直接再copy一份即可,但是EC比副本的优势是成本,相比于3副本,EC在保证同样可靠性的同时,并不需要保存3份数据。
3 EC存储的优缺点
优势
- 磁盘利用率高,存储成本低,通常是3副本存储的一半,甚至更低
- 和3副本相比,有较低的网络开销,尤其在write的时候表现明显
劣势
- 在编、解码过程中通常有较大的CPU占用和网络开销,主要体现在write和故障read、故障恢复的情况下
- EC必须满条带的读写,不足条带的情况下会有padding
- 和3副本相比,EC存储系统更复杂,集群稳定性挑战更大
EC编码的缺点,使得EC最开始并没有应用在线数据,一般都是应用在低频存储中,何为低频存储,就是访问频次较低数据的存储系统中,不过目前已经有的在线存储也开始使用EC编码了。