当前位置: 首页 > news >正文

基于Mongodb的分布式文件存储实现

分布式文件存储的方案有很多,今天分享一个基于mongodb数据库来实现文件的存储,mongodb支持分布式部署,以此来实现文件的分布式存储。

基于 MongoDB GridFS 的分布式文件存储实现:从原理到实战

一、引言

当系统存在大量的图片、视频、文档等文件需要存储和管理时,对于分布式系统而言,如何高效、可靠地存储这些文件是一个关键问题。MongoDB 的 GridFS 作为一种分布式文件存储机制,为我们提供了一个优秀的解决方案。它基于 MongoDB 的分布式架构,能够轻松应对海量文件存储的挑战,同时提供了便捷的文件操作接口。

二、GridFS 原理剖析

GridFS 是 MongoDB 中用于存储大文件的一种规范。它将文件分割成多个较小的 chunks(默认大小为 256KB),并将这些 chunks 存储在 fs.chunks 集合中,而文件的元数据(如文件名、大小、创建时间、MIME 类型等)则存储在 fs.files 集合中。这样的设计不仅能够突破 MongoDB 单个文档大小的限制(默认 16MB),还能利用 MongoDB 的分布式特性,实现文件的分布式存储和高效读取。

例如,当我们上传一个 1GB 的视频文件时,GridFS 会将其切分为约 4096 个 256KB 的 chunks,然后将这些 chunks 分散存储在不同的 MongoDB 节点上,同时在 fs.files 集合中记录文件的相关信息。

三、Spring Boot 集成 GridFS

在实际项目中,我们通常使用 Spring Boot 与 MongoDB 结合,下面是具体的集成步骤与代码示例。

3.1 添加依赖

在 pom.xml 文件中添加 Spring Boot 与 MongoDB 相关依赖:

<dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-mongodb</artifactId></dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency>
</dependencies>

3.2 配置 MongoDB 连接

在 application.properties 中配置 MongoDB 的连接信息:

spring.data.mongodb.uri=mongodb://localhost:27017/fs
spring.data.mongodb.database=fs

3.3 编写服务类

使用 GridFsTemplate 和 GridFSBucket 来实现文件的上传、下载、删除等操作:

@Service
publicclass MongoFsStoreService implements FsStoreService {privatefinal GridFsTemplate gridFsTemplate;private GridFSBucket gridFSBucket;public MongoFsStoreService(GridFsTemplate gridFsTemplate) {this.gridFsTemplate = gridFsTemplate;}@Autowired(required = false)public void setGridFSBucket(GridFSBucket gridFSBucket) {this.gridFSBucket = gridFSBucket;}/*** 上传文件* @param in* @param fileInfo* @return*/@Overridepublic FileInfo uploadFile(InputStream in, FileInfo fileInfo){ObjectId objectId = gridFsTemplate.store(in, fileInfo.getFileId(), fileInfo.getContentType(), fileInfo);fileInfo.setDataId(objectId.toString());return fileInfo;}/**** @param in* @param fileName* @return*/@Overridepublic FileInfo uploadFile(InputStream in, String fileName) {FileInfo fileInfo = FileInfo.fromStream(in, fileName);return uploadFile(in, fileInfo);}/**** @param fileId* @return*/@Overridepublic File downloadFile(String fileId){GridFsResource gridFsResource = download(fileId);if( gridFsResource != null ){GridFSFile gridFSFile = gridFsResource.getGridFSFile();FileInfo fileInfo = JsonHelper.convert(gridFSFile.getMetadata(), FileInfo.class);try(InputStream in = gridFsResource.getInputStream()) {return FileHelper.newFile( in, fileInfo.getFileId() ); //} catch (IOException e) {thrownew RuntimeException(e);}}returnnull;}/*** 查找文件* @param fileId* @return*/public GridFsResource download(String fileId) {GridFSFile gridFSFile = gridFsTemplate.findOne(Query.query(GridFsCriteria.whereFilename().is(fileId)));if (gridFSFile == null) {returnnull;}if( gridFSBucket == null ){return gridFsTemplate.getResource(gridFSFile.getFilename());}GridFSDownloadStream downloadStream = gridFSBucket.openDownloadStream(gridFSFile.getObjectId());returnnew GridFsResource(gridFSFile, downloadStream);}/*** 删除文件* @param fileId*/@Overridepublic void deleteFile(String fileId) {gridFsTemplate.delete(Query.query(GridFsCriteria.whereFilename().is(fileId)));}}

3.4 创建控制器

提供 REST API 接口,方便外部调用:

@RestController
@RequestMapping("/mongo")
publicclass MongoFsStoreController {privatefinal MongoFsStoreService mongoFsStoreService;public MongoFsStoreController(MongoFsStoreService mongoFsStoreService) {this.mongoFsStoreService = mongoFsStoreService;}/**** @param file* @return*/@RequestMapping("/upload")public ResponseEntity<Result> uploadFile(@RequestParam("file") MultipartFile file){try(InputStream in = file.getInputStream()){FileInfo fileInfo = convertMultipartFile(file);return ResponseEntity.ok( Result.ok(mongoFsStoreService.uploadFile(in, fileInfo)) );}catch (Exception e){return ResponseEntity.ok( Result.fail(HttpStatus.INTERNAL_SERVER_ERROR.value(), e.getMessage()) );}}private FileInfo convertMultipartFile(MultipartFile file){FileInfo fileInfo = new FileInfo();fileInfo.setType(FilenameUtils.getExtension(file.getOriginalFilename()));fileInfo.setFileId(UUID.randomUUID().toString() + "." + fileInfo.getType()); //fileInfo.setFileName(file.getOriginalFilename());fileInfo.setSize(file.getSize());fileInfo.setContentType(file.getContentType());fileInfo.setCreateTime(new Date());return fileInfo;}/**** @param fileId* @param response*/@RequestMapping("/download")public void downloadFile(@RequestParam("fileId") String fileId, HttpServletResponse response){File file = mongoFsStoreService.downloadFile(fileId);if( file != null ){response.setContentType("application/octet-stream");response.setHeader("Content-Disposition", "attachment; filename=\"" + file.getName() + "\"");try {FileUtils.copyFile(file, response.getOutputStream());} catch (IOException e) {thrownew RuntimeException(e);}}}@RequestMapping("/download/{fileId}")public ResponseEntity<InputStreamResource> download(@PathVariable("fileId") String fileId) throws IOException {GridFsResource resource = mongoFsStoreService.download(fileId);if( resource != null ){GridFSFile gridFSFile = resource.getGridFSFile();FileInfo fileInfo = JsonHelper.convert(gridFSFile.getMetadata(), FileInfo.class);return ResponseEntity.ok().header(HttpHeaders.CONTENT_DISPOSITION, "attachment; filename=\"" + fileInfo.getFileName() + "\"").contentLength(fileInfo.getSize())
//                    .contentType(MediaType.parseMediaType(fileInfo.getContentType())).body(new InputStreamResource(resource.getInputStream()));}
//        return ResponseEntity.noContent().build();return ResponseEntity.internalServerError().build();}/**** @param fileId* @return*/@RequestMapping("/delete")public ResponseEntity<String> deleteFile(@RequestParam("fileId") String fileId){mongoFsStoreService.deleteFile(fileId);return ResponseEntity.ok("删除成功");}

四、实战中的常见问题与解决方案

4.1 文件下载时的内存管理

在下载文件时,GridFSDownloadStream 提供了流式处理的能力,避免一次性将整个文件加载到内存中。我们可以通过 GridFsResource 将流包装后直接返回给客户端,实现边读边传,从而节省内存。例如:

// 正确:直接返回 InputStreamResource,边读边传
return ResponseEntity.ok().body(new InputStreamResource(resource.getInputStream()));

而应避免将整个文件读取到字节数组中再返回,如以下错误示例:

// 错误:将整个文件加载到内存再返回
byte[] content = resource.getInputStream().readAllBytes(); 
return ResponseEntity.ok().body(content);

五、总结

基于 MongoDB GridFS 的分布式文件存储方案,凭借其独特的文件分块存储原理和与 MongoDB 分布式架构的紧密结合,为我们提供了一种高效、可靠的文件存储方式。通过 Spring Boot 的集成,我们能够快速在项目中实现文件的上传、下载、查询和删除等功能。在实际应用过程中,我们需要关注内存管理、数据类型转换、时间类型处理等常见问题,并采用合适的解决方案。随着技术的不断发展,GridFS 也在持续优化和完善,将为更多的分布式文件存储场景提供强大的支持。

对于中小文件存储,GridFS 是一个简单高效的选择;对于超大规模文件或需要极致性能的场景,可以考虑结合对象存储(如 MinIO、S3)使用。

相关文章:

  • 旧 docker 版本通过 nvkind 搭建虚拟多节点 gpu 集群的坑
  • Ubuntu 22.04 上安装 Drupal 10并配置 Nginx, mysql 和 php
  • Spark,SparkSQL操作Mysql, 创建数据库和表
  • uni-app 中适配 App 平台
  • (面试)Android各版本新特性
  • 还没用过智能文档编辑器吗?带有AI插件的ONLYOFFICE介绍
  • 基于OpenCV的SIFT特征匹配指纹识别
  • 【第76例】IPD流程实战:华为业务流程架构BPA进化的4个阶段
  • 架构与UML4+1视图
  • 如何将数据从一部手机传输到另一部手机 | 5 种便捷传输方式
  • linux 服务器安装jira-8.22.0和confluence-8.5.21
  • 排序算法之高效排序:快速排序,归并排序,堆排序详解
  • nginx Permission denied
  • virtualbox虚拟机中的ubuntu 20.04.6安装新的linux内核5.4.293 | 并增加一个系统调用 | 证书问题如何解决
  • 反向传播算法:神经网络的核心优化方法,一文打通任督二脉
  • Excel MCP: 自动读取、提炼、分析Excel数据并生成可视化图表和分析报告
  • 车道线检测----CLRKDNet
  • 5.9/Q1,GBD数据库最新文章解读
  • IDEA怎么汉化idea中文改回英文版
  • 【Java微服务组件】分布式协调P1-数据共享中心简单设计与实现
  • 从近200件文物文献里,回望光华大学建校百年
  • 竞彩湃|欧联杯决赛前,曼联、热刺继续划水?
  • 中期选举后第三势力成“莎拉弹劾案”关键,菲律宾权斗更趋复杂激烈
  • 南昌上饶领导干部任前公示:2人拟提名为县(市、区)长候选人
  • 《大风杀》导演张琪:为了不算计观众,拍了部不讨好的警匪片
  • 最高人民法院、中国证监会联合发布《关于严格公正执法司法 服务保障资本市场高质量发展的指导意见》