当前位置: 首页 > news >正文

Linux 文件系统:恢复已删除文件的挑战

如今,Linux 操作系统越来越受欢迎。它的明显优势首先是免费。此外,该操作系统提供了种类繁多的版本及其衍生产品,可满足从手机到超级计算机等设备的不同用户需求。

Linux 操作系统使用独有的文件系统,包括 Ext2、Ext3 和 Ext4、XFS、ReiserFS、JFS (JFS2) 等。Linux 文件系统的功能各不相同,每个系统都有特定的用途。在文件删除过程中,每个文件系统都以自己的方式运行,导致不同的恢复结果,有时甚至会失败。

Linux 操作系统中数据是如何组织的?

与大多数其他文件系统一样,Linux 文件系统使用块数据结构。在逻辑层面,数据存储以小数据单元 - 扇区 - 通常为 512 字节大小运行。可以将存储扇区想象为具有序号的单元格。在写入数据片段时,需要一个或多个这样的扇区。在读取存储驱动程序地址此扇区的数据。

为了优化磁盘寻址,文件系统将相等的扇区集组合成可在逻辑级别使用文件系统驱动程序寻址的块。最小可能的区块大小是一个扇区。大多数文件系统(包括 Linux 文件系统)都使用块作为最小的可寻址磁盘单元。通常,小于一个块的文件或其片段将占用整个块。但是,某些文件系统(如 ReiserFS)可能会使用块内的剩余空间来分配小文件和文件片段。
通常,存储上的数据是这样组织的:一个文件被分配到一个块中;如果文件的大小超过块,则文件系统会再提供一个块来分配文件(ReiserFS 等情况除外)。数据被写入空闲磁盘块,不被任何文件或元数据(文件系统的技术信息)使用。

可用空间和碎片

许多连续或并发的请求 'create file', 'append data', 'truncate data', 'delete file' 使文件系统上的可用空间变得碎片化。

文件碎片

上图显示了最简单的碎片示例。在写入文件 3 时,没有空间按顺序写入文件片段,因此同一文件的片段被分配到两个未链接的空闲块中。在实践中,大文件可能包含多达数百个未链接的数据片段,每个片段有几个块。
文件系统不会立即使用 'delete' 命令擦除文件的片段,而是将这些片段占据的位置标记为 free。新文件将这个地方视为可以免费占用。因此,除非被新文件覆盖,否则文件实际上仍然是可恢复的。

碎片是如何链接的?

文件系统使用描述文件的特殊代理 – 信息节点 (简称 – inode) – 来链接有关文件碎片的信息。此信息包括对象类型、大小、分配表/列表/树的描述。
读取 inode,文件系统可以确定对象的类型并决定进一步的作 – 读/写/处理。Object size 表示对象占用的块数。最后,对象分配提供有关数据块实际位置的信息。对象分配数据按以下方式组织:这些数据的关键部分是指向数据块或块的连续片段的指针的数组、列表或 B 树。此信息的第一部分或根作为 inode 的一部分存储。

恢复问题

通常,Linux 文件系统会在文件删除后清理部分 inode 信息。它们用零填充有关对象大小、对象类型/模式和分配的信息,从而导致有关文件的所有信息丢失。我们假设上图中的文件 2 和 3 是没有标头的 RAW 加密文件,并且两者都占用了完整的块,并且都被删除了。因此,没有关于文件分配的信息,使得数据恢复软件无法检测文件 2 和文件 3 的边界。遗憾的是,在实践中,是情况愈发恶化的数据恢复操作对于 Linux 文件系统来说太常见了。这通常受大量文件碎片等因素的影响。

解决方案

幸运的是,数据恢复软件提供了一组恢复方法,但不能保证 100% 的结果。他们包括:

  • 文件系统日志的分析。以前版本的文件描述符可能仍保留在日志中。
  • 分析不完整的结构。该软件可以通过可能仍在磁盘上的未擦除的文件元数据片段来预测文件系统文件。
  • 基于签名的搜索:软件搜索已知的文件片段,并对以下片段的内容进行假设。但恢复结果通常不会给出确切的文件大小,除非找到本身包含文件大小的文件名头。这种方法对于严重碎片化的情况是无能为力的。
  • 统计片段分析:该软件根据数据分析的统计方法对片段链接进行假设。这种方法对同质文件(大多数 bmp 图片、一些档案等)有帮助,但对异源内容(如 CD/DVD 映像等)无能为力。
  • 搜索丢失的文件系统结构:该软件查找丢失的文件系统结构,帮助确定丢失片段的布局。

如果您打算自己进行数据恢复,请准备好执行大量手动工作来分析未命名文件或文件片段,因为大多数数据恢复软件在从 Linux 文件系统恢复后通常会产生不完整的恢复。
而优秀的数据恢复软件则具有强大的机制,包括按签名进行 IntelliRAW™ 搜索,允许用户识别文件类型和分析文件系统结构。使用高效的软件技术,能够以最少的工作量获得最好的恢复结果。

相关文章:

  • 【大模型】阿里云百炼平台对接DeepSeek-R1大模型使用详解
  • 【深度强化学习】Actor-Critic 算法
  • 一个根据输入内容过滤下拉选的组件
  • 网络编程-
  • 设计模式Python版 命令模式(下)
  • Keysight E5071C (Agilent) 网络分析仪的特性和规格
  • DeepSeek 本地部署(电脑安装)
  • 笔试题笔记#6 模拟三道题和总结知识
  • CTF-web:java-h2 堆叠注入rce -- N1ctf Junior EasyDB
  • 消息中间件深度剖析:以 RabbitMQ 和 Kafka 为核心
  • vue2和vue3响应式区别最通俗易懂的理解
  • 图文教程 | 2024年IDEA安装使用教程,JDK简易下载方法
  • SpringBoot 统一功能处理
  • 面试经典150题——分治
  • SkyWalking 10.1.0 实战:从零构建全链路监控,解锁微服务性能优化新境界
  • element-ui时间组件同一个月内选择/30天内选择
  • AI 学习入门之概述篇
  • KEPServerEX 的接口类型与连接方式的详细说明
  • 基于和声搜索(Harmony Search, HS)的多中心点选址优化算法matlab仿真
  • Flutter_学习记录_动画的简单了解
  • 取得金奖西瓜品种独家使用权的上海金山,为何要到异地“试种”?
  • 内蒙古赤峰市城建集团董事长孙广通拟任旗县区党委书记
  • 气急败坏!20多名台湾艺人被台当局列为“重点核查对象”
  • 幼儿园教师拍打孩子额头,新疆库尔勒教育局:涉事教师已被辞退
  • 福州一宋代古墓被指沦为露天厕所,仓山区博物馆:已设置围挡
  • 新修订的《餐饮业促进和经营管理办法》公布,商务部解读