当前位置：首页 > news >正文

【Pyhton】文件读取：读取整个（大型）文件

news 2025/7/7 20:59:21

正常情况下，如果文件不是很大，内存能够满足要求，使用内存读取就ok

读取大型文件时，直接将整个文件内容加载到内存中可能会导致内存不足的问题。为了避免这种情况，Python 提供了多种高效的方法来逐块或逐行读取大型文件。以下是几种常见的方法：

方法1：逐行读取

逐行读取文件是一种非常高效的方式，因为它一次只处理文件的一行，不会占用过多内存。

with open('large_file.txt', 'r', encoding='utf-8') as file:for line in file:# 处理每一行print(line.strip())  # 使用 strip() 去除换行符

这种方法适用于大多数文本文件，尤其是当文件内容是按行组织时。

方法2：按块读取

如果文件非常大，或者文件内容不是按行组织的，可以按固定大小的块读取文件。这种方法可以更灵活地控制内存使用。

# 定义块大小（例如，每次读取 1024 字节）
chunk_size = 1024with open('large_file.txt', 'r', encoding='utf-8') as file:while True:chunk = file.read(chunk_size)  # 按块读取文件if not chunk:  # 如果读取到文件末尾，退出循环break# 处理每个块print(chunk)

这种方法适用于二进制文件或需要逐块处理的场景。

方法3：使用 `readline()` 方法逐行读取

如果需要逐行读取文件，但需要更精细的控制（例如，跳过某些行），可以使用 readline() 方法。

with open('large_file.txt', 'r', encoding='utf-8') as file:while True:line = file.readline()if not line:  # 如果读取到文件末尾，退出循环break# 处理每一行print(line.strip())

这种方法比直接使用 for line in file 稍微复杂一些，但在某些情况下可以更灵活地控制读取行为。

方法4：使用 `pandas` 逐块读取

如果文件是 CSV 或其他表格数据格式，可以使用 pandas 库的 read_csv() 方法逐块读取文件。pandas 提供了高效的内存管理功能，特别适合处理大型表格数据。

import pandas as pd# 定义块大小（例如，每次读取 1000 行）
chunk_size = 1000# 使用 pandas 的 read_csv 方法逐块读取文件
for chunk in pd.read_csv('large_file.csv', chunksize=chunk_size):# 处理每个块print(chunk)

这种方法适用于 CSV 文件或其他表格数据文件。

方法5：使用 `mmap` 模块

对于非常大的二进制文件，可以使用 mmap 模块将文件映射到内存中。这种方法可以高效地访问文件的任意部分，而不需要一次性加载整个文件。

import mmapwith open('large_file.bin', 'r+b') as file:# 将文件映射到内存中with mmap.mmap(file.fileno(), length=0, access=mmap.ACCESS_READ) as mmap_obj:# 逐块读取文件内容for i in range(0, mmap_obj.size(), 1024):  # 假设每次读取 1024 字节chunk = mmap_obj.read(1024)# 处理每个块print(chunk)

这种方法适用于二进制文件，尤其是需要随机访问文件内容的场景。

方法6：使用生成器逐行读取

如果需要更灵活地处理文件内容，可以定义一个生成器函数来逐行读取文件。

def read_large_file(file_path):with open(file_path, 'r', encoding='utf-8') as file:for line in file:yield line.strip()# 使用生成器逐行读取文件
for line in read_large_file('large_file.txt'):print(line)