当前位置：首页 > news >正文

为什么python处理csv文件将某个值替换成另一个值并另存后，csv文件的大小减小了一半

news 来源：原创 2025/6/28 19:49:50

这是个非常常见但容易让人疑惑的问题。在 Python 中处理 CSV 文件，将某个值替换成另一个值并另存后，发现 文件大小大幅减少（减半），这并不一定是异常，背后通常有以下几种可能原因：

如果你将 大量长字符串替换为短字符串，或者清除了很多内容，自然会减小文件体积。

# 替换长字符串为短字符串
row['status'] = row['status'].replace("This is a long string", "short")

Python 读写 CSV 时，标准化了格式，导致体积变小：

with open('file.csv', newline='', encoding='utf-8') as f:reader = csv.DictReader(f)

这会统一换行、去除空字段等。

有些 Excel 导出的 CSV 会携带：

Python 以 UTF-8 重写后，文件变干净，体积自然减小。

如果你用 DictWriter 只写入了你指定的列，而不是原始 CSV 的全部列，也可能导致文件缩小：

writer = csv.DictWriter(outfile, fieldnames=["id", "status"])

这种方式不会保留原 CSV 中未指定的其他列。

你可以比较原始和处理后的 CSV 文件的以下几个方面：

wc -l original.csv processed.csv       # 行数
wc -c original.csv processed.csv       # 字节大小
diff original.csv processed.csv        # 差异对比

或者用 Python 分析内容差异：

import pandas as pd
df1 = pd.read_csv("original.csv")
df2 = pd.read_csv("processed.csv")
print(df1.shape, df2.shape)