当前位置：首页 > news >正文

预分配矩阵内存提升文件数据读取速度

news 2025/7/11 0:05:19

预分配矩阵内存提升文件数据读取速度

在 MATLAB 中，预分配矩阵内存是提升代码性能的重要技巧，尤其在循环中动态扩展矩阵时效果显著。以下是结合数据处理场景，对预分配矩阵如何提高性能的详细分析：

一、为什么动态扩展矩阵会影响性能？

1. 内存重新分配的开销

当使用 file_data(:, k) = data(:, 1) 这类语句在循环中动态扩展矩阵时，MATLAB 会经历以下过程：

检测当前内存不足：初始时 file_data 为空矩阵，每次循环添加一列时，MATLAB 会检查当前内存是否足够容纳新数据。

申请新内存空间：若内存不足，MATLAB 会在内存中寻找一块更大的连续空间（通常为当前大小的 2 倍）。

复制原有数据：将原有数据从旧内存地址复制到新内存地址。

释放旧内存：旧内存空间被标记为空闲，可能导致内存碎片。

这一过程的时间复杂度为 O(n)，当循环次数 num_files 较大时（如 thousands 级别），累计开销会显著拖慢程序。

2. 内存碎片问题

频繁的内存分配与释放会导致内存碎片（不连续的空闲内存块），使得后续大内存申请可能因无法找到连续空间而触发更频繁的内存扩容，进一步降低性能。

二、预分配矩阵的原理与优势

1. 预分配的核心逻辑

在循环开始前，通过 zeros 或 ones 等函数提前为矩阵分配足够的内存空间，避免循环中的动态扩展。

示例：

MATLAB
num_files = length(csv_files); % 假设共有 M 个文件
N = ...; % 假设每个文件数据有 N 个点
spectra = zeros(N, num_files); % 预分配 N×M 的矩阵

2. 性能提升的具体体现

场景	动态扩展矩阵	预分配矩阵
内存分配次数	每次循环可能触发 1 次扩容	仅 1 次初始分配
数据复制次数	每次扩容触发全量数据复制	无复制
时间复杂度	O(n²)（每次扩容复制 n 个元素）	O(n)（仅初始化）
内存碎片	严重	几乎无

3. 数据场景的典型案例

假设需要读取 1000 个 CSV 文件，每个文件包含 10000 个数据点：

动态扩展：每次循环需复制 10000×k 个元素（k 为当前循环次数），总操作量约为5×10⁹ 次复制。

预分配：仅需初始化 10000×1000 的矩阵，操作量为 10⁷ 次初始化，效率提升近500 倍。

三、如何在光谱数据代码中应用预分配？

以用户提供的代码为例，优化步骤如下：

1. 提前确定矩阵尺寸

行数 N：每个 CSV 文件的第一列数据长度（可通过读取第一个文件获取，或假设所有文件数据长度一致）。

列数 num_files：CSV 文件总数。

2. 预分配矩阵

MATLAB
% 获取数据文件夹路径
data_folder = 'C:\Users\53609\Desktop\Test\数据测试\choose\';
file_pattern = fullfile(data_folder, '*.csv');
csv_files = dir(file_pattern);
num_files = length(csv_files);

% **关键优化：预分配矩阵**
if num_files > 0
    % 读取第一个文件获取数据长度 N（假设所有文件数据长度一致）
    first_file = fullfile(data_folder, csv_files(1).name);
    data = readmatrix(first_file);
    N = size(data, 1);
    file_data= zeros(N, num_files); % 预分配 N×num_files 的矩阵
else
    error('No CSV files found.');
end

% 读取所有数据（循环中直接赋值，无需动态扩展）
for k = 1:num_files
    data = readmatrix(fullfile(data_folder, csv_files(k).name));
    fprintf('reading %s\n', fullfile(data_folder, csv_files(k).name));
    file_data(:, k) = data(:, 1); % 直接赋值到预分配位置
end