当前位置：首页 > news >正文

【漫话机器学习系列】197.外核（Out of Core）

news 2025/10/18 20:21:10

外核（Out of Core）技术详解 —— 超大规模数据处理利器

适用场景：当数据规模远远超过内存容量，传统的内存计算无法满足时，Out of Core技术就成为了最佳选择。

一、什么是 Out of Core（外核计算）？

定义

Out of Core（外核计算）指的是：当数据集太大，内存放不下时，通过将数据分批（或按行、按块）从磁盘中读取到内存，进行分段计算或增量学习的一类技术手段。

二、为什么需要 Out of Core？

场景	问题	Out of Core 价值
大数据集	内存爆炸（MemoryError）	分批处理，降低内存压力
在线学习	数据实时增长	增量学习不必重复训练
边训练边预测	不能一次性读取所有数据	Streaming方式读取训练

三、Out of Core 的核心思想图示

             +--------------------+
             | 磁盘中的超大数据集 |
             +--------------------+
                        ↓
                按批读取(Batch)
                        ↓
                内存中小批量数据
                        ↓
                  局部训练或处理
                        ↓
                丢弃旧数据，读取新批
                        ↓
             模型不断迭代优化

四、常见 Out of Core 技术手段举例

技术手段	说明
分块预处理数据	将大数据切分成若干小块
按行读取数据	一次只加载一部分数据进内存
增量学习（Incremental Learning）	模型可以分批学习
随机学习（Stochastic Learning）	每次使用一部分数据进行更新
随机拟合学习法	随机取部分数据进行模型训练

五、数学推导 —— 增量学习示意

假设完整数据集：

传统学习：

Out of Core 增量式：

每次读取 Batch：

每次只更新参数：

最终：

六、Python 代码实战（Scikit-learn）

1. 使用`partial_fit`实现增量学习

from sklearn.linear_model import SGDClassifier
import pandas as pd

model = SGDClassifier()

chunksize = 10000  # 每次读取1万行

for chunk in pd.read_csv('large_dataset.csv', chunksize=chunksize):
    X = chunk.drop('target', axis=1)
    y = chunk['target']
    model.partial_fit(X, y, classes=[0, 1])

print("模型训练完成")

2. 使用 Dask 处理大数据

import dask.dataframe as dd

df = dd.read_csv('large_dataset.csv')

result = df.groupby('category').price.mean().compute()

print(result)

3. 使用Joblib进行磁盘存储数据缓存

from joblib import Memory

memory = Memory(location='./cachedir', verbose=0)

@memory.cache
def load_and_process_data(path):
    return pd.read_csv(path)

df = load_and_process_data('large_dataset.csv')