当前位置：首页 > wzjs >正文

深圳大鹏住房和建设局网站网站模版

wzjs 2025/8/12 22:50:15

深圳大鹏住房和建设局网站,网站模版,网页建设方案怎么写,无锡网络公司官网文章目录 K折交叉验证步骤详解一. 核心目标二. 具体步骤与操作三. 关键变体与场景适配3.1 分层K折交叉验证3.2 时间序列K折交叉验证3.3 留一法（LOO）3.4 重复K折交叉验证四. 实践注意事项五. Python代码示例六. 总结 K折交叉验证步骤详解一. 核心目标 …

文章目录

K折交叉验证步骤详解
一. 核心目标
二. 具体步骤与操作
三. 关键变体与场景适配
- 3.1 分层K折交叉验证
- 3.2 时间序列K折交叉验证
- 3.3 留一法（LOO）
- 3.4 重复K折交叉验证
四. 实践注意事项
五. Python代码示例
六. 总结

K折交叉验证步骤详解

一. 核心目标

K折交叉验证旨在通过多次划分数据集评估模型的泛化性能，避免单次随机划分导致的偏差，尤其适用于小样本数据或需要稳定评估的场景。其核心步骤可拆解为以下流程：

二. 具体步骤与操作

1.数据准备

将原始数据集均匀 随机划分 为 K个互不相交的子集

例如：总样本数 $N = 1000, K = 5$ 时，每折包含 200 个样本
关键要求：子集间样本分布尽量保持一致（分类任务中需要保持类别比例，即 分层抽样）

2.迭代训练与验证

对每一折进行以下操作：

第 $i$ 次迭代时 $(i = 1, 2, ..., K)$ ，指定第 $i$ 折为测试集，剩余 $K - 1$ 折作为训练集
在训练集上训练模型，调整相关超参数，并在测试集上进行评估。
记录每次迭代的模型表现，例如准确率、精度、召回率等

3.结果汇总

统计 $K$ 次测试结果的均值和标准差等，作为模型泛化性能的最终评估

例如：5次的准确率为 $[0.82, 0.85, 0.80, 0.83, 0.84]$ ，则均值为 0.828，标准差为 0.017

三. 关键变体与场景适配

变体	适用场景	核心改进
分层K折	分类任务中类别不平衡数据（如欺诈检测）	保持每折的类别分布与原始数据一致，避免因随机划分导致训练/测试集类别比例失衡
时间序列K折	时序数据（如股票价格预测）	按时间顺序划分数据集，确保测试集时间戳严格晚于训练集，防止未来信息泄露至训练阶段
留一法（LOO）	极小型数据集（样本量 $N < 100$ ）	令 $K = N$ ，每次仅留1个样本作为测试集，最大化利用有限数据，但计算复杂度为 $O(N^2)$
重复K折	需降低随机性影响的场景（如超参数调优）	多次执行K折交叉验证（如10次5折），取平均结果，减少单次划分的随机波动影响

3.1 分层K折交叉验证

在处理类别不平衡数据时，采用分层K折交叉验证可以确保每一折中的类别比例与整个数据集相同，从而避免因随机划分而造成的类别失衡问题。例如，在进行欺诈检测时，正负样本的比例通常不均衡，分层K折可以保证每一折中正负样本的比例相似。

3.2 时间序列K折交叉验证

对于时序数据（例如股票预测、天气预测等），时间顺序对数据的划分至关重要。时间序列K折通过按时间顺序划分数据集，确保未来的信息不会泄露到模型训练阶段，从而避免数据泄漏带来的评估偏差。

3.3 留一法（LOO）

对于极小型数据集（如样本数量 $N < 100$ ），留一法（Leave-One-Out Cross Validation，LOO）是一种理想的选择。每次将一个样本作为验证集，其余样本作为训练集，这样最大限度地利用所有数据进行训练。但其计算复杂度较高，特别是在样本数很大时，可能会导致时间开销过大。

3.4 重复K折交叉验证

如果您希望降低随机性对结果的影响，可以使用重复K折交叉验证。即多次执行K折交叉验证，通常是执行10次5折交叉验证，并计算结果的平均值和标准差，以获得更稳健的评估。

四. 实践注意事项

1.K值选择

常规选择： $K = 5$ 或 $K = 10$
小数据： $K = 3$ 或用 留一法（LOO）

五. Python代码示例

from sklearn.model_selection  import KFold 
from sklearn.linear_model  import LinearRegression 
import numpy as np # 模拟数据集 
X = np.random.rand(100,  5)  # 100样本，5特征 
y = np.random.rand(100) # 定义5折交叉验证 
kf = KFold(n_splits=5, shuffle=True, random_state=42)
scores = []for train_index, test_index in kf.split(X): X_train, X_test = X[train_index], X[test_index]y_train, y_test = y[train_index], y[test_index]# 训练模型（以线性回归为例）model = LinearRegression()model.fit(X_train,  y_train)# 评估并记录R²分数 score = model.score(X_test,  y_test)scores.append(score) # 输出结果 
print(f"平均R²分数: {np.mean(scores):.3f}  (±{np.std(scores):.3f})")