当前位置：首页 > news >正文

【机器学习】算法调参的两种方式：网格搜索（枚举）、随机搜索

news 2025/11/6 20:18:33

文章目录

一、网格搜索：穷举式的最优解寻找
- 1、数学推导过程
- - 1. 搜索空间的数学结构
  - 2. 优化问题的数学性质
  - 3. 收敛性分析
  - 4. 误差分析
- 2、为什么网格搜索有效？
- - 1. 全局最优性保证
  - 2. 可重现性与稳定性
  - 3. 参数敏感性分析
- 3、适用场景与局限性
二、随机搜索：高效的概率性优化
- 1、数学原理解析（ing）
- - 1. 核心数学公式
  - 2. 随机搜索的数学期望
  - 3. 误差分析
- 2、为什么随机搜索有效？
- - 1. 概率性全局搜索
  - 2. 计算效率优势
  - 3. 维度无关性
三、两种搜索策略的对比
四、实际应用示例
- 1、网格搜索实现
- 2、随机搜索实现
五、调参的最佳实践
- - 参数搜索空间的设计
  - 评估指标的选择
  - 计算资源的平衡

调参的重要性体现在三个关键方面：

模型性能：超参数直接影响模型的复杂度、泛化能力和预测精度，调参是获得最佳性能的必要步骤。
实际应用：不同数据集和业务场景需要不同的参数组合，系统性调参能找到最适合当前问题的参数设置。
算法理解：通过观察参数对性能的影响，能够深入理解算法的行为模式，为后续模型选择提供重要指导。

一、网格搜索：穷举式的最优解寻找

网格搜索的核心思想是：通过枚举所有可能的参数组合，找到全局最优解。这种方法确保不会遗漏任何潜在的优秀参数组合，从而获得理论上的最优结果。

1、数学推导过程

网格搜索可以形式化为以下优化问题：

$θ∗=arg⁡max⁡θ∈Θf(θ)\theta^* = \arg\max_{\theta \in \Theta} f(\theta)$

其中：

$θ\theta$ 是参数向量
$Θ\Theta$ 是参数搜索空间
$f(θ)f(\theta)$ 是模型性能评估函数

1. 搜索空间的数学结构

网格搜索的搜索空间 $Θ\Theta$ 可以表示为笛卡尔积：

$Θ=Θ1×Θ2×⋯×Θd\Theta = \Theta_1 \times \Theta_2 \times \cdots \times \Theta_d$

其中 $Θi\Theta_i$ 是第 $i$ 个参数的候选值集合。如果每个参数有 $n_i$ 个候选值，那么总的搜索空间大小为：

$∣Θ∣=∏i=1dni|\Theta| = \prod_{i=1}^{d} n_i$

这个公式揭示了网格搜索的指数复杂度：当参数数量 $d$ 增加时，搜索空间呈指数级增长。

2. 优化问题的数学性质

目标函数 $f(θ)f(\theta)$ 通常具有以下数学性质：

有界性： $f(θ)∈[a,b]f(\theta) \in [a, b]$ ，其中 $a$ 和 $b$ 是有限实数
连续性：在大多数实际应用中， $f(θ)f(\theta)$ 是连续的
局部最优性：可能存在多个局部最优解

3. 收敛性分析

网格搜索的收敛性基于以下数学原理：

定理：如果 $f(θ)f(\theta)$ 在紧集 $Θ\Theta$ 上连续，且网格密度足够细，那么网格搜索能够收敛到全局最优解。

证明思路：

由于 $Θ\Theta$ 是紧集， $f(θ)f(\theta)$ 在 $Θ\Theta$ 上达到最大值
当网格密度增加时，网格点能够任意接近 $Θ\Theta$ 中的任意点
由于 $f(θ)f(\theta)$ 的连续性，网格点的函数值能够任意接近全局最优值

4. 误差分析

网格搜索的误差可以量化分析。设 $θ∗\theta^*$ 是全局最优解， $θ^\hat{\theta}$ 是网格搜索找到的最优解，则：

$∣f(θ∗)−f(θ^)∣≤L⋅max⁡iΔi|f(\theta^*) - f(\hat{\theta})| \leq L \cdot \max_{i} \Delta_i$

其中 $L$ 是 $f(θ)f(\theta)$ 的Lipschitz常数， $Δi\Delta_i$ 是第 $i$ 个参数网格的间距。

2、为什么网格搜索有效？

网格搜索的有效性可以从多个角度理解：

1. 全局最优性保证

从优化角度看，网格搜索通过穷举所有可能的参数组合，确保了不会遗漏全局最优解。这种确定性搜索方法在参数空间较小时特别有效，能够找到理论上的最优参数组合。

数学上，这可以表述为：

$∀θ∈Θ:f(θ^)≥f(θ)\forall \theta \in \Theta: f(\hat{\theta}) \geq f(\theta)$

其中 $θ^\hat{\theta}$ 是网格搜索找到的最优解。

2. 可重现性与稳定性

从实践角度看，网格搜索的结果具有可重现性，每次运行都会得到相同的结果。这种确定性使得网格搜索特别适合需要稳定结果的场景，如生产环境中的模型部署。

数学上，这可以表述为：

$P(θ^run1=θ^run2)=1P(\hat{\theta}_{run1} = \hat{\theta}_{run2}) = 1$

其中 $θ^run1\hat{\theta}_{run1}$ 和 $θ^run2\hat{\theta}_{run2}$ 是两次独立运行的结果。

3. 参数敏感性分析

网格搜索能够提供参数敏感性的完整信息。通过观察不同参数组合的性能表现，我们能够理解哪些参数对模型性能影响最大，哪些参数相对不重要。

数学上，参数敏感性可以定义为：

$Si=∂f∂θi≈f(θ+Δei)−f(θ)ΔS_i = \frac{\partial f}{\partial \theta_i} \approx \frac{f(\theta + \Delta e_i) - f(\theta)}{\Delta}$

其中 $e_i$ 是第 $i$ 个坐标的单位向量， $Δ\Delta$ 是小的扰动。

3、适用场景与局限性

网格搜索特别适用于参数数量较少（通常少于5个）且每个参数的候选值不多的场景。在这种情况下，网格搜索能够在合理的时间内找到全局最优解。

然而，当参数数量增加时，搜索空间呈指数级增长，计算成本急剧上升。例如，如果有5个参数，每个参数有10个候选值，那么总共需要评估 $10^5 = 100,000$ 种组合，这在计算资源有限的情况下是不可行的。

二、随机搜索：高效的概率性优化

随机搜索的核心思想是：通过随机采样参数空间，在有限时间内找到近似最优解。这种方法放弃了穷举搜索的确定性，转而采用概率性搜索，在计算效率和搜索效果之间找到平衡。

随机搜索特别适用于参数数量较多或计算资源有限的情况。在高维参数空间中，随机搜索能够在相对较短的时间内找到性能良好的参数组合，而网格搜索可能因为计算成本过高而不可行。

1、数学原理解析（ing）

1. 核心数学公式

随机搜索可以形式化为以下随机优化问题：

$θ∗≈arg⁡max⁡θ∼P(Θ)f(θ)\theta^* \approx \arg\max_{\theta \sim P(\Theta)} f(\theta)$

其中：

$θ\theta$ 是随机采样的参数向量
$P(Θ)P(\Theta)$ 是参数空间的概率分布
$f(θ)f(\theta)$ 是模型性能评估函数

1. 符号含义解析

让我们逐个解析这个公式中的每个符号：

$θ∼P(Θ)\theta \sim P(\Theta)$ ：

$∼\sim$ 表示"服从分布"
$P(Θ)P(\Theta)$ 是定义在参数空间 $Θ\Theta$ 上的概率分布
这意味着 $θ\theta$ 是从分布 $P(Θ)P(\Theta)$ 中随机采样的

$arg⁡max⁡\arg\max$ ：

表示"使函数达到最大值的参数"
与网格搜索中的 $arg⁡max⁡θ∈Θ\arg\max_{\theta \in \Theta}$ 不同，这里是在随机采样的参数中寻找最优

$≈\approx$ ：

表示"近似等于"
因为随机搜索不保证找到全局最优解，只能找到近似最优解

2. 概率分布 $P(Θ)P(\Theta)$ 的数学定义

$P(Θ)P(\Theta)$ 可以是多种分布形式：

均匀分布： $P(θ)=1∣Θ∣P(\theta) = \frac{1}{|\Theta|}$ ，所有参数组合等概率
对数均匀分布： $P(θi)∝1θiP(\theta_i) \propto \frac{1}{\theta_i}$ ，适用于参数跨越多个数量级
高斯分布： $P(θ)∝exp⁡(−(θ−μ)22σ2)P(\theta) \propto \exp(-\frac{(\theta-\mu)^2}{2\sigma^2})$ ，基于先验知识

2. 随机搜索的数学期望

设 $N$ 是采样次数， ${θ1,θ2,...,θN}\{\theta_1, \theta_2, ..., \theta_N\}$ 是采样的参数组合，则：

$θ^∗=arg⁡max⁡i∈{1,2,...,N}f(θi)\hat{\theta}^* = \arg\max_{i \in \{1,2,...,N\}} f(\theta_i)$

随机搜索的目标是：

$lim⁡N→∞θ^∗=θ∗\lim_{N \to \infty} \hat{\theta}^* = \theta^*$

其中 $θ∗\theta^*$ 是全局最优解。

收敛性分析

定理：如果 $f(θ)f(\theta)$ 在 $Θ\Theta$ 上连续，且 $P(Θ)P(\Theta)$ 对所有 $θ∈Θ\theta \in \Theta$ 都有正概率密度，那么随机搜索以概率1收敛到全局最优解。

证明思路：

由于 $P(Θ)P(\Theta)$ 对所有点都有正概率密度，任何点都有被采样的可能
当采样次数 $\to \infty$ 时，采样点能够任意接近 $Θ\Theta$ 中的任意点
由于 $f(θ)f(\theta)$ 的连续性，采样点的函数值能够任意接近全局最优值

3. 误差分析

随机搜索的误差可以量化分析。设 $θ∗\theta^*$ 是全局最优解， $θ^∗\hat{\theta}^*$ 是随机搜索找到的最优解，则：

$P(∣f(θ∗)−f(θ^∗)∣>ϵ)≤(1−p)NP(|f(\theta^*) - f(\hat{\theta}^*)| > \epsilon) \leq (1 - p)^N$

其中 $p$ 是采样到 $ϵ\epsilon$ -最优解邻域的概率， $N$ 是采样次数。

2、为什么随机搜索有效？

1. 概率性全局搜索

与网格搜索的确定性搜索不同，随机搜索采用概率性搜索策略。虽然不能保证找到全局最优解，但能够以高概率找到近似最优解。

数学上，这可以表述为：

$P(f(θ^∗)≥f(θ∗)−ϵ)≥1−δP(f(\hat{\theta}^*) \geq f(\theta^*) - \epsilon) \geq 1 - \delta$

其中 $ϵ\epsilon$ 是精度要求， $δ\delta$ 是失败概率。

2. 计算效率优势

随机搜索的计算复杂度为 $O (N)$ ，其中 $N$ 是采样次数。这比网格搜索的指数复杂度 $O(∏i=1dni)O(\prod_{i=1}^{d} n_i)$ 要低得多。

3. 维度无关性

随机搜索的性能不直接依赖于参数维度，这使得它特别适合高维参数空间。

更重要的是，随机搜索具有更好的可扩展性。当需要调优的参数数量增加时，只需要增加采样次数，而不需要指数级增加计算资源。

三、两种搜索策略的对比

特性	网格搜索	随机搜索
搜索方式	穷举枚举	随机采样
最优性保证	全局最优	近似最优
计算复杂度	指数级	线性级
适用参数数量	少（<5个）	多（>5个）
结果可重现性	高	中等
计算资源需求	高	中等

四、实际应用示例

1、网格搜索实现

# 网格搜索（Grid Search）参数优化示例
# 目标：为随机森林分类器找到最优的超参数组合# 导入必要的库
from sklearn.model_selection import GridSearchCV  # 网格搜索交叉验证
from sklearn.ensemble import RandomForestClassifier  # 随机森林分类器
from sklearn.datasets import load_iris  # 鸢尾花数据集# ==================== 数据准备 ====================
# 加载鸢尾花数据集
# return_X_y=True 返回特征矩阵X和目标变量y，而不是Bunch对象
X, y = load_iris(return_X_y=True)
# X: 特征矩阵，形状为 (150, 4)，包含4个特征（萼片长度、萼片宽度、花瓣长度、花瓣宽度）
# y: 目标变量，形状为 (150,)，包含3个类别（0, 1, 2）# ==================== 参数网格定义 ====================
# 定义要搜索的参数网格
# 网格搜索会尝试所有参数组合，总共 3 × 3 × 3 = 27 种组合
param_grid = {'n_estimators': [100, 200, 300],  # 决策树的数量'max_depth': [None, 10, 20],  # 树的最大深度，None表示不限制'min_samples_split': [2, 5, 10]  # 分裂内部节点所需的最小样本数
}# 参数说明：
# n_estimators: 随机森林中决策树的数量，越多模型越稳定但计算成本越高
# max_depth: 树的最大深度，控制模型复杂度，None表示完全生长
# min_samples_split: 分裂节点所需的最小样本数，越大模型越简单# ==================== 网格搜索对象创建 ====================
grid_search = GridSearchCV(estimator=RandomForestClassifier(random_state=42),  # 基础模型param_grid=param_grid,  # 参数网格cv=5,  # 5折交叉验证scoring='accuracy',  # 评估指标：准确率n_jobs=-1  # 使用所有CPU核心并行计算
)# 参数详解：
# estimator: 要优化的机器学习模型
# param_grid: 参数搜索空间，字典形式
# cv: 交叉验证折数，这里使用5折交叉验证
# scoring: 评估指标，'accuracy'表示分类准确率
# n_jobs: 并行作业数，-1表示使用所有可用CPU核心# ==================== 执行网格搜索 ====================
print("开始执行网格搜索...")
print(f"将测试 {len(param_grid['n_estimators']) * len(param_grid['max_depth']) * len(param_grid['min_samples_split'])} 种参数组合")
print(f"每种组合进行 {grid_search.cv} 折交叉验证")
print("=" * 50)# 执行网格搜索
# 这个过程会：
# 1. 遍历所有参数组合（27种）
# 2. 对每种组合进行5折交叉验证
# 3. 计算平均性能得分
# 4. 选择最佳参数组合
grid_search.fit(X, y)print("网格搜索完成！")
print("=" * 50)# ==================== 结果输出 ====================
# 输出最佳参数组合
print(f"最佳参数: {grid_search.best_params_}")
# best_params_ 包含在验证集上表现最好的参数组合# 输出最佳交叉验证得分
print(f"最佳得分: {grid_search.best_score_:.4f}")
# best_score_ 是交叉验证的平均得分# ==================== 详细结果分析 ====================
print("\n详细结果分析:")
print("=" * 50)# 获取所有结果
cv_results = grid_search.cv_results_# 显示前5个最佳结果
print("前5个最佳参数组合:")
for i in range(min(5, len(cv_results['params']))):params = cv_results['params'][i]score = cv_results['mean_test_score'][i]std = cv_results['std_test_score'][i]# 格式化参数显示，处理None值formatted_params = {}for key, value in params.items():formatted_params[key] = "None" if value is None else valueprint(f"第{i + 1}名: {formatted_params}")print(f"  平均得分: {score:.4f} ± {std:.4f}")print()# ==================== 使用最佳模型 ====================
# 获取最佳模型（已经用最佳参数训练好的模型）
best_model = grid_search.best_estimator_print("最佳模型信息:")
print(f"模型类型: {type(best_model).__name__}")
print(f"参数: {best_model.get_params()}")# ==================== 性能对比 ====================
# 对比默认参数和最佳参数的模型
from sklearn.model_selection import cross_val_score# 默认参数的随机森林
default_rf = RandomForestClassifier(random_state=42)
default_scores = cross_val_score(default_rf, X, y, cv=5, scoring='accuracy')print(f"\n性能对比:")
print(f"默认参数模型平均得分: {default_scores.mean():.4f} ± {default_scores.std():.4f}")
print(f"网格搜索最佳模型得分: {grid_search.best_score_:.4f}")# 计算性能提升
improvement = (grid_search.best_score_ - default_scores.mean()) / default_scores.mean() * 100
print(f"性能提升: {improvement:.2f}%")# ==================== 参数重要性分析 ====================
print("\n参数重要性分析:")
print("=" * 50)# 分析每个参数对性能的影响
for param_name in param_grid.keys():print(f"\n{param_name} 参数分析:")# 获取该参数的所有唯一值param_values = set()for params in cv_results['params']:param_values.add(params[param_name])# 计算每个参数值的平均得分# 处理包含None值的排序问题def sort_key(value):if value is None:return float('inf')  # None值排在最后return valuefor value in sorted(param_values, key=sort_key):scores = []for i, params in enumerate(cv_results['params']):if params[param_name] == value:scores.append(cv_results['mean_test_score'][i])if scores:avg_score = sum(scores) / len(scores)# 格式化输出，None值显示为"None"value_str = "None" if value is None else str(value)print(f"  {param_name}={value_str}: 平均得分 {avg_score:.4f}")# ==================== 总结 ====================
print("\n" + "=" * 50)
print("网格搜索总结:")
print(f"1. 测试了 {len(cv_results['params'])} 种参数组合")
print(f"2. 每种组合进行了 {grid_search.cv} 折交叉验证")
print(f"3. 最佳参数组合: {grid_search.best_params_}")
print(f"4. 最佳交叉验证得分: {grid_search.best_score_:.4f}")
print(f"5. 相比默认参数提升了 {improvement:.2f}%")
print("=" * 50)开始执行网格搜索...
将测试 27 种参数组合
每种组合进行 5 折交叉验证
==================================================
网格搜索完成！
==================================================
最佳参数: {'max_depth': None, 'min_samples_split': 2, 'n_estimators': 100}
最佳得分: 0.9667详细结果分析:
==================================================
前5个最佳参数组合:
第1名: {'max_depth': 'None', 'min_samples_split': 2, 'n_estimators': 100}平均得分: 0.9667 ± 0.0211第2名: {'max_depth': 'None', 'min_samples_split': 2, 'n_estimators': 200}平均得分: 0.9667 ± 0.0211第3名: {'max_depth': 'None', 'min_samples_split': 2, 'n_estimators': 300}平均得分: 0.9667 ± 0.0211第4名: {'max_depth': 'None', 'min_samples_split': 5, 'n_estimators': 100}平均得分: 0.9667 ± 0.0211第5名: {'max_depth': 'None', 'min_samples_split': 5, 'n_estimators': 200}平均得分: 0.9667 ± 0.0211最佳模型信息:
模型类型: RandomForestClassifier
参数: {'bootstrap': True, 'ccp_alpha': 0.0, 'class_weight': None, 'criterion': 'gini', 'max_depth': None, 'max_features': 'sqrt', 'max_leaf_nodes': None, 'max_samples': None, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 1, 'min_samples_split': 2, 'min_weight_fraction_leaf': 0.0, 'monotonic_cst': None, 'n_estimators': 100, 'n_jobs': None, 'oob_score': False, 'random_state': 42, 'verbose': 0, 'warm_start': False}性能对比:
默认参数模型平均得分: 0.9667 ± 0.0211
网格搜索最佳模型得分: 0.9667
性能提升: 0.00%参数重要性分析:
==================================================n_estimators 参数分析:n_estimators=100: 平均得分 0.9667n_estimators=200: 平均得分 0.9667n_estimators=300: 平均得分 0.9622max_depth 参数分析:max_depth=10: 平均得分 0.9652max_depth=20: 平均得分 0.9652max_depth=None: 平均得分 0.9652min_samples_split 参数分析:min_samples_split=2: 平均得分 0.9667min_samples_split=5: 平均得分 0.9644min_samples_split=10: 平均得分 0.9644==================================================
网格搜索总结:
1. 测试了 27 种参数组合
2. 每种组合进行了 5 折交叉验证
3. 最佳参数组合: {'max_depth': None, 'min_samples_split': 2, 'n_estimators': 100}
4. 最佳交叉验证得分: 0.9667
5. 相比默认参数提升了 0.00%
==================================================

结果分析：

性能表现优秀：最佳得分96.67%，说明随机森林在鸢尾花数据集上表现很好
参数影响有限：所有参数组合性能差异很小（96.22%-96.67%），说明数据集相对简单，模型对参数不敏感
默认参数已最优：网格搜索找到的最佳参数与默认参数性能相同，提升0%，说明sklearn的默认参数设计很合理

这个结果提醒我们：不是所有数据集都需要复杂的参数调优。对于结构清晰、特征明确的数据集，默认参数往往已经足够好。网格搜索的价值在于确认模型性能的稳定性和可靠性，而不仅仅是寻找性能提升。

2、随机搜索实现

# 随机搜索（Randomized Search）参数优化示例
# 目标：为随机森林分类器找到最优的超参数组合
# 相比网格搜索，随机搜索通过随机采样参数空间来减少计算成本# 导入必要的库
from sklearn.model_selection import RandomizedSearchCV  # 随机搜索交叉验证
from sklearn.ensemble import RandomForestClassifier  # 随机森林分类器
from scipy.stats import randint, uniform  # 随机分布函数
from sklearn.datasets import load_iris  # 鸢尾花数据集# ==================== 数据准备 ====================
# 加载鸢尾花数据集
X, y = load_iris(return_X_y=True)
# X: 特征矩阵，形状为 (150, 4)
# y: 目标变量，形状为 (150,)，包含3个类别# ==================== 参数分布定义 ====================
# 定义参数的概率分布，而不是固定的参数网格
# 随机搜索会从这些分布中随机采样参数值
param_distributions = {'n_estimators': randint(100, 500),  # 决策树数量：100-499的均匀分布'max_depth': [None] + list(range(5, 25)),  # 树的最大深度：None + 5-24的整数'min_samples_split': randint(2, 15),  # 分裂所需最小样本数：2-14的均匀分布'min_samples_leaf': randint(1, 10)  # 叶节点最小样本数：1-9的均匀分布
}# 参数分布说明：
# randint(low, high): 生成[low, high)范围内的随机整数
# [None] + list(range(5, 25)): 混合列表，包含None和5-24的整数
# 相比网格搜索，这里定义了更大的参数空间，但只采样其中的50个点# ==================== 随机搜索对象创建 ====================
random_search = RandomizedSearchCV(estimator=RandomForestClassifier(random_state=42),  # 基础模型param_distributions=param_distributions,  # 参数分布n_iter=50,  # 随机采样次数cv=5,  # 5折交叉验证scoring='accuracy',  # 评估指标：准确率n_jobs=-1,  # 使用所有CPU核心并行计算random_state=42  # 随机种子，确保结果可重现
)# 参数详解：
# estimator: 要优化的机器学习模型
# param_distributions: 参数的概率分布，字典形式
# n_iter: 随机采样的次数，这里采样50次
# cv: 交叉验证折数，这里使用5折交叉验证
# scoring: 评估指标，'accuracy'表示分类准确率
# n_jobs: 并行作业数，-1表示使用所有可用CPU核心
# random_state: 随机种子，确保每次运行结果一致# ==================== 执行随机搜索 ====================
print("开始执行随机搜索...")
print(f"将随机采样 {random_search.n_iter} 次")
print(f"每次采样进行 {random_search.cv} 折交叉验证")
print("参数空间:")
for param, dist in param_distributions.items():if hasattr(dist, 'rvs'):print(f"  {param}: {dist.dist.name}分布")else:print(f"  {param}: 离散值 {dist}")
print("=" * 50)# 执行随机搜索
# 这个过程会：
# 1. 从参数分布中随机采样50次
# 2. 对每次采样的参数组合进行5折交叉验证
# 3. 计算平均性能得分
# 4. 选择最佳参数组合
random_search.fit(X, y)print("随机搜索完成！")
print("=" * 50)# ==================== 结果输出 ====================
# 输出最佳参数组合
print(f"最佳参数: {random_search.best_params_}")
# best_params_ 包含在验证集上表现最好的参数组合# 输出最佳交叉验证得分
print(f"最佳得分: {random_search.best_score_:.4f}")
# best_score_ 是交叉验证的平均得分# ==================== 详细结果分析 ====================
print("\n详细结果分析:")
print("=" * 50)# 获取所有结果
cv_results = random_search.cv_results_# 显示前5个最佳结果
print("前5个最佳参数组合:")
for i in range(min(5, len(cv_results['params']))):params = cv_results['params'][i]score = cv_results['mean_test_score'][i]std = cv_results['std_test_score'][i]# 格式化参数显示formatted_params = {}for key, value in params.items():formatted_params[key] = "None" if value is None else valueprint(f"第{i + 1}名: {formatted_params}")print(f"  平均得分: {score:.4f} ± {std:.4f}")print()# ==================== 采样效率分析 ====================
print("采样效率分析:")
print("=" * 50)# 计算所有得分的统计信息
scores = cv_results['mean_test_score']
print(f"平均得分: {scores.mean():.4f}")
print(f"得分标准差: {scores.std():.4f}")
print(f"最高得分: {scores.max():.4f}")
print(f"最低得分: {scores.min():.4f}")
print(f"得分范围: {scores.max() - scores.min():.4f}")# 分析得分的分布
import numpy as npprint(f"\n得分分布:")
print(f"  90%分位数: {np.percentile(scores, 90):.4f}")
print(f"  75%分位数: {np.percentile(scores, 75):.4f}")
print(f"  50%分位数: {np.percentile(scores, 50):.4f}")
print(f"  25%分位数: {np.percentile(scores, 25):.4f}")
print(f"  10%分位数: {np.percentile(scores, 10):.4f}")# ==================== 与网格搜索对比 ====================
print("\n与网格搜索对比:")
print("=" * 50)# 计算理论上的网格搜索复杂度
grid_complexity = 1
for param, dist in param_distributions.items():if hasattr(dist, 'rvs'):# 对于连续分布，假设有10个候选值grid_complexity *= 10else:# 对于离散分布，使用实际的值数量grid_complexity *= len(dist)print(f"理论网格搜索复杂度: {grid_complexity} 种组合")
print(f"随机搜索实际采样: {random_search.n_iter} 次")
print(f"采样比例: {random_search.n_iter / grid_complexity * 100:.2f}%")# ==================== 参数敏感性分析 ====================
print("\n参数敏感性分析:")
print("=" * 50)# 分析每个参数对性能的影响
for param_name in param_distributions.keys():print(f"\n{param_name} 参数分析:")# 获取该参数的所有唯一值param_values = set()for params in cv_results['params']:param_values.add(params[param_name])# 计算每个参数值的平均得分def sort_key(value):if value is None:return float('inf')return valuefor value in sorted(param_values, key=sort_key):scores = []for i, params in enumerate(cv_results['params']):if params[param_name] == value:scores.append(cv_results['mean_test_score'][i])if scores:avg_score = sum(scores) / len(scores)value_str = "None" if value is None else str(value)print(f"  {param_name}={value_str}: 平均得分 {avg_score:.4f} (出现{len(scores)}次)")# ==================== 随机性影响分析 ====================
print("\n随机性影响分析:")
print("=" * 50)# 分析随机搜索的稳定性
print("随机搜索的特点:")
print("1. 每次运行可能得到不同的结果")
print("2. 但通常能找到接近最优的解")
print("3. 计算成本远低于网格搜索")
print("4. 适合高维参数空间")# ==================== 最佳模型使用 ====================
# 获取最佳模型（已经用最佳参数训练好的模型）
best_model = random_search.best_estimator_print("\n最佳模型信息:")
print(f"模型类型: {type(best_model).__name__}")
print(f"最佳参数: {best_model.get_params()}")# ==================== 性能对比 ====================
# 对比默认参数和最佳参数的模型
from sklearn.model_selection import cross_val_score# 默认参数的随机森林
default_rf = RandomForestClassifier(random_state=42)
default_scores = cross_val_score(default_rf, X, y, cv=5, scoring='accuracy')print(f"\n性能对比:")
print(f"默认参数模型平均得分: {default_scores.mean():.4f} ± {default_scores.std():.4f}")
print(f"随机搜索最佳模型得分: {random_search.best_score_:.4f}")# 计算性能提升
improvement = (random_search.best_score_ - default_scores.mean()) / default_scores.mean() * 100
print(f"性能提升: {improvement:.2f}%")# ==================== 总结 ====================
print("\n" + "=" * 50)
print("随机搜索总结:")
print(f"1. 随机采样了 {random_search.n_iter} 次")
print(f"2. 每次采样进行了 {random_search.cv} 折交叉验证")
print(f"3. 最佳参数组合: {random_search.best_params_}")
print(f"4. 最佳交叉验证得分: {random_search.best_score_:.4f}")
print(f"5. 相比默认参数提升了 {improvement:.2f}%")
print(f"6. 相比网格搜索节省了大量计算成本")
print("=" * 50)# ==================== 实际应用建议 ====================
print("\n实际应用建议:")
print("=" * 50)
print("1. 随机搜索适合参数空间较大的情况")
print("2. 当计算资源有限时，随机搜索是更好的选择")
print("3. 可以通过增加n_iter来提高找到最优解的概率")
print("4. 对于重要项目，可以多次运行随机搜索取最佳结果")
print("5. 结合领域知识调整参数分布可以提高搜索效率")开始执行随机搜索...
将随机采样 50 次
每次采样进行 5 折交叉验证
参数空间:n_estimators: randint分布max_depth: 离散值 [None, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24]min_samples_split: randint分布min_samples_leaf: randint分布
==================================================
随机搜索完成！
==================================================
最佳参数: {'max_depth': 5, 'min_samples_leaf': 1, 'min_samples_split': 8, 'n_estimators': 161}
最佳得分: 0.9667详细结果分析:
==================================================
前5个最佳参数组合:
第1名: {'max_depth': 10, 'min_samples_leaf': 4, 'min_samples_split': 14, 'n_estimators': 370}平均得分: 0.9533 ± 0.0340第2名: {'max_depth': 14, 'min_samples_leaf': 8, 'min_samples_split': 14, 'n_estimators': 120}平均得分: 0.9467 ± 0.0340第3名: {'max_depth': 10, 'min_samples_leaf': 3, 'min_samples_split': 8, 'n_estimators': 430}平均得分: 0.9533 ± 0.0340第4名: {'max_depth': 14, 'min_samples_leaf': 8, 'min_samples_split': 6, 'n_estimators': 199}平均得分: 0.9467 ± 0.0340第5名: {'max_depth': 11, 'min_samples_leaf': 8, 'min_samples_split': 4, 'n_estimators': 249}平均得分: 0.9467 ± 0.0340采样效率分析:
==================================================
平均得分: 0.9525
得分标准差: 0.0053
最高得分: 0.9667
最低得分: 0.9467
得分范围: 0.0200得分分布:90%分位数: 0.960075%分位数: 0.953350%分位数: 0.953325%分位数: 0.946710%分位数: 0.9467与网格搜索对比:
==================================================
理论网格搜索复杂度: 21000 种组合
随机搜索实际采样: 50 次
采样比例: 0.24%参数敏感性分析:
==================================================n_estimators 参数分析:n_estimators=104: 平均得分 0.9600 (出现1次)n_estimators=114: 平均得分 0.9467 (出现1次)n_estimators=120: 平均得分 0.9467 (出现1次)n_estimators=140: 平均得分 0.9467 (出现1次)n_estimators=149: 平均得分 0.9600 (出现1次)n_estimators=154: 平均得分 0.9533 (出现1次)n_estimators=158: 平均得分 0.9467 (出现1次)n_estimators=161: 平均得分 0.9667 (出现1次)n_estimators=191: 平均得分 0.9533 (出现1次)n_estimators=199: 平均得分 0.9467 (出现1次)n_estimators=200: 平均得分 0.9600 (出现2次)n_estimators=227: 平均得分 0.9533 (出现1次)n_estimators=233: 平均得分 0.9467 (出现1次)n_estimators=235: 平均得分 0.9467 (出现1次)n_estimators=236: 平均得分 0.9467 (出现1次)n_estimators=249: 平均得分 0.9467 (出现1次)n_estimators=259: 平均得分 0.9533 (出现1次)n_estimators=266: 平均得分 0.9533 (出现1次)n_estimators=286: 平均得分 0.9467 (出现1次)n_estimators=290: 平均得分 0.9533 (出现1次)n_estimators=316: 平均得分 0.9533 (出现1次)n_estimators=319: 平均得分 0.9533 (出现1次)n_estimators=330: 平均得分 0.9533 (出现1次)n_estimators=333: 平均得分 0.9600 (出现1次)n_estimators=340: 平均得分 0.9533 (出现1次)n_estimators=351: 平均得分 0.9467 (出现1次)n_estimators=363: 平均得分 0.9467 (出现1次)n_estimators=364: 平均得分 0.9533 (出现1次)n_estimators=367: 平均得分 0.9467 (出现1次)n_estimators=369: 平均得分 0.9533 (出现1次)n_estimators=370: 平均得分 0.9533 (出现1次)n_estimators=383: 平均得分 0.9533 (出现1次)n_estimators=393: 平均得分 0.9533 (出现1次)n_estimators=394: 平均得分 0.9533 (出现1次)n_estimators=406: 平均得分 0.9467 (出现1次)n_estimators=413: 平均得分 0.9533 (出现1次)n_estimators=415: 平均得分 0.9533 (出现1次)n_estimators=417: 平均得分 0.9533 (出现1次)n_estimators=426: 平均得分 0.9600 (出现1次)n_estimators=430: 平均得分 0.9533 (出现1次)n_estimators=437: 平均得分 0.9533 (出现1次)n_estimators=458: 平均得分 0.9467 (出现1次)n_estimators=459: 平均得分 0.9533 (出现1次)n_estimators=473: 平均得分 0.9467 (出现1次)n_estimators=476: 平均得分 0.9667 (出现1次)n_estimators=478: 平均得分 0.9533 (出现1次)n_estimators=489: 平均得分 0.9533 (出现1次)n_estimators=491: 平均得分 0.9533 (出现1次)n_estimators=492: 平均得分 0.9533 (出现1次)max_depth 参数分析:max_depth=5: 平均得分 0.9550 (出现4次)max_depth=6: 平均得分 0.9600 (出现2次)max_depth=8: 平均得分 0.9533 (出现3次)max_depth=9: 平均得分 0.9467 (出现1次)max_depth=10: 平均得分 0.9544 (出现6次)max_depth=11: 平均得分 0.9511 (出现3次)max_depth=12: 平均得分 0.9500 (出现2次)max_depth=13: 平均得分 0.9533 (出现2次)max_depth=14: 平均得分 0.9489 (出现3次)max_depth=15: 平均得分 0.9489 (出现3次)max_depth=16: 平均得分 0.9533 (出现3次)max_depth=17: 平均得分 0.9533 (出现2次)max_depth=18: 平均得分 0.9547 (出现5次)max_depth=19: 平均得分 0.9467 (出现1次)max_depth=20: 平均得分 0.9511 (出现3次)max_depth=21: 平均得分 0.9533 (出现2次)max_depth=23: 平均得分 0.9489 (出现3次)max_depth=24: 平均得分 0.9533 (出现2次)min_samples_split 参数分析:min_samples_split=2: 平均得分 0.9539 (出现11次)min_samples_split=3: 平均得分 0.9533 (出现2次)min_samples_split=4: 平均得分 0.9533 (出现5次)min_samples_split=5: 平均得分 0.9533 (出现1次)min_samples_split=6: 平均得分 0.9489 (出现3次)min_samples_split=7: 平均得分 0.9533 (出现2次)min_samples_split=8: 平均得分 0.9550 (出现4次)min_samples_split=9: 平均得分 0.9511 (出现3次)min_samples_split=10: 平均得分 0.9556 (出现3次)min_samples_split=11: 平均得分 0.9511 (出现3次)min_samples_split=12: 平均得分 0.9500 (出现4次)min_samples_split=13: 平均得分 0.9517 (出现4次)min_samples_split=14: 平均得分 0.9507 (出现5次)min_samples_leaf 参数分析:min_samples_leaf=1: 平均得分 0.9640 (出现5次)min_samples_leaf=2: 平均得分 0.9533 (出现5次)min_samples_leaf=3: 平均得分 0.9547 (出现10次)min_samples_leaf=4: 平均得分 0.9533 (出现9次)min_samples_leaf=5: 平均得分 0.9533 (出现4次)min_samples_leaf=7: 平均得分 0.9489 (出现3次)min_samples_leaf=8: 平均得分 0.9467 (出现8次)min_samples_leaf=9: 平均得分 0.9467 (出现6次)随机性影响分析:
==================================================
随机搜索的特点:
1. 每次运行可能得到不同的结果
2. 但通常能找到接近最优的解
3. 计算成本远低于网格搜索
4. 适合高维参数空间最佳模型信息:
模型类型: RandomForestClassifier
最佳参数: {'bootstrap': True, 'ccp_alpha': 0.0, 'class_weight': None, 'criterion': 'gini', 'max_depth': 5, 'max_features': 'sqrt', 'max_leaf_nodes': None, 'max_samples': None, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 1, 'min_samples_split': 8, 'min_weight_fraction_leaf': 0.0, 'monotonic_cst': None, 'n_estimators': 161, 'n_jobs': None, 'oob_score': False, 'random_state': 42, 'verbose': 0, 'warm_start': False}性能对比:
默认参数模型平均得分: 0.9667 ± 0.0211
随机搜索最佳模型得分: 0.9667
性能提升: 0.00%==================================================
随机搜索总结:
1. 随机采样了 50 次
2. 每次采样进行了 5 折交叉验证
3. 最佳参数组合: {'max_depth': 5, 'min_samples_leaf': 1, 'min_samples_split': 8, 'n_estimators': 161}
4. 最佳交叉验证得分: 0.9667
5. 相比默认参数提升了 0.00%
6. 相比网格搜索节省了大量计算成本
==================================================实际应用建议:
==================================================
1. 随机搜索适合参数空间较大的情况
2. 当计算资源有限时，随机搜索是更好的选择
3. 可以通过增加n_iter来提高找到最优解的概率
4. 对于重要项目，可以多次运行随机搜索取最佳结果
5. 结合领域知识调整参数分布可以提高搜索效率