当前位置：首页 > news >正文

【机器学习】什么是随机森林？

news 2025/10/15 8:06:35

什么是随机森林？

随机森林（Random Forest）是一种集成学习方法，它通过组合多个决策树来提高预测的准确性和鲁棒性。可以把随机森林看作是“森林”，而森林中的每棵树就是一个决策树。每棵树独立地做出预测，最终随机森林通过投票（分类问题）或平均（回归问题）得到最终的预测结果。

通俗易懂的理解：

想象你有一个班级，需要让学生投票决定一个问题的答案。每个学生（决策树）都有自己的观点和判断标准，但是由于每个人的经验和知识不同，他们的答案可能会有所不同。通过让所有学生投票并选取最常见的答案，我们可以减少单个学生错误判断的概率，从而得到更准确的答案。

这个过程类似于随机森林，它由多个决策树组成，每棵树独立地做出预测，最后通过“多数投票”来得出最终的预测结果。

举个简单的例子：

假设我们想判断一个动物是否是鸟。我们依然使用“体重”、“是否有羽毛”和“是否会飞”这三个特征。每棵决策树会根据这些特征来判断动物是不是鸟，而随机森林则是由多棵决策树组成，最后通过多数投票来决定最终结果。

如何理解决策树和随机森林：

单棵决策树：每棵树独立做出预测，容易受到噪声数据影响。
随机森林：通过组合多棵树的预测来提高准确性，减少过拟合问题。每棵树会用数据集的一个随机子集来训练，这样就能提高模型的鲁棒性。

随机森林的优点：

高准确率：通过集成多棵树，能够减少单棵树的偏差和方差，避免过拟合。
稳健性：能够处理大量的特征数据，并且能够处理缺失数据。
易于理解和可解释性：虽然比单棵决策树复杂，但可以通过特征重要性评估来理解哪些特征对预测最重要。

随机森林的代码示例：

我们可以使用 scikit-learn 中的 RandomForestClassifier 来实现随机森林分类器。假设我们有一个简单的数据集，目标是预测动物是否是鸟。

from sklearn.ensemble import RandomForestClassifier
import numpy as np
import matplotlib.pyplot as plt
from sklearn import tree
from matplotlib import rcParams

# 设置字体为支持中文的字体
rcParams['font.family'] = 'SimHei'
rcParams['axes.unicode_minus'] = False

# 数据：体重（kg）、是否有羽毛、是否会飞
X = np.array([[0.5, 1, 1], [1.5, 0, 0], [0.2, 1, 1], [0.3, 1, 0], [5, 0, 0]])

# 标签：鸟=1，猫=0
y = np.array([1, 0, 1, 1, 0])

# 创建随机森林分类器
rf_clf = RandomForestClassifier(n_estimators=10, random_state=42)

# 训练模型
rf_clf.fit(X, y)

# 用模型进行预测（预测一个新的动物：体重 0.4kg，有羽毛，不会飞）
prediction = rf_clf.predict([[0.4, 1, 0]])

# 打印预测结果
if prediction == 1:
    print("这是一个鸟。")
else:
    print("这是一个猫。")

# 打印各个特征的权重（特征重要性）
print("特征重要性：", rf_clf.feature_importances_)

# 可视化每棵树的结构
for i, tree_in_forest in enumerate(rf_clf.estimators_):
    plt.figure(i)
    tree.plot_tree(tree_in_forest, feature_names=['体重', '是否有羽毛', '是否会飞'], class_names=['猫', '鸟'], filled=True)
    plt.title(f"决策树 {i+1}")
    plt.show()