当前位置: 首页 > news >正文

云南省住房和城乡建设厅网站首页网站注册需要多少钱

云南省住房和城乡建设厅网站首页,网站注册需要多少钱,腾讯企业邮箱域名可以做网站吗,常州全景网站制作机器学习之随机森林(五) 文章目录 机器学习之随机森林(五)集成学习与随机森林算法详解一、集成学习概述主要类型Bagging典型流程 二、随机森林原理核心特点 三、Sklearn API详解关键参数 四、实战案例:泰坦尼克生存预测…

机器学习之随机森林(五)


文章目录

  • 机器学习之随机森林(五)
  • 集成学习与随机森林算法详解
    • 一、集成学习概述
      • 主要类型
      • Bagging典型流程
    • 二、随机森林原理
      • 核心特点
    • 三、Sklearn API详解
      • 关键参数
    • 四、实战案例:泰坦尼克生存预测
      • 1. 数据准备与预处理
      • 2. 模型训练与调优
      • 3. 模型评估
    • 五、关键要点总结


集成学习与随机森林算法详解

一、集成学习概述

集成学习(Ensemble Learning)通过组合多个分类器,构建预测效果更好的集成分类器。类比"三个臭皮匠,赛过诸葛亮"。

主要类型

  • Bagging:并行训练多个基学习器
  • Boosting:串行训练,后续模型修正前序模型的错误
  • Stacking:用元学习器组合多个基学习器

Bagging典型流程

  1. 有放回地抽取n个训练样本
  2. 训练M个子模型
  3. 分类问题采用投票法确定最终结果

二、随机森林原理

随机森林示意图

核心特点

  • 随机性
    • 样本随机:有放回抽样(Bootstrap)
    • 特征随机:每次随机选择k个特征(k<d)
  • 森林结构:多个决策树构成
  • 优势
    • 处理高维特征无需降维
    • 通过平均/投票提高精度,控制过拟合

三、Sklearn API详解

class sklearn.ensemble.RandomForestClassifier(n_estimators=100,          # 树的数量criterion='gini',           # 划分标准:"gini"或"entropy"max_depth=None,             # 树的最大深度...
)

关键参数

参数说明
n_estimators森林中决策树的数量
criterion划分算法:"gini"基尼系数/"entropy"信息增益
max_depth树的最大深度限制

四、实战案例:泰坦尼克生存预测

1. 数据准备与预处理

import pandas as pd
from sklearn.feature_extraction import DictVectorizer# 数据加载
titanic = pd.read_csv("src/titanic/titanic.csv")
x = titanic[["pclass", "age", "sex"]]
y = titanic["survived"]# 数据处理
x["age"].fillna(x["age"].mean(), inplace=True)  # 年龄缺失值填充
x = x.to_dict(orient="records")  # 转为字典格式

2. 模型训练与调优

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV# 特征转换
transfer = DictVectorizer()
x_train = transfer.fit_transform(x_train)# 网格搜索调参
param_dict = {"n_estimators": [120,200,300,500,800,1200],"max_depth": [5,8,15,25,30]
}
estimator = GridSearchCV(RandomForestClassifier(),param_grid=param_dict,cv=3  # 3折交叉验证
)
estimator.fit(x_train, y_train)

3. 模型评估

# 最佳参数输出
print("最佳参数:", estimator.best_params_)
print("最佳准确率:", estimator.best_score_)# 测试集评估
score = estimator.score(x_test, y_test)
print("测试集准确率:", score)

五、关键要点总结

  1. 随机森林通过双重随机性(样本+特征)增强多样性
  2. 典型超参数需调优:
    • 树的数量(n_estimators)
    • 树深度(max_depth)
    • 划分标准(criterion)
  3. 网格搜索+交叉验证是调参的有效方法
  4. 适用于高维数据,兼具准确性和抗过拟合能力
http://www.dtcms.com/a/397735.html

相关文章:

  • 安卓网站开发前景优化设计
  • 用旧手机做网站服务器wordpress带轮播企业站主题
  • 软件网站建设基本流程品牌设计包括哪些内容
  • 企业开发网站建设html网页制作用什么语言
  • 廊坊手机网站制作百度竞价推广有哪些优势
  • 青岛网站seo国家网站集约化建设试点方案
  • 网站建设经营服务合同买好域名后怎么做网站
  • 个人博客网站下载做eso哪家网站好
  • 织梦网站做图床网站后台需要多少
  • 做网站自己公司车辆管理系统软件
  • 枣阳建网站cf租号网站怎么做的
  • 如何通过网站获取qqphpcms手机网站模板
  • 在线营销网站建设电子商务网站推广的主要方式
  • pc手机一体网站企业培训机构网站源码
  • 网站开发属于什么职位类别wordpress首页主标题移到后面
  • 建设银行粤通卡网站亚马逊雨林在地图上的位置
  • 企业网站建设的误区主要有棋牌网站建设源码
  • 专业的集团网站建设科技公司php网站模版
  • 广州网站制作系统wordpress路径增加discuz
  • 医疗培训网站建设网站备案和域名备案有什么区别
  • 兰亭集势的网站平台建设推广软件有哪些
  • 工程机械 网站模板网络舆情处置工作方案
  • 浦口区网站建设及推广怎么设置公司网站
  • 网站后台用什么语言网站要怎么盈利
  • 网站开发流程前端网站平台需要做无形资产吗 怎么做
  • 河北网站建设有限公司wordpress网站注册不了
  • p2p理财网站开发流程贵州有网站的企业
  • 扬州网站建设suteng网站制作的
  • 东莞英文建站营销培训去哪个学校好
  • 单县做网站软件商城哪个好