当前位置：首页 > news >正文

人工智能训练师复习题目实操题2.2.1 - 2.2.5

news 2025/9/4 5:14:37

知识点讲解

机器学习基本流程

创建模型 - 训练模型 - 预测结果 - 评估模型 - 保存模型

使用到的模型类型

模型类型	API	作用	参数解释
逻辑回归	LogisticRegression(max_iter=1000) mean_squared_error(y_test,y_pred) r2_score(y_test,y_pred)	判断类型
线性回归	LinearRegression() model.score(X_test,y_test)分析模型准确率	数值预测	X_test: 测试集特征数据，相当于考试给学生新的题目 y_test: 测试集的真是标签，相当于老师手里的标准答案 y_pred: 模型预测出来的结果，相当于学生的答卷
随机森林	RandomForestRegressor(n_estimators=100,random_state=42)
XGBoost	xgb.XGBRegressor(n_estimators=1000,learning_rate=0.05,max_depth=5,subsample=0.8,colsample_bytree=0.8)
决策树	DecisionTreeRegressor(random_state=42)
模型通用操作	保存模型 open('mo.pkl','w') as file: pickle.dump(model,file) 分类转换 pd.get_dummies(data) 处理不平衡数据 smote.fit_resample(X_train, y_train) pipeline = ([('scaler',StandardScaler()),{'linreg',LinearRegression()}]) #StandardScaler 标准化，用标准化后的特征数据进行先行回归建模，最后用fit 训练模型 pipeline.fit(X_train,y_train)

2.训练模型 model.fit(X_train,y_train)

3.预测结果 model.predict(X_test)

4.评估模型

分类模型常用准确率 model.score(X_test,y_test)，
回归模型常用均方差mean_squared_error(y_test,y_pred)，
决定系数 r2_score(y_test, y_pred)

X_test: 测试集特征数据，相当于考试给学生新的题目

y_test: 测试集的真是标签，相当于老师手里的标准答案

y_pred: 模型预测出来的结果，相当于学生的答卷

5.保存模型

open('mo.pkl','w') as file:

pickle.dump(model,file)

6.数据预处理，处理不平衡数据

smote.fit_resample(X_train, y_train)

7.特征编码有些数据是英文或符号，模型看不懂，比如性别：男/女，翻译成模型理解数组语言

pd.get_dummies(data)

8.管道流水线

pipeline = ([('scaler',StandardScaler()),{'linreg',LinearRegression()}]) #StandardScaler 标准化，用标准化后的特征数据进行先行回归建模，最后用fit 训练模型

pipeline.fit(X_train,y_train)

三模型评估指标

1. 回归问题，预测数值，房价

MSE/MAE，答案100，你写成1000，MSE 会拉的很高。

特点：理想值0，误差大，分数高=错的离谱，改进查异常，加特征，换模型。

R² 像考试总分百分比，考了90份，R² 就是0.9，实际中R²=0/9 表示模型能解释90%的数据变化的意思

特点理想值=1，口诀越接近1 越好，常见问题，模型没学会，改进加特征，换模型

训练分高-测试分低- 过拟合：比如平时作业去爱你对（训练分高），考试就不会了（测试分低），说明死记硬背，没有学会正真知识。

训练分低-测试分低 - 欠拟合：根本没学会，得换个学习方法，或补知识

2. 分类问题

精确率，比如老师让你举手回答谁会这道题，在举手同学里，真正会做的比率就是精确率，如果你乱举手，结果不会做的举手，精确率就低

特点：理想值1，口诀：报的对不对，越高越好，常见问题，误报多，精确率低，改进：提高阈值，优化模型

召回率（recall）会做的人没举手，召回率就低。所有会做的同学里，被你找出来的比例。

特点：理想值1，口诀：找的对不对，越高越好。常见问题，漏报多，召回率低。改进：降低阈值，优化模型

F1，既要语文好，又要数学好，

特点：理想值1，口诀：综合表现，越高越好。常见问题。偏科，F1低，改进：综合提升精确率和召回率

Supoort，比如考试有选择题100，填空题只有2道。填空题太少，老师很难判断填空题到底学的好不好，这时候需要多处几道填空题（补样本）

特点：理想值没有绝对值，越搞越好，每类样本要足够，至少几十份，口诀：每类题目数量，太少要补齐。常见问题，样本太少。改进：补样本，用SMOTE等方法

http://www.dtcms.com/a/359154.html

相关文章：

手表--带屏幕音响-时间制切换12/24小时

PS学习笔记

【15】VisionMaster入门到精通——--通信--TCP通信、UDP通信、串口通信、PLC通信、ModBus通信

计算机算术7-浮点基础知识

面经分享--小米Java一面

青年教师发展（中科院软件所-田丰）

Dify 从入门到精通（第 65/100 篇）：Dify 的自动化测试（进阶篇）

MCP与A2A的应用

LightGBM（Light Gradient Boosting Machine，轻量级梯度提升机）梳理总结

【AI工具】在 VSCode中安装使用Excalidraw

【69页PPT】智慧工厂数字化工厂蓝图规划建设方案（附下载方式）

基于 Kubernetes 的 Ollama DeepSeek-R1 模型部署

内存管理（智能指针，内存对齐，野指针，悬空指针）

Java中Integer转String

为什么企业需要项目管理

安卓编程之线性布局

树莓派4B 安装中文输入法

AtCoder Beginner Contest 421

Mysql 学习day 2 深入理解Mysql索引底层数据结构

【开题答辩全过程】以基于WEB的茶文化科普系统的设计与实现为例，包含答辩的问题和答案

用简单仿真链路产生 WiFi CSI（不依赖专用工具箱，matlab实现）

面试tips--MyBatis--＜where＞ where 1=1 的区别

如何查看Linux系统中文件夹或文件的大小

【LeetCode - 每日1题】有效的数独

SQLSugar 快速入门：从基础到实战查询与使用指南

MySQL 在 CentOS 上的安装与配置文件路径详解

【系列06】端侧AI：构建与部署高效的本地化AI模型第5章：模型剪枝（Pruning）

【LeetCode - 每日1题】鲜花游戏

深度学习：洞察发展趋势，展望未来蓝图

Verilog 硬件描述语言自学——重温数电之典型组合逻辑电路