当前位置: 首页 > news >正文

人工智能训练师复习题目实操题2.2.1 - 2.2.5

知识点讲解

机器学习基本流程

创建模型 - 训练模型 - 预测结果 - 评估模型 - 保存模型

使用到的模型类型

模型类型API作用参数解释
逻辑回归

LogisticRegression(max_iter=1000)

mean_squared_error(y_test,y_pred)

r2_score(y_test,y_pred)

判断类型
线性回归

LinearRegression()

model.score(X_test,y_test)分析模型准确率

数值预测

X_test: 测试集特征数据,相当于考试给学生新的题目

y_test: 测试集的真是标签,相当于老师手里的标准答案

y_pred: 模型预测出来的结果,相当于学生的答卷

随机森林RandomForestRegressor(n_estimators=100,random_state=42)
XGBoostxgb.XGBRegressor(n_estimators=1000,learning_rate=0.05,max_depth=5,subsample=0.8,colsample_bytree=0.8)
决策树DecisionTreeRegressor(random_state=42)
模型通用操作

保存模型

open('mo.pkl','w') as file:

     pickle.dump(model,file)

分类转换

 pd.get_dummies(data)

处理不平衡数据

smote.fit_resample(X_train, y_train)

pipeline = ([('scaler',StandardScaler()),{'linreg',LinearRegression()}]) #StandardScaler 标准化,用标准化后的特征数据进行先行回归建模,最后用fit 训练模型

pipeline.fit(X_train,y_train)

2.训练模型 model.fit(X_train,y_train)

3.预测结果 model.predict(X_test)

4.评估模型

  • 分类模型常用准确率 model.score(X_test,y_test),
  • 回归模型常用均方差mean_squared_error(y_test,y_pred),
  • 决定系数 r2_score(y_test, y_pred)

X_test: 测试集特征数据,相当于考试给学生新的题目

y_test: 测试集的真是标签,相当于老师手里的标准答案

y_pred: 模型预测出来的结果,相当于学生的答卷

5.保存模型

open('mo.pkl','w') as file:

     pickle.dump(model,file)

6.数据预处理,处理不平衡数据

smote.fit_resample(X_train, y_train)

7.特征编码 有些数据是英文 或 符号,模型看不懂,比如性别:男/女,翻译成模型理解数组语言

 pd.get_dummies(data)

8.管道流水线

pipeline = ([('scaler',StandardScaler()),{'linreg',LinearRegression()}]) #StandardScaler 标准化,用标准化后的特征数据进行先行回归建模,最后用fit 训练模型

pipeline.fit(X_train,y_train)

三 模型评估指标

1. 回归问题,预测数值,房价

 MSE/MAE,答案100,你写成1000,MSE 会拉的很高。

特点:理想值0,误差大,分数高=错的离谱,改进 查异常,加特征,换模型。

 R² 像考试总分百分比,考了90份,R² 就是0.9,实际中R²=0/9 表示模型能解释90%的数据变化的意思

特点理想值=1,口诀越接近1 越好,常见问题,模型没学会,改进加特征,换模型

训练分高-测试分低- 过拟合: 比如平时作业去爱你对(训练分高),考试就不会了(测试分低),说明死记硬背,没有学会正真知识。

训练分低-测试分低 - 欠拟合 :根本没学会,得换个学习方法,或补知识

2. 分类问题

精确率,比如老师让你举手回答谁会这道题,在举手同学里,真正会做的比率就是精确率,如果你乱举手,结果不会做的举手,精确率就低

特点:理想值1,口诀:报的对不对,越高越好,常见问题,误报多,精确率低,改进:提高阈值,优化模型

召回率(recall)会做的人没举手,召回率就低。所有会做的同学里,被你找出来的比例。

特点:理想值1,口诀:找的对不对,越高越好。常见问题,漏报多,召回率低。改进:降低阈值,优化模型

F1,既要语文好,又要数学好,

特点:理想值1,口诀:综合表现,越高越好。常见问题。偏科,F1低,改进:综合提升精确率和召回率

Supoort,比如考试有选择题100,填空题只有2道。填空题太少,老师很难判断填空题到底学的好不好,这时候需要多处几道填空题(补样本)

特点:理想值没有绝对值,越搞越好,每类样本要足够,至少几十份,口诀:每类题目数量,太少要补齐。常见问题,样本太少。改进:补样本,用SMOTE等方法

http://www.dtcms.com/a/359154.html

相关文章:

  • 手表--带屏幕音响-时间制切换12/24小时
  • PS学习笔记
  • 【15】VisionMaster入门到精通——--通信--TCP通信、UDP通信、串口通信、PLC通信、ModBus通信
  • 计算机算术7-浮点基础知识
  • 面经分享--小米Java一面
  • 青年教师发展(中科院软件所-田丰)
  • Dify 从入门到精通(第 65/100 篇):Dify 的自动化测试(进阶篇)
  • MCP与A2A的应用
  • LightGBM(Light Gradient Boosting Machine,轻量级梯度提升机)梳理总结
  • 【AI工具】在 VSCode中安装使用Excalidraw
  • 【69页PPT】智慧工厂数字化工厂蓝图规划建设方案(附下载方式)
  • 基于 Kubernetes 的 Ollama DeepSeek-R1 模型部署
  • 内存管理(智能指针,内存对齐,野指针,悬空指针)
  • Java中Integer转String
  • 为什么企业需要项目管理
  • 安卓编程 之 线性布局
  • 树莓派4B 安装中文输入法
  • AtCoder Beginner Contest 421
  • Mysql 学习day 2 深入理解Mysql索引底层数据结构
  • 【开题答辩全过程】以 基于WEB的茶文化科普系统的设计与实现为例,包含答辩的问题和答案
  • 用简单仿真链路产生 WiFi CSI(不依赖专用工具箱,matlab实现)
  • 面试tips--MyBatis--<where> where 1=1 的区别
  • 如何查看Linux系统中文件夹或文件的大小
  • 【LeetCode - 每日1题】有效的数独
  • SQLSugar 快速入门:从基础到实战查询与使用指南
  • MySQL 在 CentOS 上的安装与配置文件路径详解
  • 【系列06】端侧AI:构建与部署高效的本地化AI模型 第5章:模型剪枝(Pruning)
  • 【LeetCode - 每日1题】鲜花游戏
  • 深度学习:洞察发展趋势,展望未来蓝图
  • Verilog 硬件描述语言自学——重温数电之典型组合逻辑电路