机器学习—— 回归分析之如何建立回归模型
📘机器学习—— 回归分析之如何建立回归模型
✅ 一、回归建模的总体流程
回归建模不是直接上来就算公式,而是按步骤来
课程里给出的流程:
1️⃣ 需求分析 & 明确变量
2️⃣ 数据加工处理
3️⃣ 确定回归模型形式
4️⃣ 模型参数估计
5️⃣ 模型检验优化
6️⃣ 模型部署应用
✅ 二、第一步:需求分析 & 明确变量
核心思想:
明确研究目标 → 明确因变量(Y) → 选择解释变量(X)
示例:房价预测
因变量:房价(要预测的指标)
解释变量:影响房价的因素,如:
✔ 面积
✔ 位置
✔ 房龄
✔ 户型
✔ 周围环境
✔ 交通便利度
✔ 学区
✔ ……
📌 解释变量选择要基于“业务知识 + 数据可获取性”
✅ 三、第二步:数据加工处理(Data Preprocessing)
包括:
| 操作 | 目的 |
|---|---|
| 缺失值处理 | 避免模型因数据不完整失效 |
| 异常值处理 | 去除极端错误数据 |
| 标准化/归一化 | 避免不同量纲影响训练结果 |
| 特征类型转换 | 数值化分类变量(如One-hot编码) |
| 数据清洗与筛选 | 提高数据质量 |
📌 数据质量直接决定模型上限
一句话总结:Garbage in, Garbage out
✅ 四、第三步:确定回归模型形式
按照关系类型判断:
- 若为线性关系 → 线性回归
- 若为非线性关系 → 可变换、可使用非线性回归或扩展特征
开始阶段通常从最简单的线性模型试起:
[y=a+b1x1+…+bpxp+ε]
✅ 五、第四步:模型参数估计的目标
找到最优参数,使模型预测值与真实值之间误差最小
回归模型一般形式:
[y=y^=f(x)=β0+β1x1+…+βpxp]
要估计的参数:
✅ 截距:(β0)
✅ 斜率/权重:(β1,β2,…)
1、最常用的方法:最小二乘法(OLS)
核心思想非常通俗👇
让所有样本的预测误差平方和最小
→ 画一条误差最小的“最佳拟合直线”
数学形式:
mini=1∑n(yi−yi^)2
📌 为什么平方?
- 避免正负误差抵消
- 强调大误差,使模型更准确
2、最小二乘法关注误差“残差”
[εi=yi−yi^]
残差越小 → 模型拟合越好
后续模型检验基本都围绕 残差规律性 展开
3、当基本假设不满足时怎么办?
屏幕中提到:
在不满足基本假设的情况下
还会采用岭回归、主成分回归、偏最小二乘等
这些属于 改进回归方法
为了解决:
| 问题 | 替代方法 |
|---|---|
| 多重共线性严重 | 岭回归、Lasso、主成分回归 |
| 自变量太多且冗余 | 特征选择、偏最小二乘 |
| 噪声大且特征间相关性高 | PLS(偏最小二乘) |
✅ 六、第五步:模型参数估计
1、为什么要做模型检验?
虽然最小二乘法能找到“最佳拟合线”,但:
- 拟合好 ≠ 模型一定科学
- 自变量是否显著?是否有多重共线性?
- 残差是否符合基本假设?
📌 检验就是为了确认模型能否“可靠解释”因果关系!
2、回归模型基本假设(OLS成立条件)
| 分类 | 假设内容 | 含义通俗解释 |
|---|---|---|
| 线性关 |
