当前位置：首页 > news >正文

机器学习回顾——线性回归

news 2025/8/30 5:56:00

线性回归详解：从基础到实践

1. 核心思想与应用场景

线性回归是机器学习中最基础、最经典的模型之一，它主要用于解决回归问题（预测连续值）。该模型在多个领域都有广泛应用：

房价预测：根据房屋面积、位置、房龄等特征预测房价
销售预测：基于历史销售数据、市场活动等预测未来销售额
医学研究：分析药物剂量与疗效之间的关系

线性与回归的深层理解

"线性"的双重含义：
- 模型是参数的线性函数（如θ₀ + θ₁x₁ + θ₂x₂）
- 允许输入特征的任意变换（如多项式特征x²），只要保持对参数的线性关系
- 示例：y = θ₀ + θ₁x + θ₂x²仍属于线性回归模型
"回归"的本质：
- 与分类问题不同，回归预测的是连续数值
- 预测值可以取一定范围内的任何实数值
- 典型的回归任务包括温度预测、股票价格预测等

2. 模型表示与数学形式

一元线性回归（单变量）

最简单的线性回归形式，适用于只有一个特征的情况：

hθ(x) = θ₀ + θ₁x

参数解释：
- θ₀ (截距)：当所有特征为0时的预测值
- θ₁ (斜率)：特征x每增加1个单位，预测值的变化量
- 示例：在房价预测中，θ₀可能代表基础房价，θ₁代表每平方米的价格

多元线性回归（多变量）

现实问题通常涉及多个特征：

hθ(x) = θ₀ + θ₁x₁ + θ₂x₂ + ... + θₙxₙ

向量化表示：
- 定义x₀=1，可以简写为hθ(x) = θᵀx
- θ = [θ₀, θ₁, ..., θₙ]ᵀ
- x = [x₀, x₁, ..., xₙ]ᵀ

3. 代价函数详解

均方误差(MSE)代价函数

J(θ) = 1/2m ∑(hθ(xⁱ) - yⁱ)²

组成要素：
- m：训练样本数量
- hθ(xⁱ)：第i个样本的预测值
- yⁱ)：第i个样本的真实值
- 1/2系数：为了数学推导方便（求导后系数为1）
为什么选择MSE？
- 对大的误差惩罚更重（平方项）
- 数学性质好，便于求导优化
- 具有唯一最优解（凸函数）

代价函数的可视化

通过绘制不同θ值下的J(θ)可以直观理解：

对于简单线性回归，J(θ)呈"碗状"
最低点对应最优参数组合

4. 梯度下降优化算法

算法详细步骤

初始化参数：
- 通常设为0向量：θ = [0, 0, ..., 0]ᵀ
- 也可以随机初始化
参数更新规则：
```
θⱼ := θⱼ - α (1/m) ∑(hθ(xⁱ) - yⁱ)xⱼⁱ
```
- α：学习率（典型值：0.01, 0.001等）
- 需要同时更新所有θⱼ
收敛判定：
- 代价函数变化小于阈值（如1e-5）
- 达到最大迭代次数（如1000次）

学习率的选择

太小：收敛速度慢
太大：可能无法收敛甚至发散
建议：尝试0.001, 0.003, 0.01, 0.03, 0.1等值

5. 实践流程扩展

数据准备与预处理

特征工程：
- 处理缺失值
- 特征缩放（标准化/归一化）
- 创建多项式特征
数据拆分：
- 典型比例：70%训练集，30%测试集
- 使用交叉验证评估模型性能

模型评估指标

除了MSE，还可以使用：

RMSE：均方根误差（√MSE）
R²分数：解释方差比例
MAE：平均绝对误差

模型诊断与改进

检查假设：
- 线性性：绘制残差图
- 同方差性：残差应随机分布
改进方法：
- 增加多项式特征
- 使用正则化（岭回归/Lasso）
- 处理异常值

6. 优缺点深入分析

优点扩展

计算效率：
- 训练复杂度O(n²p)，n为样本数，p为特征数
- 对于小规模数据几乎瞬时完成
可解释性：
- 每个系数代表特征对目标的影响程度
- 可以计算置信区间和p值

缺点应对策略

非线性问题：
- 解决方案：添加多项式特征
- 示例：引入x², x³等项
异常值敏感：
- 解决方案：使用Huber损失函数
- 或改用分位数回归
多重共线性：
- 解决方案：主成分分析(PCA)
- 或使用正则化方法

7. 高级应用场景

时间序列预测：
- 结合自回归(AR)模型
- 处理季节性因素
因果推断：
- 用于分析变量间的因果关系
- 需要控制混杂变量
集成学习基模型：
- 作为Bagging或Boosting的弱学习器
- 在Stacking中作为元模型

误差项的定义与意义

在多元线性回归模型中，因变量 y 与自变量 x₁,x₂,...,xₖ 的关系可表示为：

yᵢ = β₀ + β₁xᵢ₁ + β₂xᵢ₂ + ... + βₖxᵢₖ + εᵢ

其中：

yᵢ 为个体 i 的因变量观测值
β₀ 为截距项
β₁,...,βₖ 为回归系数
xᵢ₁,...,xᵢₖ 为个体 i 的自变量观测值
εᵢ 为误差项（随机扰动项）

误差项 εᵢ 反映了实际值 yᵢ 与模型预测值 ŷᵢ 之间的差异，体现了模型的不完美性。

误差项的构成及其存在原因

任何模型都不可能完全捕捉现实世界的复杂性。误差项 ε 包含以下未被模型解释的因素：

遗漏变量偏差
模型无法纳入所有影响因素。例如房价模型中，装修品味、社区氛围等难以量化的因素都会被归入误差项。
测量误差
数据收集过程中的不精确性，如自我报告收入、历史天气记录等的偏差。
固有随机性
现象本身的不可预测波动，如相同特征的消费者可能有不同的消费金额。
模型设定误差
模型形式可能不正确，如忽略了非线性关系或交互效应导致的系统性偏差。

经典假设：误差项的期望特性

为保证普通最小二乘法(OLS)估计的最优性，我们对误差项 ε 做出以下关键假设：

零条件均值
E(εᵢ|X)=0
- 确保OLS估计量无偏
- 模型不存在系统性高估或低估
同方差性
Var(εᵢ|X)=σ²（常数）
- 保证估计系数标准误的有效性
- 违背会导致异方差性问题
无自相关
Cov(εᵢ,εⱼ|X)=0 (∀i≠j)
- 观测间误差项相互独立
- 时间序列数据中常见违背情况
正态性
εᵢ|X ~ N(0,σ²)
- 对小样本统计推断至关重要
- 大样本下可放宽
与自变量不相关
Cov(εᵢ,xⱼ)=0
- 由零条件均值保证
- 违背会导致内生性问题

误差项分析：残差诊断

通过残差 eᵢ=yᵢ-ŷᵢ 可检验上述假设：

检验假设	诊断方法	异常表现
线性性与同方差性	残差-拟合值图	U型曲线（非线性）<br>漏斗形（异方差）
正态性	Q-Q图	点偏离参考线
独立性	残差时序图（时间序列）	周期性或趋势
	自相关函数图	显著自相关bar

极大似然估计

核心思想
在给定观测数据的前提下，寻找能够最大概率生成这些数据的模型参数。

示例（硬币问题）

假设抛掷一枚不均匀硬币10次，得到7次正面和3次反面
目标是估计硬币正面朝上的概率p
通过比较不同p值下出现7正3反的概率：
- 当p=0.5时，概率约为0.117
- 当p=0.7时，概率提升至0.267
- 当p=0.9时，概率下降至0.057
结论：p=0.7时观测概率最大，因此MLE估计值为0.7

数学定义

似然函数
- 定义：L(θ|D) = P(D|θ)，表示参数θ下观测到数据D的概率
- 对于独立同分布数据：L(θ|D) = ∏P(x_i|θ)
对数似然函数
- 转换公式：ℓ(θ|D) = log L(θ|D) = ∑logP(x_i|θ)
- 优势：解决连乘计算问题，保持单调性
极大似然估计
- 目标：θ̂_MLE = argmax L(θ|D) = argmax ℓ(θ|D)
- 解法：通过求导令∂ℓ(θ)/∂θ = 0

经典案例：正态分布MLE

似然函数：
L(μ,σ²|D) = ∏(1/√(2πσ²))exp[-(x_i-μ)²/(2σ²)]
对数似然：
ℓ(μ,σ²) = -n/2 log(2π) - n/2 log(σ²) - 1/(2σ²)∑(x_i-μ)²
参数估计：
- μ̂_MLE = (1/n)∑x_i（样本均值）
- σ̂²_MLE = (1/n)∑(x_i-μ̂)²（有偏样本方差）

MLE与线性回归

模型假设：y_i = βᵀx_i + ε_i，ε_i ∼ N(0,σ²)
对数似然函数：
ℓ(β,σ²) = -n/2 log(2πσ²) - 1/(2σ²)∑(y_i-βᵀx_i)²
优化等价性：
最大化似然函数 ⇨ 最小化残差平方和(RSS)

优劣势分析
优势：

理论完备性（一致性、渐近正态性）
广泛模型适用性
可计算性强

局限性：

模型假设敏感性
小样本偏差风险
复杂模型计算成本

核心要点总结

概念	关键说明
MLE目标	最大化观测数据概率
似然函数	L(θ)=P(D
求解途径	解析求导/数值优化
与OLS关系	正态假设下二者等价
典型应用	回归模型、分类算法、深度网络

查看全文

http://www.dtcms.com/a/356374.html