当前位置: 首页 > news >正文

机器学习回顾——线性回归

线性回归详解:从基础到实践

1. 核心思想与应用场景

线性回归是机器学习中最基础、最经典的模型之一,它主要用于解决回归问题(预测连续值)。该模型在多个领域都有广泛应用:

  • 房价预测:根据房屋面积、位置、房龄等特征预测房价
  • 销售预测:基于历史销售数据、市场活动等预测未来销售额
  • 医学研究:分析药物剂量与疗效之间的关系

线性与回归的深层理解

  1. "线性"的双重含义

    • 模型是参数的线性函数(如θ₀ + θ₁x₁ + θ₂x₂)
    • 允许输入特征的任意变换(如多项式特征x²),只要保持对参数的线性关系
    • 示例:y = θ₀ + θ₁x + θ₂x²仍属于线性回归模型
  2. "回归"的本质

    • 与分类问题不同,回归预测的是连续数值
    • 预测值可以取一定范围内的任何实数值
    • 典型的回归任务包括温度预测、股票价格预测等

2. 模型表示与数学形式

一元线性回归(单变量)

最简单的线性回归形式,适用于只有一个特征的情况:

hθ(x) = θ₀ + θ₁x
  • 参数解释
    • θ₀ (截距):当所有特征为0时的预测值
    • θ₁ (斜率):特征x每增加1个单位,预测值的变化量
    • 示例:在房价预测中,θ₀可能代表基础房价,θ₁代表每平方米的价格

多元线性回归(多变量)

现实问题通常涉及多个特征:

hθ(x) = θ₀ + θ₁x₁ + θ₂x₂ + ... + θₙxₙ

  • 向量化表示
    • 定义x₀=1,可以简写为hθ(x) = θᵀx
    • θ = [θ₀, θ₁, ..., θₙ]ᵀ
    • x = [x₀, x₁, ..., xₙ]ᵀ

3. 代价函数详解

均方误差(MSE)代价函数

J(θ) = 1/2m ∑(hθ(xⁱ) - yⁱ)²
  • 组成要素

    • m:训练样本数量
    • hθ(xⁱ):第i个样本的预测值
    • yⁱ):第i个样本的真实值
    • 1/2系数:为了数学推导方便(求导后系数为1)
  • 为什么选择MSE?

    • 对大的误差惩罚更重(平方项)
    • 数学性质好,便于求导优化
    • 具有唯一最优解(凸函数)

代价函数的可视化

通过绘制不同θ值下的J(θ)可以直观理解:

  • 对于简单线性回归,J(θ)呈"碗状"
  • 最低点对应最优参数组合

4. 梯度下降优化算法

算法详细步骤

  1. 初始化参数

    • 通常设为0向量:θ = [0, 0, ..., 0]ᵀ
    • 也可以随机初始化
  2. 参数更新规则

    θⱼ := θⱼ - α (1/m) ∑(hθ(xⁱ) - yⁱ)xⱼⁱ
    
    • α:学习率(典型值:0.01, 0.001等)
    • 需要同时更新所有θⱼ
  3. 收敛判定

    • 代价函数变化小于阈值(如1e-5)
    • 达到最大迭代次数(如1000次)

学习率的选择

  • 太小:收敛速度慢
  • 太大:可能无法收敛甚至发散
  • 建议:尝试0.001, 0.003, 0.01, 0.03, 0.1等值

5. 实践流程扩展

数据准备与预处理

  1. 特征工程

    • 处理缺失值
    • 特征缩放(标准化/归一化)
    • 创建多项式特征
  2. 数据拆分

    • 典型比例:70%训练集,30%测试集
    • 使用交叉验证评估模型性能

模型评估指标

除了MSE,还可以使用:

  • RMSE:均方根误差(√MSE)
  • R²分数:解释方差比例
  • MAE:平均绝对误差

模型诊断与改进

  1. 检查假设

    • 线性性:绘制残差图
    • 同方差性:残差应随机分布
  2. 改进方法

    • 增加多项式特征
    • 使用正则化(岭回归/Lasso)
    • 处理异常值

6. 优缺点深入分析

优点扩展

  1. 计算效率

    • 训练复杂度O(n²p),n为样本数,p为特征数
    • 对于小规模数据几乎瞬时完成
  2. 可解释性

    • 每个系数代表特征对目标的影响程度
    • 可以计算置信区间和p值

缺点应对策略

  1. 非线性问题

    • 解决方案:添加多项式特征
    • 示例:引入x², x³等项
  2. 异常值敏感

    • 解决方案:使用Huber损失函数
    • 或改用分位数回归
  3. 多重共线性

    • 解决方案:主成分分析(PCA)
    • 或使用正则化方法

7. 高级应用场景

  1. 时间序列预测

    • 结合自回归(AR)模型
    • 处理季节性因素
  2. 因果推断

    • 用于分析变量间的因果关系
    • 需要控制混杂变量
  3. 集成学习基模型

    • 作为Bagging或Boosting的弱学习器
    • 在Stacking中作为元模型

误差项的定义与意义

在多元线性回归模型中,因变量 y 与自变量 x₁,x₂,...,xₖ 的关系可表示为:

yᵢ = β₀ + β₁xᵢ₁ + β₂xᵢ₂ + ... + βₖxᵢₖ + εᵢ

其中:

  • yᵢ 为个体 i 的因变量观测值
  • β₀ 为截距项
  • β₁,...,βₖ 为回归系数
  • xᵢ₁,...,xᵢₖ 为个体 i 的自变量观测值
  • εᵢ 为误差项(随机扰动项)

误差项 εᵢ 反映了实际值 yᵢ 与模型预测值 ŷᵢ 之间的差异,体现了模型的不完美性。

误差项的构成及其存在原因

任何模型都不可能完全捕捉现实世界的复杂性。误差项 ε 包含以下未被模型解释的因素:

  1. 遗漏变量偏差
    模型无法纳入所有影响因素。例如房价模型中,装修品味、社区氛围等难以量化的因素都会被归入误差项。

  2. 测量误差
    数据收集过程中的不精确性,如自我报告收入、历史天气记录等的偏差。

  3. 固有随机性
    现象本身的不可预测波动,如相同特征的消费者可能有不同的消费金额。

  4. 模型设定误差
    模型形式可能不正确,如忽略了非线性关系或交互效应导致的系统性偏差。

经典假设:误差项的期望特性

为保证普通最小二乘法(OLS)估计的最优性,我们对误差项 ε 做出以下关键假设:

  1. 零条件均值
    E(εᵢ|X)=0

    • 确保OLS估计量无偏
    • 模型不存在系统性高估或低估
  2. 同方差性
    Var(εᵢ|X)=σ²(常数)

    • 保证估计系数标准误的有效性
    • 违背会导致异方差性问题
  3. 无自相关
    Cov(εᵢ,εⱼ|X)=0 (∀i≠j)

    • 观测间误差项相互独立
    • 时间序列数据中常见违背情况
  4. 正态性
    εᵢ|X ~ N(0,σ²)

    • 对小样本统计推断至关重要
    • 大样本下可放宽
  5. 与自变量不相关
    Cov(εᵢ,xⱼ)=0

    • 由零条件均值保证
    • 违背会导致内生性问题

误差项分析:残差诊断

通过残差 eᵢ=yᵢ-ŷᵢ 可检验上述假设:

检验假设诊断方法异常表现
线性性与同方差性残差-拟合值图U型曲线(非线性)<br>漏斗形(异方差)
正态性Q-Q图点偏离参考线
独立性残差时序图(时间序列)周期性或趋势
自相关函数图显著自相关bar

极大似然估计

核心思想
在给定观测数据的前提下,寻找能够最大概率生成这些数据的模型参数。

示例(硬币问题)

  • 假设抛掷一枚不均匀硬币10次,得到7次正面和3次反面
  • 目标是估计硬币正面朝上的概率p
  • 通过比较不同p值下出现7正3反的概率:
    • 当p=0.5时,概率约为0.117
    • 当p=0.7时,概率提升至0.267
    • 当p=0.9时,概率下降至0.057
  • 结论:p=0.7时观测概率最大,因此MLE估计值为0.7

数学定义

  1. 似然函数

    • 定义:L(θ|D) = P(D|θ),表示参数θ下观测到数据D的概率
    • 对于独立同分布数据:L(θ|D) = ∏P(x_i|θ)
  2. 对数似然函数

    • 转换公式:ℓ(θ|D) = log L(θ|D) = ∑logP(x_i|θ)
    • 优势:解决连乘计算问题,保持单调性
  3. 极大似然估计

    • 目标:θ̂_MLE = argmax L(θ|D) = argmax ℓ(θ|D)
    • 解法:通过求导令∂ℓ(θ)/∂θ = 0

经典案例:正态分布MLE

  1. 似然函数:
    L(μ,σ²|D) = ∏(1/√(2πσ²))exp[-(x_i-μ)²/(2σ²)]

  2. 对数似然:
    ℓ(μ,σ²) = -n/2 log(2π) - n/2 log(σ²) - 1/(2σ²)∑(x_i-μ)²

  3. 参数估计:

    • μ̂_MLE = (1/n)∑x_i(样本均值)
    • σ̂²_MLE = (1/n)∑(x_i-μ̂)²(有偏样本方差)

MLE与线性回归

  1. 模型假设:y_i = βᵀx_i + ε_i,ε_i ∼ N(0,σ²)
  2. 对数似然函数:
    ℓ(β,σ²) = -n/2 log(2πσ²) - 1/(2σ²)∑(y_i-βᵀx_i)²
  3. 优化等价性:
    最大化似然函数 ⇨ 最小化残差平方和(RSS)

优劣势分析
优势:

  1. 理论完备性(一致性、渐近正态性)
  2. 广泛模型适用性
  3. 可计算性强

 局限性:

  1. 模型假设敏感性
  2. 小样本偏差风险
  3. 复杂模型计算成本

核心要点总结

概念关键说明
MLE目标最大化观测数据概率
似然函数L(θ)=P(D
求解途径解析求导/数值优化
与OLS关系正态假设下二者等价
典型应用回归模型、分类算法、深度网络
http://www.dtcms.com/a/356374.html

相关文章:

  • GitHub 宕机自救指南:打造韧性开发体系
  • 基于站点、模式、遥感多源降水数据融合与评估;Python驱动下,从基础处理、机器学习建模到气候态产品生成的全流程解析
  • Consul 操作命令汇总 - Prometheus服务注册
  • 选华为实验工具:eNSP Pro 和社区在线实验哪个更适合?
  • 腾讯位置商业授权微信小程序距离计算
  • OpenAI GPT-realtime 实时语音 API 完整指南:2025年语音AI的革命性突破
  • STM32的RTC模块及其应用场景
  • MTK Linux DRM分析(二十三)- MTK mtk_drm_crtc.c(Part2)
  • 嵌入式Linux驱动开发 - GPIO LED驱动
  • 税务岗位能力提升培训课程推荐
  • 嵌入式Linux驱动开发:定时器驱动
  • 解析DB-GPT项目中三个 get_all_model_instances 方法的区别
  • 【WebRTC】从入门到忘记
  • 解密 Vue 3 shallowRef:浅层响应式 vs 深度响应式的性能对决
  • 园区智慧水电管理系统:让能源管理从“成本黑洞”变“利润引擎”
  • 【GM3568JHF】FPGA+ARM异构开发板 使用指南:以太网
  • nginx 怎么将 https 请求转为 http
  • AR巡检系统:数字化传统工作流程SOP的第一步
  • //Q是一个队列,S是一个空栈,实现将队列中的元素逆置的算法。
  • 从零开始学习单片机17
  • 医疗AI时代的生物医学Go编程:高性能计算与精准医疗的案例分析(五)
  • AR智能眼镜:能源行业运维的数字化革新
  • iOS 文件管理与 uni-app 性能优化实战 多工具协作的完整指南
  • Frida-dexdump 使用指南:从内存中脱取安卓 Dex 文件
  • Go对接全球期货数据源指南:基于StockTV API实现多品种实时监控
  • LeetCode第二题知识点2 ---- 栈、堆、地址
  • 不止 ChatGPT:多模态 AI(文本 + 图像 + 音频)正重构内容创作全流程
  • 数据质检之springboot通过yarn调用spark作业实现数据质量检测
  • 第三章 Vue3 + Three.js 实战:用 OrbitControls 实现相机交互与 3D 立方体展示
  • Unity学习----【数据持久化】二进制存储(一)