当前位置：首页 > news >正文

人工智能-python-机器学习-线性回归与梯度下降：理论与实践

news 2025/8/12 10:41:42

文章目录

线性回归与梯度下降：理论与实践
- 1. 引言
- 2. 回归分析
- - 2.1 什么是回归？
  - 2.2 线性回归
  - 2.3 损失函数
  - 2.4 多参数回归
- 3. 参数求解：最小二乘法
- - 3.1 最小二乘法 MSE
  - 3.2 最小二乘法的优缺点
  - - 优点：
    - 缺点：
- 4. 梯度下降
- - 4.1 梯度下降概念
  - 4.2 梯度下降步骤
  - 4.3 梯度下降公式
  - 4.4 学习率
  - 4.5 自己实现梯度下降
  - 4.6 梯度下降的变种
  - - BGD（批量梯度下降）
    - SGD（随机梯度下降）
    - MBGD（小批量梯度下降）
  - 4.7 梯度下降优化
- 5. 使用场景
- 6. 优缺点
- - 6.1 线性回归
  - - 优点：
    - 缺点：
  - 6.2 梯度下降
  - - 优点：
    - 缺点：
- 7. 总结

线性回归与梯度下降：理论与实践

1. 引言

回归分析是一种常用的统计方法，用于建立一个因变量与一个或多个自变量之间的关系模型。本文将重点讨论线性回归和梯度下降，两者是数据科学和机器学习中常见的基础方法。

2. 回归分析

2.1 什么是回归？

回归分析是一种统计方法，用于建模因变量（目标值）与自变量（特征）之间的关系。在回归分析中，目标是找到一个数学函数来预测因变量的值。

回归定义：通过建立数学模型，研究自变量(X)与因变量(Y)的映射关系 ✨
核心价值：预测连续型变量（如房价预测、销量分析），揭示变量间因果关系
回归模型：预测连续值，如房价、温度、销售额等。

2.2 线性回归

线性回归是回归分析中最简单的一种方法，它假设因变量与自变量之间存在线性关系。

线性回归模型的公式为：

$\beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n + \epsilon$

其中：
- $y$ 是因变量。
- $x_1, x_2, ..., x_n$ 是自变量（特征）。
- $β0\beta_0$ 是截距（模型基准点）。
- $β1,β2,...,βn\beta_1, \beta_2, ..., \beta_n$ 是回归系数（特征权重系数）。
- $ϵ\epsilon$ 是误差项。

2.3 损失函数

损失函数用于度量模型预测值与实际值之间的误差。在线性回归中，通常使用 均方误差 (MSE) 作为损失函数。

数学本质：误差平方和的期望最小化
几何意义：寻找最佳拟合超平面（高维空间中的直线）📐
均方误差（MSE） 公式：

$MSE=1m∑i=1m(yi−y^i)2MSE = \frac{1}{m} \sum_{i=1}^{m} (y_i - \hat{y}_i)^2$

其中：
- $y_i$ 是实际值。
- $y^i\hat{y}_i$ 是预测值。
- $m$ 是样本数量。

2.4 多参数回归

在多参数回归中，目标是通过多个特征来预测一个因变量。例如，在房价预测中，可能有多个因素（如面积、房间数量、位置等）影响房价。多参数回归即通过多个自变量来建立线性关系。

3. 参数求解：最小二乘法

最小二乘法（Least Squares）是一种优化方法，常用于线性回归中，用来找到最佳拟合的线。

3.1 最小二乘法 MSE

最小二乘法通过最小化损失函数（MSE）来求解回归系数。在矩阵形式下，最小二乘法的公式为：

$β^=(XTX)−1XTy\hat{\beta} = (X^T X)^{-1} X^T y$

$X$ 是样本特征矩阵。
$y$ 是目标变量。
$β^\hat{\beta}$ 是回归系数向量。

前景知识：矩阵相关公式

矩阵运算前提：
- 特征矩阵需满秩（无多重共线性）
- 样本量 > 特征维度

矩阵转置： $A^T)^T = A$

矩阵逆： $AB)^{-1} = B^{-1}A^{-1}$

from sklearn.linear_model import LinearRegressionmodel = LinearRegression().fit(X_train, y_train)print(f"系数: {model.coef_}, 截距: {model.intercept_}")

3.2 最小二乘法的优缺点

优点：

简单且易于理解。
对小数据集表现良好，计算效率高。

缺点：

对异常值敏感。
需要满足线性假设。

4. 梯度下降

梯度下降（Gradient Descent）是一种优化算法，用于最小化损失函数。它通过计算损失函数关于参数的梯度，并沿梯度的反方向更新参数。

4.1 梯度下降概念

梯度下降通过迭代的方式不断优化参数，直到找到损失函数的最小值。假设我们有损失函数 $L(θ)L(\theta)$ ，梯度下降的更新公式为：

$θ:=θ−α∇θL(θ)\theta := \theta - \alpha \nabla_\theta L(\theta)$

$θ\theta$ 是模型参数。
$α\alpha$ 是学习率。
$∇θL(θ)\nabla_\theta L(\theta)$ 是损失函数关于参数的梯度。

4.2 梯度下降步骤

初始化参数：随机或通过某种方式初始化参数。
计算梯度：计算损失函数对参数的偏导数。
更新参数：按照梯度反方向更新参数。
迭代：重复以上步骤，直到损失函数收敛或达到最大迭代次数。

4.3 梯度下降公式

损失函数 $L(θ)L(\theta)$ 相对于参数 $θ\theta$ 的梯度计算公式为：

$∇θL(θ)=∂∂θ(1m∑i=1m(yi−y^i)2)\nabla_\theta L(\theta) = \frac{\partial}{\partial \theta} \left( \frac{1}{m} \sum_{i=1}^{m} (y_i - \hat{y}_i)^2 \right)$

4.4 学习率

学习率（ $α\alpha$ ）决定了每次更新的步长大小。选择一个合适的学习率非常重要：

学习率过大，可能导致跳过最优解。
学习率过小，收敛速度会很慢。

4.5 自己实现梯度下降

import numpy as np# 假设数据集X和y已经准备好
def gradient_descent(X, y, theta, alpha=0.01, iterations=1000):m = len(y)cost_history = []for i in range(iterations):predictions = X.dot(theta)error = predictions - ygradient = (1/m) * X.T.dot(error)theta = theta - alpha * gradientcost = (1/2*m) * np.sum(np.square(error))cost_history.append(cost)return theta, cost_history# 初始化theta，假设X和y已经定义
theta_initial = np.zeros(X.shape[1])
theta, cost_history = gradient_descent(X, y, theta_initial, alpha=0.01, iterations=1000)

4.6 梯度下降的变种

BGD（批量梯度下降）

在批量梯度下降中，每次迭代都使用整个训练集计算梯度。它收敛稳定，但计算量大，尤其在数据集较大时。

SGD（随机梯度下降）

在随机梯度下降中，每次迭代使用一个样本来计算梯度，收敛较快，但噪声大。

MBGD（小批量梯度下降）

小批量梯度下降结合了BGD和SGD的优点。每次迭代使用一个小批量的样本进行计算，能有效减少计算开销并加速收敛。

4.7 梯度下降优化

为加速梯度下降的收敛速度，可以使用动量法（Momentum）、**自适应梯度（AdaGrad）**等优化算法。

5. 使用场景

线性回归：适用于预测房价、销售量、温度等连续变量，尤其是特征之间存在线性关系时。
梯度下降：适用于大数据集或高维数据集，尤其是在无法直接求解闭式解（如最小二乘法）时。

6. 优缺点

6.1 线性回归

优点：

简单易懂。
计算效率高，尤其是数据量小的时候。

缺点：

对异常值敏感。
假设特征与目标变量之间存在线性关系。

6.2 梯度下降

优点：

适用于大规模数据集，尤其是在线性回归无法使用最小二乘法时。
可以处理复杂的非线性模型。

缺点：

可能收敛到局部最优解。
需要选择合适的学习率。

7. 总结

本文介绍了线性回归和梯度下降的基本理论及实现方法，分析了它们的优缺点和应用场景。通过结合这些方法，能够为不同的数据问题提供高效的解决方案。

查看全文

http://www.dtcms.com/a/326420.html

大屏幕自适应

基于FPGA的热电偶测温数据采集系统，替代NI的产品（三）测试

C++ STL | STL迭代器（lterator）

阿里千问系列：Qwen3 强化学习新算法GSPO！

HTML应用指南：利用GET请求获取全国一加授权零售店位置信息

机器学习逻辑回归实战

【Lua】题目小练10

computed使用的方式

【Lua】XLua加载lua文件

xlsxio全平台(x86、arm32、arm64 )编译、测试,使用编译脚本10分钟快速编译！

redis常见的性能问题

游戏盾是什么?

Qwen Code CLI在Windows上的安装与环境配置问题解决

金蝶云星辰：赋能企业数据管理

开发指南130-实体类的主键生成策略

达梦数据库慢SQL日志收集和分析

机器学习 TF-IDF提取关键词，从原理到实践的文本特征提取利器

Java 之抽象类和接口

数据结构-数组扩容

2025苹果CMS泛目录 8月最新可用

软件测评中HTTP 安全头的配置与测试规范

鸿蒙开发中所有自定义装饰器的完整案例解析--涵盖 16 个核心装饰器的详细用法和实战场景

QT 高分屏不同缩放比例的自适应处理

数据科学与计算实例应用

借助 ChatGPT 快速实现 TinyMCE 段落间距与行间距调节

Ansible 面试题 20250811

OpenGL中的EBO：高效渲染的秘密武器(绘制四边形)(Unreal Engine、Unity、Godot原理系列)

JavaScript中map和forEach的区别详解

动捕设备是什么？全面解析NOKOV度量动捕设备的原理、类型与应用

redis（1）-基本概念