当前位置：首页 > news >正文

第三章线性回归与感知机

news 2025/8/13 15:10:15

第三章线性回归与感知机：从基础模型到分类边界

线性模型是机器学习中最基础且重要的模型类别，它们不仅简单直观，而且为许多复杂模型奠定了基础。本章将详细介绍线性回归和感知机这两类核心线性模型，揭示它们在回归和分类问题中的应用原理。

一、线性回归：预测建模的基石

1.1 线性回归的起源与发展

线性回归的历史可以追溯到19世纪，英国统计学家弗朗西斯·高尔顿在研究父母与子女身高关系时发现了"回归"现象：子女身高趋向于"中亲"身高（父母身高的平均值）与总体平均身高之间的某个值。这一发现奠定了回归分析的基础。

现代应用场景：

房价预测：基于房屋面积、位置等特征
销售预测：基于历史销售数据和市场指标
经济分析：GDP增长与各种经济指标的关系

1.2 线性回归模型详解

模型形式

一元线性回归：Y = w₀ + w₁X + ε
多元线性回归：Y = w₀ + w₁X₁ + w₂X₂ + … + wₚXₚ + ε

其中：

Y：目标变量（因变量）
X：特征变量（自变量）
w：模型参数（权重）
ε：随机误差项

矩阵表示

对于包含n个样本、p个特征的数据集，可以表示为：
Y = Xw + ε
其中：

Y ∈ ℝⁿ：目标向量
X ∈ ℝⁿˣᵖ：设计矩阵
w ∈ ℝᵖ：参数向量

1.3 参数估计：最小二乘法

最小二乘法是线性回归最常用的参数估计方法，其核心思想是找到使残差平方和最小的参数值。

优化目标：

解析解：

几何解释：
最小二乘解实际上是在特征空间中找到目标向量Y在设计矩阵X列空间上的正交投影。

1.4 正则化：应对过拟合

当特征维度高或特征间存在多重共线性时，标准最小二乘法可能表现不佳。正则化通过引入惩罚项来解决这些问题。

常见正则化方法：

岭回归（L2正则化）：
- 目标函数：min ||Y - Xw||² + λ||w||²
- 特点：收缩系数但不产生稀疏解
Lasso回归（L1正则化）：
- 目标函数：min ||Y - Xw||² + λ||w||₁
- 特点：可产生稀疏解，实现特征选择
Elastic Net：
- 结合L1和L2正则化
- 适用于特征维度很高且特征间相关性强的场景

1.5 线性回归的局限与扩展

局限性：

假设线性关系，无法捕捉非线性模式
对异常值敏感
当特征维度大于样本量时，标准方法失效

扩展方法：

多项式回归：通过引入特征的高次项
局部加权回归：赋予不同样本不同权重
广义线性模型：扩展至非正态分布响应变量

二、感知机：线性分类的基础

2.1 感知机的起源与意义

感知机由Frank Rosenblatt于1957年提出，是最早的人工神经网络模型之一。它模拟了生物神经元的工作方式，为现代深度学习奠定了基础。

核心思想：
通过线性超平面将特征空间划分为两个区域，分别对应不同的类别。

2.2 感知机模型

模型定义

对于输入特征x，感知机模型为：
f(x) = sign(wᵀx + b)
其中：

w：权重向量
b：偏置项
sign：符号函数，输出+1或-1

几何解释

感知机在特征空间中构造一个分离超平面wᵀx + b = 0，将不同类别的样本分开。

2.3 学习算法

感知机使用基于误分类的损失函数，并通过梯度下降法进行优化。

损失函数

误分类点到超平面的总距离：
L(w,b) = -Σ yᵢ(wᵀxᵢ + b)

原始形式算法

初始化参数w,b
选取误分类点(xᵢ,yᵢ)
更新参数：
w ← w + ηyᵢxᵢ
b ← b + ηyᵢ
重复直到没有误分类点

其中η为学习率，控制参数更新步长。

对偶形式

将对偶形式表示为：
f(x) = sign(Σ αᵢyᵢxᵢᵀx + b)
通过计算Gram矩阵(xᵢᵀxⱼ)可以加速运算。

2.4 感知机的局限与扩展

局限性：

仅适用于线性可分数据
对初始值和样本顺序敏感
无法直接处理多分类问题

扩展方法：

多层感知机：通过堆叠多个感知机实现非线性分类
支持向量机：最大化分类间隔的线性分类器
核方法：通过核函数处理非线性可分数据

2.5 感知机与线性回归的比较

特性	线性回归	感知机
任务类型	回归	分类
输出	连续值	离散类别
损失函数	平方损失	0-1损失近似
优化方法	最小二乘/梯度下降	梯度下降
解的唯一性	通常唯一	可能多个
正则化	常用	较少使用

三、本章总结

线性回归和感知机作为机器学习中最基础的线性模型，具有以下核心特点：

模型简单：线性结构易于理解和实现
计算高效：通常有解析解或简单迭代算法
可解释性强：参数直接反映特征重要性
扩展性强：为更复杂模型奠定基础

在实际应用中需要注意：

线性假设的合理性检验
正则化参数的选择
模型评估与验证方法
对数据质量和特征工程的依赖

理解这些基础模型不仅有助于解决简单问题，更是掌握复杂机器学习方法的重要阶梯。在后续章节中，我们将看到这些线性模型如何演变为更强大的非线性模型。

查看全文

http://www.dtcms.com/a/256301.html

面试题-ts中的typeof

ACL 2025 Findings | 无监督概念发掘，提高文本解释的可理解性

如何排查在docker中运行软件的故障:Docker故障排查可视化指南,三招锁定问题根源

从0到1学Linux：Linux进程

BGP路由反射器(RR)实验详解，结尾有详细脚本

【软考高级系统架构论文】论湖仓一体架构及其应用

ELB的设置

React 重识

Taro 跨端应用性能优化全攻略：从原理到实践

基于强化学习的5G通信网络基站资源动态分配策略matlab性能仿真

【软考高级系统架构论文】论面向服务架构设计及其应用

【科研绘图系列】R语言绘制circos图形（circos plot）

1. 常见K线组合

CertiK联创顾荣辉将于港大活动发表演讲，分享Web3安全与发展新视角

【自动鼠标键盘控制器｜支持图像识别】

通达信飞升搏杀大妖股飞升趋势指标

Electron 开发桌面应用概述

贪心算法思路详解

【设计模式】4.代理模式

鸿蒙NEXT-鸿蒙三层架构搭建，嵌入HMRouter，实现便捷跳转，新手攻略。（1/3）

黑马头条-数据管理平台

在Linux中，Iptables能做什么？

神经网络中的交叉熵（Cross-Entropy）损失函数详解

Spring MVC异常处理机制

借助ChatGPT快速开发图片转PDF的Python工具

ubuntu24.4 + ros2 jazzy 安装gazebo

算法-Day04

Selenium学习

2016. 增量元素之间的最大差值

力扣刷题（第六十四天）