当前位置：首页 > news >正文

线性回归8.21

news 2025/8/23 9:58:07

线性回归与逻辑回归的区别
- 线性回归只能用于回归任务，逻辑回归只能用于分类任务，尽管名称中均包含“回归”一词。
- 逻辑回归输出分类结果（如0或1），而线性回归输出连续值。
线性回归的核心概念
- 通过特征的线性组合预测目标值，目标是找到最佳拟合直线（或超平面）。
- 拟合标准：最小化所有样本点到直线的距离之和（欧式距离）。
- 距离的定义：垂直特征轴的距离（预测值与真实值的差值），而非点到直线的几何距离。
模型形式与参数
- 公式：f(x) = w_1x_1 + w_2x_2 + \cdots + w_dx_d + b，其中：
  - w 为权重（斜率），反映特征对结果的影响程度（正负表示正/负相关）。
  - b 为偏置（截距），控制直线平移。
- 矩阵表示：f(x) = W^T X + b，适用于任意维度的特征。
评估指标
- 误差平方和（SSE）：预测值与真实值差值的平方和，反映总误差。
- 均方误差（MSE）：SSE除以样本数，消除样本量影响，更公平比较模型性能。
- R²（决定系数）：越接近1表示模型拟合效果越好。
最小二乘法与模型训练
- 目标：最小化均方误差，找到最优 W 和 b。
- 方法：对损失函数（残差平方和）求偏导，令导数为零，求解极值点。
- 离群点影响：异常值会显著增大误差，需通过数据预处理剔除。
多元线性回归
- 扩展至多特征：f(x) = w_0 + w_1x_1 + \cdots + w_dx_d（w_0 为偏置）。
- 高维超平面：特征数为 d 时，需 (d-1) 维超平面划分。
应用与注意事项
- 预测：通过训练后的模型，输入新特征值可预测目标值。
- 局限性：现实问题中单一特征（一维）的回归效果通常较差，需多特征联合建模。
- 数据质量：预处理（如异常值处理）对模型性能至关重要。
线性回归模型讲解
- 模型特征：多个特征（X₁到Xₙ）对应权重（w₁到wₙ），偏置项（w₀）。
- 计算方式：每个样本的预测值（Y）由特征与对应权重相乘后求和得到（如Y₁=第一行特征×第一列权重）。
算法实现与参数说明
- 导入包：linear_model（线性回归算法），random（生成随机矩阵）。
- 关键参数：
  - fit_intercept：布尔值，决定是否包含偏置项（截距），影响模型是否强制通过原点。
  - normalize：布尔值，控制数据是否归一化，以消除极端值对权重（W）和偏置（B）的干扰。
截距与斜率解释
- 截距：模型与Y轴交点的纵坐标（正/负值），反映偏置项（B）的作用。
- 斜率：权重（W）在图像中的表现，正斜率表示特征与标签正相关，负斜率表示负相关。
归一化作用
- 目的：通过标准化/归一化处理极端值，避免其对模型训练产生过大影响，确保权重和偏置达到最优。