当前位置：首页 > news >正文

逻辑回归中的成本损失函数全解析：从数学推导到实际应用

news 2025/9/25 14:28:38

逻辑回归中的成本损失函数全解析：从原理到应用

在机器学习的世界里，逻辑回归（Logistic Regression）是一个绕不过去的经典模型。虽然名字里带着“回归”，但它的主要用途是分类，尤其是二分类问题。逻辑回归的核心在于 损失函数 ——它决定了模型是如何学习参数、如何衡量预测的好坏。

本文将带你全面解析逻辑回归的 成本损失函数（Cost Function），结合数学推导、直观解释和实际案例，帮助你真正理解为什么逻辑回归要用 对数损失（Log Loss / 交叉熵损失），而不是平方误差（MSE），以及它在工程实践中的意义。

一、为什么逻辑回归不能用平方误差？

在学习线性回归时，我们通常使用平方误差（MSE）作为损失函数：

$J(w,b)=12m∑i=1m(y(i)−y^(i))2 J(w,b) = \frac{1}{2m} \sum_{i=1}^m (y^{(i)} - \hat{y}^{(i)})^2$

这个函数优美又简洁，但到了逻辑回归中，却不再适用，主要有两个原因：

1. 非凸性问题

逻辑回归的预测函数是 Sigmoid：

$\frac{1}{1+e^{-(wx+b)}}$

如果把 Sigmoid 代入平方误差，损失函数会变成一个 非凸函数，意味着存在多个局部最小值。这样一来，梯度下降就可能陷入局部最优，而不能保证收敛到全局最优解。

类比一下，就好像你要从山顶往下走，理想情况下山谷只有一个最低点（凸函数），你怎么走都能到达。但如果山谷起伏不平（非凸函数），你可能会卡在一个小土坑里出不来。

2. 惩罚机制不合理

平方误差对于“高置信度的错误预测”不够敏感。比如：

实际标签是 0
模型预测概率是 0.99

这是个非常糟糕的预测，但平方误差给的惩罚只是 $0.99)^2 \approx 0.98$ ，不足以让模型强烈调整。

而 对数损失 在这种情况下会给出接近无穷大的惩罚，逼迫模型重新学习。

二、对数损失函数（Log Loss）的定义与解释

逻辑回归真正采用的是 对数损失（Log Loss），又叫 交叉熵损失（Cross Entropy Loss）。

1. 数学定义

单样本的损失函数：

$\mathcal{L}(f(x), y) = -\Big[ y\log(f(x)) + (1-y)\log(1-f(x)) \Big]$

训练集的平均成本函数：

$-\frac{1}{m} \sum_{i=1}^m \left[ y^{(i)}\log(f(x^{(i)})) + (1-y^{(i)})\log(1-f(x^{(i)})) \right]$

2. 直观解释

当 $y = 1$ ：
- 如果预测 $\to 1$ ，损失 $−log⁡(1)=0-\log(1)=0$ （完美）
- 如果预测 $\to 0$ ，损失 $−log⁡(0)→+∞-\log(0)\to+\infty$ （严重惩罚）
当 $y = 0$ ：
- 如果预测 $\to 0$ ，损失为 0（完美）
- 如果预测 $\to 1$ ，损失趋向无穷大（严重惩罚）

换句话说，对数损失在奖励“高置信度的正确预测”的同时，也会严厉惩罚“高置信度的错误预测”。

三、凸性与优化的优势

对数损失函数是一个 凸函数。这意味着：

它只有一个全局最小值
梯度下降总能朝着正确的方向收敛
训练过程稳定可靠

这正是逻辑回归能在工程实践中广泛应用的重要原因。

四、对数损失与最大似然估计的关系

逻辑回归的损失函数并不是凭空设计的，而是有坚实的统计学基础。

1. 似然函数

对于训练集，模型的似然函数为：

$\mathcal{L}(w,b) = \prod_{i=1}^m f(x^{(i)})^{y^{(i)}} (1-f(x^{(i)}))^{1-y^{(i)}}$

2. 对数似然

取对数后得到：

$\log \mathcal{L}(w,b) = \sum_{i=1}^m \Big[ y^{(i)} \log(f(x^{(i)})) + (1-y^{(i)})\log(1-f(x^{(i)})) \Big]$

最大化似然函数（MLE）等价于最小化负对数似然，这正是我们的对数损失。

也就是说，逻辑回归其实是在用最大似然估计来寻找参数。

五、实现时的注意事项

在代码实现逻辑回归时，有两个常见的坑：

1. 数值稳定性

由于 $log⁡(0)\log(0)$ 会导致数值溢出，需要对 Sigmoid 输出进行裁剪：

import numpy as npdef compute_cost(X, y, w, b):z = X @ w + bf_x = 1 / (1 + np.exp(-z))f_x = np.clip(f_x, 1e-15, 1-1e-15)  # 防止log(0)cost = -np.mean(y*np.log(f_x) + (1-y)*np.log(1-f_x))return cost