当前位置：首页 > news >正文

机器学习算法-逻辑回归

news 2025/8/23 23:46:58

今天我们用 「预测考试是否及格」 的例子来讲解逻辑回归，从原理到实现一步步拆解，保证零基础也能懂！

🎯 例子背景

假设你是班主任，要根据学生的「学习时间」预测「是否及格」，手上有以下数据：

学习时间(h)	是否及格（1=是，0=否）
1	0
2	0
3	1
4	1
5	1

新问题：学习3.5小时的学生，及格概率有多大？

🌟 逻辑回归核心思想

不是直接预测类别，而是计算属于某类的概率
比如：P(及格|学习3.5h) = 70% → 若阈值设50%，则判定为及格

🔑 关键特点

输出范围在0~1之间（概率）
用S型函数（Sigmoid） 将线性结果转为概率

📈 原理分步拆解

1. 先做线性回归

临时计算 z = a×学习时间 + b
（比如初始假设：z = 0.6×时间 - 1.5）

2. 通过Sigmoid函数转概率

公式：
P(及格) = 1 / (1 + e^(-z))

当z=0时，P=0.5
z越大，P越接近1；z越小，P越接近0

3. 计算示例

对于学习3.5小时：
z = 0.6×3.5 - 1.5 = 0.6
P = 1 / (1 + e^(-0.6)) ≈ 0.65
→ 及格概率65%

🛠️ Python代码实现

1. 基础版（手写核心逻辑）

import numpy as np# Sigmoid函数
def sigmoid(z):return 1 / (1 + np.exp(-z))# 假设参数
a = 0.6  # 斜率
b = -1.5 # 截距# 预测函数
def predict(hours):z = a * hours + breturn sigmoid(z)print("学习3.5小时及格概率:", predict(3.5))  # 输出: 0.65

2. 实战版（用scikit-learn）

from sklearn.linear_model import LogisticRegression
import numpy as np# 准备数据
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)  # 学习时间
y = np.array([0, 0, 1, 1, 1])                 # 是否及格# 训练模型
model = LogisticRegression()
model.fit(X, y)# 预测新数据
new_hour = np.array([[3.5]])
prob = model.predict_proba(new_hour)[0][1]  # 获取概率
print(f"及格概率: {prob:.2%}")              # 输出: 64.94%# 查看参数
print(f"方程: z = {model.coef_[0][0]:.2f}×时间 + {model.intercept_[0]:.2f}")

📊 决策边界可视化

import matplotlib.pyplot as plt# 绘制数据点
plt.scatter(X, y, color=['red' if i==0 else 'blue' for i in y], label='真实数据')# 生成概率曲线
X_test = np.linspace(0, 6, 100).reshape(-1,1)
prob_curve = model.predict_proba(X_test)[:,1]
plt.plot(X_test, prob_curve, 'g-', label='概率曲线')# 标记决策边界（P=0.5对应的X值）
decision_boundary = -model.intercept_ / model.coef_[0]
plt.axvline(x=decision_boundary, linestyle='--', color='black', label='决策边界')plt.xlabel('学习时间(h)')
plt.ylabel('概率')
plt.legend()
plt.show()

决策边界约在2.5小时（P=0.5的位置）*