17、逻辑回归与分类评估 - 从连续到离散的智能判断
学习目标:理解分类问题的本质和评估方法,掌握逻辑回归的数学原理和概率解释,学会二分类和多分类问题的处理方法,熟练使用分类评估指标,理解过拟合和正则化的基本概念。
> 从第16章到第17章:从预测数值到判断类别
在第16章中,我们学习了线性回归,解决的是预测连续数值的问题——比如根据房屋特征预测房价。但在现实世界中,我们经常面临的是另一类问题:分类判断。比如:
- 这封邮件是垃圾邮件还是正常邮件?
- 这张图片里是猫还是狗?
- 这个肿瘤是良性还是恶性?
- 这个用户会不会点击这个广告?
这些问题的共同特点是:我们需要模型给出明确的类别判断,而不是一个连续的数值。这就是分类问题的核心:将输入数据映射到离散的类别标签上。
想象你是一位医生,需要根据患者的各项检查指标来判断疾病类型。你的大脑实际上在进行一个复杂的分类过程:收集症状特征,结合经验知识,最终给出一个明确的诊断结果。逻辑回归就是让机器学会这种"智能判断"的基础算法。
为什么不能直接用线性回归来做分类?如果用线性回归预测"是否为垃圾邮件",模型可能输出2.3或-0.8这样的连续值,但我们需要的是"是"或"否"这样的明确答案。逻辑回归通过一个巧妙的数学变换,将线性回归的连续输出转换为概率值,再进一步转换为分类决策。