当前位置：首页 > news >正文

机器学习算法：逻辑回归

news 2025/9/17 2:38:29

1. 基础概念

定义：

逻辑回归（Logistic Regression）是一种用于解决二分类问题的监督学习算法，通过概率预测样本属于某一类别的可能性。

核心特点：输出是概率值（0~1），通过阈值（如0.5）转换为类别标签。
注意：名字虽含“回归”，但实际是分类算法！

数学形式：

使用 Sigmoid函数将线性回归结果映射到概率： P(y=1) = 1 / (1 + e^(-z))，其中 z = w₁x₁ + w₂x₂ + ... + b
Sigmoid函数：将任意实数压缩到(0,1)，如图： https://www.saedsayad.com/images/Logistic_curves.png

2. 核心原理

损失函数：交叉熵损失（Log Loss）

衡量预测概率与真实标签的差异： Loss = - [y_true * log(y_pred) + (1 - y_true) * log(1 - y_pred)] 目标是最小化总损失。

优化方法：

梯度下降（与线性回归类似，但需计算对数概率的梯度）。
牛顿法、拟牛顿法（如L-BFGS）。

评估指标：

准确率（Accuracy）：正确分类的比例。
精确率（Precision）：预测为正的样本中真实正类的比例。
召回率（Recall）：真实正类中被正确预测的比例。
ROC-AUC：综合衡量分类性能的曲线下面积。

3. 实际生产中的例子

案例1：广告点击率预测（CTR预估）

场景：互联网广告平台预测用户是否会点击广告。
输入特征：用户历史行为、广告内容、上下文信息（如时间、设备）。
输出：点击概率（0~1）。
应用：根据概率对广告排序，优先展示高点击率广告。

案例2：金融风控（贷款违约预测）

场景：银行判断客户是否有违约风险。
输入特征：收入、信用评分、负债比、历史还款记录。
输出：违约概率。
应用：若概率>阈值（如0.7），则拒绝贷款申请。

案例3：医疗诊断（疾病预测）

场景：根据患者检查结果预测是否患病。
输入特征：年龄、血压、血糖、胆固醇指标。
输出：患病概率。
应用：辅助医生快速筛查高风险患者。

案例4：垃圾邮件分类

场景：自动过滤垃圾邮件。
输入特征：邮件文本的词频、发件人信誉、链接数量。
输出：垃圾邮件概率。
应用：若概率>0.5，标记为垃圾邮件。

4. 生产中的改进方法

处理类别不平衡

加权损失函数：对少数类样本赋予更高权重。
过采样（如SMOTE）：生成少数类样本。
阈值调整：根据业务需求调整分类阈值（如医疗场景需高召回率）。

正则化（防止过拟合）

L1正则化（Lasso）：稀疏化权重，自动特征选择。
L2正则化（Ridge）：限制权重幅度，提升泛化能力。

特征工程

分箱（Binning）：将连续特征（如年龄）分段为类别。
交叉特征：组合多个特征（如“收入*负债比”）。
文本特征：TF-IDF或词嵌入（Embedding）。

5. 与线性回归的区别

维度	线性回归	逻辑回归
任务类型	回归（预测连续值）	分类（预测概率/类别）
输出范围	任意实数	0~1之间的概率
损失函数	均方误差（MSE）	交叉熵损失（Log Loss）
激活函数	无	Sigmoid函数

6. 优缺点

优点

✅ 输出为概率，适合需要概率解释的场景（如风控）。
✅ 可解释性强，权重反映特征对结果的影响方向（正/负）。
✅ 计算高效，适合大规模数据（如互联网广告的实时预测）。

缺点

❌ 假设特征与对数几率（Log Odds）呈线性关系，难以捕捉复杂非线性关系。
❌ 对特征相关性和异常值敏感。
❌ 默认只能处理二分类，多分类需扩展（如One-vs-Rest）。

7. 代码工具示例（Python）

8. 适用场景总结

推荐使用逻辑回归：
- 二分类问题且需要概率输出（如金融风控）。
- 特征与目标的对数几率呈近似线性关系。
- 需要快速部署和模型解释性（如医疗诊断报告）。
避免使用：
- 特征与目标存在复杂非线性关系（需用树模型或神经网络）。
- 数据维度极高且特征稀疏（如文本分类更适合用朴素贝叶斯或深度学习）。

一句话总结

逻辑回归是“用S形曲线做分类”的经典算法，凭借概率输出和可解释性，在金融、医疗、广告等领域广泛应用。

文章转载自：

http://VpXpSwzd.fwgnq.cn
http://xmJHMS39.fwgnq.cn
http://QDQNJNO9.fwgnq.cn
http://jnzQesrC.fwgnq.cn
http://icDeBObk.fwgnq.cn
http://UihJKfZi.fwgnq.cn
http://C0dK0IvV.fwgnq.cn
http://A2A1Jg7C.fwgnq.cn
http://kbbeYMkM.fwgnq.cn
http://ggvA3rzg.fwgnq.cn
http://iZtzvMfx.fwgnq.cn
http://N9RR4qk3.fwgnq.cn
http://ocXNVbXT.fwgnq.cn
http://AKIAqQk1.fwgnq.cn
http://lPSEoMlw.fwgnq.cn
http://7v84GMIY.fwgnq.cn
http://OpeXj3Ly.fwgnq.cn
http://ic2yjx5Y.fwgnq.cn
http://OxtSB3LD.fwgnq.cn
http://mF6wp43a.fwgnq.cn
http://xVeL3kRp.fwgnq.cn
http://e7grJwXU.fwgnq.cn
http://J48c5NWB.fwgnq.cn
http://elKtfTSB.fwgnq.cn
http://csPhMItR.fwgnq.cn
http://U9aAVmB0.fwgnq.cn
http://NvY6ObWW.fwgnq.cn
http://f1QD5DYz.fwgnq.cn
http://gcoeHsL2.fwgnq.cn
http://MCQDf6gK.fwgnq.cn

http://www.dtcms.com/a/226909.html

相关文章：

分布式锁优化：使用Lua脚本保证释放锁的原子性问题

单元测试-断言常见注解

MCP还是A2A？AI未来技术选型深度对比分析报告

解决：install via Git URL失败的问题

电路图识图基础知识-高、低压供配电系统电气系统的继电自动装置（十三）

【华为云Astro Zero】组装设备管理页面开发（图形拖拽 + 脚本绑定）

使用 MCP 将代理连接到 Elasticsearch 并对索引进行查询

Kotlin 扩展函数详解

【iOS（swift）笔记-14】App版本不升级时本地数据库sqlite更新逻辑二

【数据分析】第四章 pandas简介（1）

基于STM32的循迹避障小车的Proteus仿真设计

《棒球万事通》棒球特长生升学方向·棒球1号位

探秘集成学习：从基础概念到实战应用

神经网络与深度学习（第一章）

树莓派4B串口通讯

【JAVA后端入门基础001】Tomcat 是什么？通俗易懂讲清楚！

ISBN书号查询接口如何用PHP实现调用？

使用new操作符动态分配

【Spring】RAG 知识库基础

Python库CloudScraper详细使用（绕过 Cloudflare 的反机器人页面的 Python 模块）

CSS之动画（奔跑的熊、两面反转盒子、3D导航栏、旋转木马）

Java Script函数

知识图谱系列（5）：表示学习

前端八股之Vue

29 C 语言内存管理与多文件编程详解：栈区、全局静态区、static 与 extern 深度解析

工作流引擎-18-开源审批流项目之 plumdo-work 工作流，表单，报表结合的多模块系统

并查集(上)

Android高级开发第四篇 - JNI性能优化技巧和高级调试方法

深入了解linux系统—— 进程间通信之管道

云部署实战：基于AWS EC2/Aliyun ECS与GitHub Actions的CI/CD全流程指南