当前位置: 首页 > news >正文

机器学习之逻辑回归

一、二分类问题

逻辑回归的前一部分是线性回归:

一切是在思考假设,通过sigmoid函数把z从0到1:

因为阶跃函数不可导:

所以想方法用sigmoid:

 

对于g(z),如果e等于0的时候就是0.5,等于负无穷的时候趋于0,等于正无穷的时候趋于1。

现在做假设,现在认为这个值是一件事发生的概率右边就是一分类,左边就是零分类。

然后开始算损失,这里不用均方差算,使用对数损失,也就是二进制交叉熵损失:

cost损失的值越小,那么预测的类别准确度更高 

线性回归之所以可以用于分类:

 代码部分:

"""
逻辑回归做二分类进行癌症预测(根据细胞的属性特征)
:return: NOne
"""
# 构造列标签名字
column = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape',
          'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli',
          'Mitoses', 'Class']

# 读取数据
# data = pd.read_csv(
#     "https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",
#     names=column)
data = pd.read_csv(
    "./data/breast-cancer-wisconsin.csv",
    names=column)
# print(data) #想看可以解除
#当你读取数据时,看上去是数值的列,读进来是字符串,说明里边
# 存在了非数值情况
print(data.info())
print('-'*50)
data.describe(include='all')
# data删除Bare Nuclei列,因为它是object类型,不能直接作为特征
data2 = data.drop(columns=['Bare Nuclei'])
# 进行数据的分割,第零列是编号,不可以作为特征,把第1-9列作为特征,第10列作为标签
x_train, x_test, y_train, y_test = train_test_split(data[column[1:10]], data[column[10]], test_size=0.25,
                                                    random_state=1)

# 进行标准化处理
std = StandardScaler()

x_train = std.fit_transform(x_train) #训练集标准化
x_test = std.transform(x_test) #测试集标准化
x_train[0]
#
# # 逻辑回归预测
# C正则化力度,跟学习率有关
# solver = 'liblinear'  solver是学习率优化算法,就是学习率会随着epoch的变化而变化
#epoch就代表第几次迭代
#max_iter 最大迭代次数
lg = LogisticRegression(C=0.5, solver='lbfgs')
#
lg.fit(x_train, y_train)
# 逻辑回归的权重参数,了解,没那么重要
print(lg.coef_)

y_predict = lg.predict(x_test)
# print(y_predict) #预测的标签
print("准确率:", lg.score(x_test, y_test))
print(y_test[0:5])
print('-'*50)
print(lg.predict_proba(x_test)[0:5])  #得出对应分类的概率
# 为什么还要看下召回率,labels和target_names对应
# macro avg 平均值  weighted avg 加权平均值
print(classification_report(y_test, y_predict, labels=[2, 4], target_names=["良性", "恶性"]))
#AUC计算要求是二分类,不需要是0和1
print("AUC指标:", roc_auc_score(y_test, y_predict))

二、多分类问题

先把其中两个分类当成一个分类,相当于把原来两个标签值改了,多加一列在原数据里。这样可以训练出第一个逻辑回归模型,然后再训练出第二个逻辑回归模型

http://www.dtcms.com/a/50735.html

相关文章:

  • 用CLI操作MySQL 92数据库的命令
  • 安装mysql
  • 解码未来!安徽艾德未来智能科技有限公司荣获“GAS消费电子科创奖-产品创新奖”!
  • Netty笔记5:Netty开发实例
  • 机器学习校招面经二
  • 【JavaScript—前端快速入门】JavaScript 综合案例 — 猜数字
  • 串口通讯基础
  • 【四.RAG技术与应用】【11.阿里云百炼应用(上):RAG在云端的实践】
  • 认识时钟树
  • Non-Homophilic Graph Pre-Training and Prompt Learning
  • ==和===在不同场景下的具体区别是什么?
  • 数据仓库的特点
  • 计算机毕业设计SpringBoot+Vue.js纺织品企业财务管理系统(源码+文档+PPT+讲解)
  • 运维SaltStack面试题及参考答案
  • STM32F103C8T6 基于 TB6612 驱动 12V 编码电机的教程
  • huggingface NLP主要知识点以及超级详解使用
  • c语言(循环(for,while,do while))
  • 基于RAG的法律条文智能助手
  • AI-前端开发webcrumbs.ai/frontend-ai,Fitten Code提高开发效率
  • 搭建一个简单的node服务,模拟后端接口
  • Netty笔记4:Epoll
  • 如何用脚本启动一个cmd命令行控制台窗口,并且执行命令 ; cmd /k /c /s 笔记250303
  • Spring Boot集成Minio笔记
  • Vue3 Teleport原理与实战指南:突破组件层级限制的传送门
  • 《OpenCV》——dlib(人脸应用实例)
  • Franka机器人FR3快速安装指南
  • shell逐行读取文件 远程操作服务器
  • AI绘画软件Stable Diffusion详解教程(6):文生图、提示词细说与绘图案例
  • 张驰咨询:用六西格玛重构动力电池行业的BOM成本逻辑
  • 国内支持Stable Diffusion模型的平台