当前位置: 首页 > news >正文

机器学习基本篇

1 基本概念

机器学习,分为 回归,分类,聚类,降维
有监督学习 回归,分类, 有特征,有标签,进行训练,然后对新数据进行预测
无监督学习 聚类,降维。

题目越多,训练越好,

2 基本流程

数据预处理—— 模型训练与评估
可以优化为 获取数据——数据预处理——EDA 分析——特征工程——模型训练——可解释性分析

2.0 数据获取

利用 kaggle, 天池 等平台的 开源 数据,

2.1 预处理

目的:

  1. 让数据更符合逻辑
  2. 让数据更容易计算
    借助函数实现变换 or 运算
认识数据

常用 pandas 包,是 python 中一个强大的数据分析和处理库。
其可以

  1. 数据处理,对数据进行 清洗,转换,合并,分组等操作,处理缺失的和重复的数据。
  2. 数据读取和写入, 如 CSV 格式,excel, JSON, SQL 等
  3. 对数据进行时间序列分析,移动窗口统计等操作

** 部分常用 API **
import pandas as pd
读取数据
df = pd.read_csv(‘data.csv’)
查看数据
df.head()
显示数据集形状. (几行几列)
df.shape

查看数据集信息。 (特征的种类和标签)
Data.info
空值的数量
mean 均值
std 标准差
min 最小值
25% 第 25 百分位数
max 最大值
unique 唯一值数量
top 出现频率最高的值
freq 最高频率出现次数

显示数据集的统计特征,
df.decribe()

相关文章:

  • 领域驱动设计叕创新,平安保险申请DDD专利
  • Java并发编程8--线程
  • React + TypeScript+ Vite 配置路径别名和vscode智能路径提示
  • AI时代:前端开发的职业发展路径拓宽
  • vsan数据恢复—vsan缓存盘故障导致虚拟磁盘文件丢失的数据恢复案例
  • 在线考试系统(代码+数据库+LW)
  • ubuntu24基于虚拟机无法从主机拖拽文件夹
  • React通用登录/注销功能实现方案(基于shadcn/ui)
  • Android 虚拟机与ClassLoader类加载笔记
  • 【工具插件类教学】实现运行时2D物体交互的利器Runtime2DTransformInteractor
  • 解压rar格式的软件有哪些?8种方法(Win/Mac/手机/网页端)
  • 新型基于Go语言的恶意软件利用Telegram作为C2通信渠道
  • Postman接口测试的cookie,token,session....鉴权
  • PyCharm 中的 %reset -f 功能:一键重置控制台变量
  • 2024 年 CSDN 博客之星年度评选:技术创作与影响力的碰撞(统计时间2025-02-17 11:06:06)
  • seata集成nacos
  • 基数排序【C语言】
  • 一.数据治理理论架构
  • Copilot Next Edit Suggestions(预览版)
  • 2025年-G4--lc79--Best Time to Buy and Sell Stock(java版)
  • 中国兼职设计师网/惠州seo怎么做
  • html+css代码大全/seo站长助手
  • 网站建设的英语/权重查询站长工具
  • 甘南北京网站建设/sem网络推广是什么
  • 200M电信宽带做网站/百度联盟
  • 一般网站建设需要多少钱/成功的软文营销案例