当前位置：首页 > news >正文

机器学习之数据预处理（一）

news 2025/8/19 9:26:54

一、数据预处理

1、数据清洗

（1）处理缺失值

（2）处理异常值

2、特征转换

（1）特征标准化 / 归一化

（2）处理类别特征

3、特征选择与降维

1. 特征选择

2. 降维（高维数据）

4、数据划分

二、真实案例中的数据清洗

项目背景

环境准备

1. 导入必要库

2. 加载原始数据并筛选

3. 缺失值统计

4. 分离特征与标签

5. 标签编码（文本转数值）

6. 特征数值化（处理非数值特征）

7. 特征标准化（消除量级差异）

8. 划分训练集与测试集

9. 缺失值填充（随机森林法）

10. 类别不平衡处理（SMOTE 过采样）

11. 数据集拼接与打乱

12. 保存预处理后的数据

数据预处理是机器学习流程中至关重要的一步，直接影响模型性能。其核心目标是：将原始数据转换为适合模型输入的格式，包括处理缺失值、异常值、标准化特征、编码类别变量等。以下是常见的数据预处理步骤及实现方法：

一、数据预处理

1、数据清洗

（1）处理缺失值

原始数据中常存在缺失值（NaN/None），需根据特征类型处理：

数值型特征：填充均值、中位数、众数或用模型预测缺失值。
类别型特征：填充众数或新增 “未知” 类别。

（2）处理异常值

异常值会干扰模型学习，可通过标准差法或四分位法（IQR） 检测并处理

2、特征转换

（1）特征标准化 / 归一化

标准化（Standardization）：将特征转换为均值为 0、标准差为 1 的分布（适用于正态分布特征）。
公式：x' = (x - μ) / σ
归一化（Normalization）：将特征缩放到[0,1]区间（适用于均匀分布特征）。
公式：x' = (x - min) / (max - min)

（2）处理类别特征

类别特征（如性别、城市）需转换为数值型

标签编码（Label Encoding）：适用于有序类别（如 “低 / 中 / 高”），转换为0,1,2...。
独热编码（One-Hot Encoding）：适用于无序类别（如 “北京 / 上海 / 广州”），转换为哑变量。

3、特征选择与降维

1. 特征选择

移除冗余或无关特征，减少噪声：

方差选择：移除方差过小的特征（几乎无变化）。
相关性分析：移除高相关性特征（如皮尔逊系数 > 0.8）。

2. 降维（高维数据）

当特征维度极高（如文本、图像），可通过 PCA 降低维度

4、数据划分

将数据集分为训练集（模型训练）和测试集（性能评估）

二、真实案例中的数据清洗

矿物类型分类数据预处理全流程（含缺失值填充与类别平衡）：在机器学习项目中，数据预处理的质量直接决定模型性能。本文以矿物类型分类任务为例，详细讲解从原始数据到建模输入的完整预处理流程，包括标签编码、特征转换、标准化、缺失值填充、类别平衡等关键步骤，并提供可复用的代码实现。

项目背景

本案例针对矿物类型分类任务，原始数据包含多个特征（如化学成分、物理属性等）和矿物类型标签。数据存在以下问题：

特征可能包含非数值类型
存在缺失值
类别分布可能不平衡（部分矿物样本少）
特征量级差异大

预处理目标：将原始数据转换为适合模型训练的格式，提升后续分类模型的精度和稳定性。

原始数据集如下：

此时图中有一些无用的字符，还有一些空值，接下来要对这组数据进行数据预处理