当前位置：首页 > news >正文

数据预处理：机器学习的 “数据整容术”

news 2025/8/21 9:55:38

在机器学习的世界里，有句老话：“垃圾进，垃圾出”。无论算法多精妙，若输入的数据杂乱无章，模型终会沦为 “无用功”。而数据预处理，就是给原始数据做 “整容术”—— 清洗杂质、调整形态、凸显特征，让数据以最佳状态迎接模型训练。今天，我们就来拆解这场 “数据蜕变” 的关键步骤。

第一步：揪出 “隐形杀手”—— 缺失值处理

原始数据中，“缺失” 是最常见的 “瑕疵”。它们可能藏在 “n/a”“na” 的伪装下，也可能直接以空值示人。若视而不见，模型会像戴着模糊的眼镜看世界，结论必然失真。

如何识别缺失值？

用 Pandas 的isnull()函数能快速 “扫描” 数据：返回True的单元格，就是需要处理的 “漏网之鱼”。但要注意，很多数据会用自定义符号表示缺失（如 “-”），读取时需用na_values参数提前 “标注”，让它们显形为标准空值NaN。

处理缺失值的三大招式：

删：果断剔除：用dropna()删除含空值的行（默认），适合数据量充足的场景，缺点是可能丢失有效信息。

填：精准填补：用fillna()按需填充 —— 数值型数据可用均值（mean()）、中位数（median()）；类别型数据（如 “Embarked” 港口信息）可用众数；也可直接填入指定常数（如 666）。

智能工具：sklearn 的SimpleImputer是自动化利器，支持一键用均值、中位数、众数或常数填补，无缝衔接机器学习流程。

第二步：让数据 “站成一队”—— 标准化

想象两个特征：一个是 “年龄”（0-100 岁），一个是 “收入”（0-100000 元）。若直接输入模型，收入的巨大数值会 “碾压” 年龄的影响，导致模型 “偏心”。标准化就是给数据 “统一度量衡”。

核心目标：

将数据转换为 “标准形态”，最常见的是标准正态分布（均值 = 0，方差 = 1），让每个特征的影响力 “公平竞争”。

常用工具：

MinMaxScaler：将数据压缩到指定范围（默认 [0,1]），比如可将数据缩放到 [5,10]，适合需要固定范围的场景。

StandardScaler：通过 Z 值转换（减去均值再除以标准差），让数据均值为 0、方差为 1，保留原始分布关系，是最常用的标准化方法。

第三步：给类别数据 “贴标签”—— 特征编码

机器只懂数字，但数据中总有 “性别”“学历” 这类文字信息。特征编码就是给它们 “翻译” 成数字，同时保留原始含义。

三类变量，三种编码：

名义变量（如性别：男 / 女）：用独热编码（OneHotEncoder），将每个类别转为二进制向量（男→[1,0]，女→[0,1]），避免机器误以为 “1>0” 有实际意义。

有序变量（如学历：小学 < 初中 < 高中）：用序号编码（OrdinalEncoder），按顺序赋值（1/2/3），保留大小关系。

目标标签（如 “Survived”：是 / 否）：用LabelEncoder，将目标值转为 0/1，方便模型学习预测规则。

第四步：简化数据 —— 二值化

有时，我们需要 “非黑即白” 的判断：年龄是否超过 30？收入是否达标？二值化就是用一个阈值（如 30）将数据分为 0（不达标）和 1（达标），简化问题复杂度。用Binarizer工具，一行代码就能实现。

结语：预处理，是机器学习的 “地基”

从缺失值处理到特征编码，数据预处理的每一步都在为模型 “扫清障碍”。正如盖房子要先打地基，高质量的预处理能让模型性能 “事半功倍”。掌握这些工具，你手中的数据将不再是杂乱的数字，而是能让模型 “读懂” 的宝藏。

查看全文

http://www.dtcms.com/a/341146.html

nginx-下载功能-状态统计-访问控制

【数据结构】线性表——顺序表

循环神经网络（RNN, Recurrent Neural Network）

Effective C++ 条款52：写了placement new也要写placement delete

使用acme.sh自动申请AC证书，并配置自动续期，而且解决华为云支持问题，永久免费自动续期！

Spring Boot 定时任务与 xxl-job 灵活切换方案

层在init中只为创建线性层，forward的对线性层中间加非线性运算。且分层定义是为了把原本一长个代码的初始化和运算放到一个组合中。

B站韩顺平笔记（Day 24）

C++ std::optional 深度解析与实践指南

当 AI 开始 “理解” 情绪：情感计算如何重塑人机交互的边界

linux报permission denied问题

Advanced Math Math Analysis |01 Limits, Continuous

uniapp打包成h5，本地服务器运行，路径报错问题

PyTorch API 4

使数组k递增的最少操作次数

路由器的NAT类型

确保测试环境一致性与稳定性 5大策略

AI 效应： GPT-6，“用户真正想要的是记忆”

获取本地IP地址、MAC地址写法

SQL 中大于小于号的表示方法总结

Bitcoin有升值潜力吗

《代码沙盒深度实战：iframe安全隔离与实时双向通信的架构设计与落地策略》

在SQL中使用大模型时间预测模型TimesFM

Mybatis执行SQL流程（五）之MapperProxy与MapperMethod

zoho crm api 无法修改富文本字段的原因：api 版本太低

23种设计模式——构建器模式（Builder Pattern）详解

Spring Boot Controller 使用 @RequestBody + @ModelAttribute 接收请求

车联网（V2X）中万物的重新定义---联网汽车新时代

Dubbo 的 Java 项目间调用的完整示例

分析NeRF模型中颜色计算公式中的参数