当前位置：首页 > news >正文

机器学习中的编码问题和标准化：类别编码、one-hot编码缺陷及改进

news 2025/9/18 6:17:52

文章目录

- - 一、核心解决方案：从“稀疏编码”到“稠密嵌入”
  - - 1. 频率编码（Frequency/Count Encoding）
  - 2. 目标编码（Target Encoding/Mean Encoding）
  - 3. 嵌入编码（Embedding Encoding）
  - 4. 分组编码（Grouping Encoding）
  - 5. 哈希编码（Hashing Trick）
  - 二、方案选择决策树
  - 三、实战建议
  - 一、适用场景：必须满足“类别有明确顺序”
  - 二、使用方法（scikit-learn 示例）
  - 三、关键注意事项
  - 四、与 LabelEncoder 的区别
  - 五、总结
  - 一、标准化 vs 归一化：核心区别
  - 二、关键场景：何时用标准化？何时用归一化？
  - - 1. 优先用标准化的场景
    - 2. 优先用归一化的场景
  - 三、核心原则：训练集和测试集的缩放逻辑
  - - 错误做法：先合并训练集和测试集，再缩放
    - 正确流程（以标准化为例）：
    - 代码示例（scikit-learn）：
  - 四、总结：一句话决策指南

当类别变量的枚举值过多（通常称为“高基数类别特征”，如用户ID、商品SKU、地址等）时，One-Hot编码会产生大量稀疏特征，导致维度灾难（特征空间爆炸）、计算成本飙升和模型过拟合风险增加。针对这一问题，业界有成熟的替代方案，核心思路是“用低维稠密向量替代高维稀疏向量”，同时保留类别间的语义或统计关联。以下是具体解决方案及适用场景：

一、核心解决方案：从“稀疏编码”到“稠密嵌入”

1. 频率编码（Frequency/Count Encoding）

原理：用每个类别在数据集中的“出现频率”或“计数”替代类别本身。例如，“北京”在数据中出现1000次，编码值为1000；“上海”出现800次，编码值为800。
变种：

频率编码：count / 总样本数（归一化，更适合数值敏感的模型）；
对数计数编码：log(count + 1)（缓解极端值影响）。

优点：

实现简单，无额外计算成本，不增加特征维度；
适用于任何模型（树模型、

文章转载自：

http://PU2IgQ1I.drspc.cn
http://JUwEmLzi.drspc.cn
http://h5tvojam.drspc.cn
http://CVS00PCD.drspc.cn
http://CN8LyUSj.drspc.cn
http://wKV6gQGS.drspc.cn
http://pTn2qMOr.drspc.cn
http://1Oi1I3sv.drspc.cn
http://kscTgjak.drspc.cn
http://O5d8fsSv.drspc.cn
http://XHGXcHyR.drspc.cn
http://dW5IeXT1.drspc.cn
http://ByZNUzeG.drspc.cn
http://aFggJekA.drspc.cn
http://QFcLfOWo.drspc.cn
http://5DNr3Lqg.drspc.cn
http://rxRrWjJM.drspc.cn
http://KW1V7weE.drspc.cn
http://IEmYeWOV.drspc.cn
http://lY5f0V94.drspc.cn
http://FdMYoZgx.drspc.cn
http://2BeaVQTw.drspc.cn
http://mf5EJpRL.drspc.cn
http://qQhkj8Hy.drspc.cn
http://wlTTic2N.drspc.cn
http://mPkwRJRo.drspc.cn
http://XFiStwRN.drspc.cn
http://gRUFo7Bn.drspc.cn
http://b60wbkSz.drspc.cn
http://KtNEAv7Z.drspc.cn

http://www.dtcms.com/a/387500.html

相关文章：

Qt QHorizontalStackedBarSeries详解

Python爬虫实战：研究Pandas，构建全运会数据采集和分析系统

告别冗余 DOM：Vue Fragment 用法与性能优化解析

快速排序：原理、实现与优化

JavaScript性能优化实战：深入剖析性能瓶颈与最佳实践

Lattice ECP5系列FPGA介绍

PySpark 窗口函数row_number、lag、lead的使用简述

华为FreeBuds 7i不同设备要如何连接？

使用LVS架设服务器集群系统实现负载均衡与高可用的知识点详解

84-dify案例分享-使用Qwen-Image实现文生图、图生图

留个档，Unity，Animation控制相机，出现抖动的问题记录

CentOS 8.5部署Zabbix6.0 server端

CentOS系统下安装Docker记录

CentOS 7 如何安装 EPEL 源？epel-release-latest-7.noarch.rpm 安装教程（附安装保存）

CentOS 7 源码版 PhpMyAdmin 安装指南（适配 Nginx+PHP-FPM 环境）

在 WSL Ubuntu 上使用 Docker 搭建可被 Ansible 控制的受控节点环境

数据赋能，安全护航——D-QS工程造价数字化平台的数据治理与行业应用

Matplotlib 可视化：从基础绘图到高级定制

知识管理与高效学习技术

【AI总结】万字长文预警！Spring Boot 4 全景深度解析：从虚拟线程到声明式 HTTP 客户端，再到云原生最佳实践

小杰机器学习（eight）——tensorflow进行线性回归——算法实现、数据加载、模型定义、模型保存与加载、查看网络结构。

什么是网络安全态势感知

O3.6opencv风格迁移和人脸识别

uniapp h5本地域名调试解决跨域

IvorySQL 与 deepin 完成兼容性认证，共创开源生态新篇章

vue和springboot和ngnix跨域问题

云边云科技4G路由器：连锁门店智慧联网的可靠基石

Ubuntu修改环境变量

3D影像地形图的制作：利用ArcGISPro

ZEMAX光学设计流程：从基础到复杂系统实战