当前位置: 首页 > news >正文

机器学习中的编码问题和标准化:类别编码、one-hot编码缺陷及改进

文章目录

      • 一、核心解决方案:从“稀疏编码”到“稠密嵌入”
        • 1. 频率编码(Frequency/Count Encoding)
      • 2. 目标编码(Target Encoding/Mean Encoding)
      • 3. 嵌入编码(Embedding Encoding)
      • 4. 分组编码(Grouping Encoding)
      • 5. 哈希编码(Hashing Trick)
      • 二、方案选择决策树
      • 三、实战建议
      • 一、适用场景:必须满足“类别有明确顺序”
      • 二、使用方法(scikit-learn 示例)
      • 三、关键注意事项
      • 四、与 LabelEncoder 的区别
      • 五、总结
      • 一、标准化 vs 归一化:核心区别
      • 二、关键场景:何时用标准化?何时用归一化?
        • 1. 优先用标准化的场景
        • 2. 优先用归一化的场景
      • 三、核心原则:训练集和测试集的缩放逻辑
        • 错误做法:先合并训练集和测试集,再缩放
        • 正确流程(以标准化为例):
        • 代码示例(scikit-learn):
      • 四、总结:一句话决策指南

当类别变量的枚举值过多(通常称为“高基数类别特征”,如用户ID、商品SKU、地址等)时,One-Hot编码会产生大量稀疏特征,导致维度灾难(特征空间爆炸)、计算成本飙升模型过拟合风险增加。针对这一问题,业界有成熟的替代方案,核心思路是“用低维稠密向量替代高维稀疏向量”,同时保留类别间的语义或统计关联。以下是具体解决方案及适用场景:

一、核心解决方案:从“稀疏编码”到“稠密嵌入”

1. 频率编码(Frequency/Count Encoding)

原理:用每个类别在数据集中的“出现频率”或“计数”替代类别本身。例如,“北京”在数据中出现1000次,编码值为1000;“上海”出现800次,编码值为800
变种

  • 频率编码:count / 总样本数(归一化,更适合数值敏感的模型);
  • 对数计数编码:log(count + 1)(缓解极端值影响)。

优点

  • 实现简单,无额外计算成本,不增加特征维度;
  • 适用于任何模型(树模型、

文章转载自:

http://PU2IgQ1I.drspc.cn
http://JUwEmLzi.drspc.cn
http://h5tvojam.drspc.cn
http://CVS00PCD.drspc.cn
http://CN8LyUSj.drspc.cn
http://wKV6gQGS.drspc.cn
http://pTn2qMOr.drspc.cn
http://1Oi1I3sv.drspc.cn
http://kscTgjak.drspc.cn
http://O5d8fsSv.drspc.cn
http://XHGXcHyR.drspc.cn
http://dW5IeXT1.drspc.cn
http://ByZNUzeG.drspc.cn
http://aFggJekA.drspc.cn
http://QFcLfOWo.drspc.cn
http://5DNr3Lqg.drspc.cn
http://rxRrWjJM.drspc.cn
http://KW1V7weE.drspc.cn
http://IEmYeWOV.drspc.cn
http://lY5f0V94.drspc.cn
http://FdMYoZgx.drspc.cn
http://2BeaVQTw.drspc.cn
http://mf5EJpRL.drspc.cn
http://qQhkj8Hy.drspc.cn
http://wlTTic2N.drspc.cn
http://mPkwRJRo.drspc.cn
http://XFiStwRN.drspc.cn
http://gRUFo7Bn.drspc.cn
http://b60wbkSz.drspc.cn
http://KtNEAv7Z.drspc.cn
http://www.dtcms.com/a/387500.html

相关文章:

  • Qt QHorizontalStackedBarSeries详解
  • Python爬虫实战:研究Pandas,构建全运会数据采集和分析系统
  • 告别冗余 DOM:Vue Fragment 用法与性能优化解析
  • 快速排序:原理、实现与优化
  • JavaScript性能优化实战:深入剖析性能瓶颈与最佳实践
  • Lattice ECP5系列FPGA介绍
  • PySpark 窗口函数row_number、lag、lead的使用简述
  • 华为FreeBuds 7i不同设备要如何连接?
  • 使用LVS架设服务器集群系统实现负载均衡与高可用的知识点详解
  • 84-dify案例分享-使用Qwen-Image实现文生图、图生图
  • 留个档,Unity,Animation控制相机,出现抖动的问题记录
  • CentOS 8.5部署Zabbix6.0 server端
  • CentOS系统下安装Docker记录
  • CentOS 7 如何安装 EPEL 源?epel-release-latest-7.noarch.rpm 安装教程(附安装保存)
  • CentOS 7 源码版 PhpMyAdmin 安装指南(适配 Nginx+PHP-FPM 环境)
  • 在 WSL Ubuntu 上使用 Docker 搭建可被 Ansible 控制的受控节点环境
  • 数据赋能,安全护航——D-QS工程造价数字化平台的数据治理与行业应用
  • Matplotlib 可视化:从基础绘图到高级定制
  • 知识管理与高效学习技术
  • 【AI总结】万字长文预警!Spring Boot 4 全景深度解析:从虚拟线程到声明式 HTTP 客户端,再到云原生最佳实践
  • 小杰机器学习(eight)——tensorflow进行线性回归——算法实现、数据加载、模型定义、模型保存与加载、查看网络结构。
  • 什么是网络安全态势感知
  • O3.6opencv风格迁移和人脸识别
  • uniapp h5本地域名调试解决跨域
  • IvorySQL 与 deepin 完成兼容性认证,共创开源生态新篇章
  • vue和springboot和ngnix跨域问题
  • 云边云科技4G路由器:连锁门店智慧联网的可靠基石
  • Ubuntu修改环境变量
  • 3D影像地形图的制作:利用ArcGISPro
  • ZEMAX光学设计流程:从基础到复杂系统实战