当前位置: 首页 > news >正文

用大白话解释一下“高基数特征”

想象一下你有一个特征(表格中的一列),用来记录“学生所在的班级”。

  1. 情况一:低基数特征

    • 假设这个学校只有 3个班级:一班、二班、三班。

    • 当你用独热编码处理“班级”这个特征时,你会创建 3个新列是否一班是否二班是否三班

    • 对于每个学生,只在他所在的班级对应的列上标“是”(1),其他标“否”(0)。

    • 结果: 增加了3列,这是可以接受的,管理起来也容易。

  2. 情况二:高基数特征

    • 现在,假设这个特征不是“班级”,而是“学生姓名”。

    • 这个学校有 5000个学生,每个学生都有自己独特的名字(或者说,这个特征有5000个不同的取值)。

    • 如果你用独热编码处理“学生姓名”这个特征,会发生什么?

    • 你会为 每一个学生 创建一个新列!比如:是否张三是否李四是否王五…… 一直到第5000个学生。

    • 最终,你的数据表会 多出5000列

    • 对于每个学生,只有他自己名字对应的那一列是“1”(是),其他4999列全是“0”(否)。

    • 结果:

      • 表格变得巨大无比: 原来可能只有10列数据,现在一下子变成5010列(10列原始数据 + 5000列新编码列)。这就像一个小本子瞬间变成了几百页厚的大部头。

      • 数据极其稀疏: 这5000列新数据里,99.98%的位置都是“0”。想象一张巨大的表格,里面几乎全是空的(0),只有极少数地方是“1”。这非常浪费存储空间和计算资源。

      • 模型训练困难: 机器学习模型看到这么多列(高维度),会非常“晕”,学习效率大大降低,训练速度变得很慢,而且更容易学到一些没有实际意义的噪音(过拟合),导致模型效果变差。就像让你从一本5000页、每页只有一行字不同的书里找规律,太难了。

      • 信息可能不足: 如果每个名字(类别)在数据集中只出现一两次(这在姓名、ID等特征中很常见),模型就无法从这个名字本身学到任何有用的、可推广的模式。它只知道“这个人叫张三”,但不知道叫张三的人有什么共同点。

总结一下,“高基数特征”就是:

  • 指代: 一个分类特征(Categorical Feature)。

  • 核心问题: 这个特征里包含的不同类别(唯一值)的数量非常非常大

  • 多“大”算“高”? 没有绝对标准,但通常认为 几十个、上百个甚至成千上万个 唯一类别,就算是高基数了。常见的例子包括:

    • 姓名、用户ID、产品ID、订单ID、设备ID:每个都是独一无二的。

    • 邮政编码、详细地址、电话号码:种类非常多。

    • 某些自由填写的文本字段(如“职业”、“爱好”),如果没有经过规范化,也可能产生大量独特值。

  • 关键影响: 当你想用 独热编码 (One-Hot Encoding) 来处理这种特征时,会产生爆炸性的维度增长(新列数 = 唯一类别数),导致数据稀疏、计算困难、模型性能下降等问题。

为什么叫“基数”?

  • 在数学集合论中,“基数”(Cardinality) 指的是一个集合中元素的数量

  • 所以,“高基数特征” 就是指这个特征取值的集合中,元素(不同类别)的数量非常巨大

简单记忆:

  • 低基数: 类别少(比如性别:男/女;颜色:红/绿/蓝)。独热编码好用。

  • 高基数: 类别超多(比如姓名、ID、邮编)。独热编码会制造麻烦,需要寻找替代方案(如目标编码、特征哈希、嵌入等)。

相关文章:

  • Oracle数据库对IPv6的支持情况
  • GC1808高性能24位立体声音频ADC芯片解析
  • 深度剖析Diffusion与Transformer在图像生成中的计算逻辑与融合之道
  • 【性能篇I】为应用加速:整合 Redis 实现高速缓存
  • 第2篇:BLE 广播与扫描机制详解
  • 免布线+双向通信——电力载波技术重塑楼宇自控能效管理
  • nnUNet V2修改网络——暴力替换网络为UNet++
  • 代购商城系统怎么选?从业务痛点看系统核心价值
  • plantuml画uml图
  • 新的日期与时间API:告别 `Date` 和 `Calendar`,迎接更现代的日期与时间处理!
  • 【Fifty Project - D35】
  • ABB 605系列
  • 高效总结多篇文献的AI工具推荐:如何用AI批量整理文献综述与笔记?
  • 【AI学习】一、向量表征(Vector Representation)
  • C语言 学习 宏命令(预处理) 2025年6月9日14:41:39
  • 树莓派超全系列教程文档--(60)树莓派摄像头操作命令及使用其二
  • 2.2.3 07年T1文章精读
  • 技术突破与落地应用:端到端 2.0 时代辅助驾驶TOP10 论文深度拆解系列【第二篇(排名不分先后)】
  • Docker安装、基础知识、项目部署笔记
  • AI会取代IT从业者吗?
  • 东莞市永铭装饰有限公司/seo属于什么职业部门
  • 建设一个网站需要哪些费用吗/营销型网站建设运营
  • 公园网站建设方案/深圳货拉拉
  • flash网站制作下载/北京网络营销推广外包
  • 无锡哪里做网站/手机访问另一部手机访问文件
  • 导航网站移动端流量占比/宁波网站关键词优化代码