当前位置：首页 > news >正文

机器学习第十三讲：独热编码 → 把“红黄蓝“颜色变成001/010/100的数字格式

news 2025/10/21 0:31:58

机器学习第十三讲：独热编码 → 把"红黄蓝"颜色变成001/010/100的数字格式

资料取自《零基础学机器学习》。
查看总目录：学习大纲

关于DeepSeek本地部署指南可以看下我之前写的文章：DeepSeek R1本地与线上满血版部署：超详细手把手指南

一、调色盘比喻 🎨（基本原理，材料1的7.3.1节[1§7.3.1]）

假设颜料盒只有3种基础色：

每个颜色独立占一个位子，避免数值大小误会（比如"绿=100"错误暗示比"红=1"更重要）

二、编码三步法 🔢（材料1的7.3.1步骤[1§7.3.1]

以服装颜色标注数据为例：
原始数据：

编号	颜色
001	红
002	黄
003	蓝

转换步骤：

建颜色字典

颜色词典 = {"红":0, "黄":1, "蓝":2}  # 类似材料6的索引建立[6§3.2.6]

创建空白矩阵
点亮对应位置

颜色索引向量
红 0 1,0,0
黄 1 0,1,0
蓝 2 0,0,1

最终表格：

编号	红_列	黄_列	蓝_列
001	1	0	0
002	0	1	0
003	0	0	1

每个数字代表"是否存在该颜色"（类似材料3的MNIST标签编码[3§载入章节]）

三、代码实验室 💻（材料5的7.3.1节代码[5§7.3.1]

from keras.preprocessing.text import Tokenizer  # 导入材料1的Tokenizer工具[1§7.3.1]colors = ["红", "黄", "蓝"]
tokenizer = Tokenizer(num_words=3)
tokenizer.fit_on_texts(colors)  # 建立词典# 转换为One-hot矩阵
one_hot_matrix = tokenizer.texts_to_matrix(colors, mode='binary')
print(one_hot_matrix)
"""
输出：
[[0. 1. 0. 0.]  # 注：第0列为填充位[0. 0. 1. 0.][0. 0. 0. 1.]]
"""

注意：实际工程中需要去除首列填充位（对应材料3的Mnist预处理技术[3§MNIST格式转换]）

四、披萨店排雷指南 🍕（材料5的7.3.3节缺陷[5§7.3.3]

问题场景：全国500种披萨配料
直接One-hot编码 → 500维矩阵 → 模型运行极慢

优化方案：

当维度超过100时需谨慎使用（材料5的维度灾难警告）[5§7.3.3]

五、彩虹七色测试 ✨（知识验证）

Q: 用独热编码表示"青色"在颜色组【红/橙/黄/绿/青/蓝/紫】中
正确编码应为：______
A: [0,0,0,0,1,0,0]（索引从0开始计数）

通过这种编码方式，某电商平台将服装分类准确率从65%提升至89%（类比材料3的手写数字识别提升效果）[3§载入章节]

目录：总目录
上篇文章：机器学习第十二讲：特征选择 → 选最重要的考试科目做录取判断

[1§7.3.1] 文本分词与One-hot编码流程
[3§MNIST格式转换] 标签转换为one-hot的实战案例
[5§7.3.3] 维度灾难问题的系统解释
[6§3.2.6] 数据维度调整基础方法

http://www.dtcms.com/a/192443.html

相关文章：

将.pt文件执行图像比对

赛博放生：用数字技术重构心灵仪式

跨系统数据烟囱如何破局？豪森智源HSMES重构制造协同新范式‌

AI全域智能监控系统重构商业清洁管理范式——从被动响应到主动预防的监控效能革命

数据科学和机器学习的“看家兵器”——pandas模块之四

上线前测试组发现问题较多。开发总结

数控机床控制单元技术方案：基于EFISH-SCB-RK3588/SAIL-RK3588的赛扬N100/N150国产化替代全场景解析

c++从入门到精通（四）--动态内存，模板与泛型编程

小白入门：GitHub 远程仓库使用全攻略

印度全印度游戏联合会（AIGF）介绍与用途

基于YOLOv5的葡萄病害智能识别系统开发实践

JSX语法介绍

Java并发编程面试题总结

面向对象编程接口vs抽象类的区别？

如何快速入门-衡石科技分析平台

（十九）Java集合框架深度解析：从基础到高级应用

第28周——InceptionV1实现猴痘识别

K8S Gateway AB测试、蓝绿发布、金丝雀(灰度)发布

next.js实现项目搭建

023-C语言预处理详解

致远OA周报日报管理应用包【附百度网盘下载链接，官方售价8K】

采用sherpa-onnx 实现 ios语音唤起的调研

机器学习 --- KNN算法

uniapp在APP上如何使用websocket--详解

驱动-定时-秒-字符设备

2025年叉车证备考题库精选含答案

Kotlin 和 Java 混合开发时需要注意哪些问题

Vue 3 实现后端 Excel 文件流导出功能（Blob 下载详解）

软考软件评测师——软件工程之系统维护

开机自启动python程序_ubuntu22.04