20.1 什么是分类数据?
在机器学习中,分类数据是指由类别或标签组成的数据,而非数值型数据。这些类别可以是名义尺度(无内在顺序,如颜色、性别),也可以是顺序尺度(存在自然排序,如教育水平、收入层级)。
分类数据通常用离散值(如整数或字符串)表示,并在作为机器学习模型输入前常被编码为独热向量。独热编码会为每个类别创建一个二进制向量,其中对应类别的位置为1,其余位置为0。
20.2 分类数据处理技术
处理分类数据是机器学习预处理的重要环节,因为许多算法需要数值输入。根据算法和分类数据特性,可采用不同的编码技术,如标签编码、序数编码或二进制编码等。