当前位置: 首页 > news >正文

Types of Attributes|属性类型

-----------------------------------------------------------------------------------------------

这是我在我的网站中截取的文章,有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn,这里还有很多有关计算机的知识,欢迎进行留言或者来我的网站进行留言!!!

----------------------------------------------------------------------------------------------
 

一、引言

在数据挖掘与机器学习中,“属性(Attribute)”是描述数据对象的最小信息单元。无论是构建模型、分析数据分布,还是进行特征工程,所有步骤都离不开对属性类型的理解。一个模型是否能够正确地处理某些特征,很大程度上取决于我们是否正确识别了属性的类型。

在实际的数据集中,属性并不是单一形式出现的,它们可能是表示类别的文本,比如“颜色”;也可能是代表顺序的分级,比如“满意度”;还能是表示有具体差值的数值,例如温度;又或者是具有绝对零点、能进行比值比较的变量,比如年龄、长度或薪资。这些类型的差异,决定了我们如何对这些属性进行数学运算,也决定了它们可以被应用到哪些算法中。

在深入了解四种属性类型之前,我们需要先理解一个关键点:属性类型不仅仅是描述数据的方式,更是决定如何分析数据的依据。某些类型的属性可以比较“大小”,但不能比较“差距”;有些属性只能判断“相不相等”;还有些属性可以进行所有数学运算。正因为这些差异,我们在做数据预处理、模型训练或特征选择时,都必须对属性类型有清晰的判断。

本章作为开篇,将帮助你建立对“属性类型”主题的整体认识。接下来的章节会结合图片,逐一讲解属性的数学性质、四种属性类型的详细定义与示例,以及它们之间的转换关系和实际应用场景。


二、属性的数学性质

在了解不同的属性类型之前,必须先理解属性所具备的数学性质。因为属性类型的分类本质上是基于它们能支持哪些数学操作。不同属性类型可执行的操作不同,这也意味着它们在数据分析和算法中扮演的角色不同。

我们通常从四个角度来判断一个属性具备哪些数学特性:

  1. 区分性(Distinctness):能判断“是否相等”(= 或 ≠)。

  2. 顺序性(Order):能判断“谁大谁小”(< 或 >)。

  3. 差值有意义(Meaningful Differences):可以进行加减运算(+、-)。

  4. 比值有意义(Meaningful Ratios):可以进行乘除运算(×、÷)。

这四类性质构成了属性类型划分的基础。一般来说,属性类型能支持的数学操作越多,它的信息量越丰富,能被使用的算法也越多。


2.1 属性数学性质示意图

814D2F89-0A2E-4718-ABCD-AC00CDB5B1C8.png


2.2 通过数学性质判断属性类型

理解了数学性质后,我们就可以用它们来判断不同类型的属性属于哪一类:

属性类型

具有的数学性质

能进行的操作

名义(Nominal)

区分性

只能判断是否相等

有序(Ordinal)

区分性 + 顺序性

能比较大小,但不能进行加减

区间(Interval)

区分性 + 顺序性 + 差值

能进行加减,但不能做乘除或判断比值

比率(Ratio)

所有四项性质

所有数学运算均可进行

这四种类型的差异非常关键。例如:

  • 你不能对“眼睛颜色”(名义属性)做加减。

  • 你不能说“C 比 B 高出多少分”(因为成绩等级 A/B/C 为有序但间距未知)。

  • 你不能说“10°C 是 5°C 的两倍热”(因为 °C 没有真实零点,是区间属性)。

  • 但你可以说“10 kg 是 5 kg 的两倍重”(因为 kg 是比率属性)。

这些数学差异会直接影响模型的选择。例如 k-means 聚类无法处理名义属性,而决策树可以处理名义属性但不能直接对其做数值距离计算。


2.3 属性类型与数学性质对应表格

75C2C84F-C47D-4259-BAA6-33F32125E623.png


三、四种属性类型详解

在数据集中,不同类型的属性所能承载的信息不同,因此在分析和建模前,理解每种属性的含义、能做的操作以及例子非常重要。本章将依次介绍:

  • 名义属性 Nominal

  • 有序属性 Ordinal

  • 区间属性 Interval

  • 比率属性 Ratio


3.1 名义属性(Nominal Attributes)

名义属性是没有顺序、没有大小关系的分类数据,只能判断“是否相等”。它们的值通常是名称、标签或类别。

常见例子包括:

  • 眼睛颜色(Black / Brown / Blue)

  • 性别(Male / Female)

  • 邮政编码(Zip Code)

  • 学号 / 员工编号(ID Number)

名义属性不能做加减乘除,也不能比较大小,只能做分类与计数。

04BD1609-5EDF-4F54-8DF5-DB6398716EDC.png


3.2 有序属性(Ordinal Attributes)

有序属性的值之间存在顺序关系,但值之间的“距离”不可量化。这意味着你可以比较大小,却无法说“差多少”。

典型例子:

  • 满意度等级(Low < Medium < High)

  • 年级(Freshman → Sophomore → Junior → Senior)

  • 味觉评分(1–10 的排名)

  • 矿物硬度(Soft < Medium < Hard)

例如:
你可以说“High 比 Medium 高”,
但不能说“High 比 Medium 高 2 倍”。

953ACC1C-42EA-4EE5-A5FE-DA96039F17EE.png

7C1617CA-2551-424C-BFCF-2005934D544F.png

图中对象对应不同的 Satisfaction Level,能很好展示“可排序但间隔未知”。


3.3 区间属性(Interval Attributes)

区间属性具有:

  • 区分性

  • 顺序性

  • 差值有意义(可加减)

  • 但 没有真实零点,不能做倍数比较

典型例子:

  • 温度(°C、°F)

  • 日历年份(2000、2020)

  • 时间点(早上 8 点、下午 3 点)

例如:

  • 10°C 与 20°C 的差值是 10°C(合理)

  • 但不能说“20°C 是 10°C 的两倍热”(因为零度不是绝对零点)


33C9FA5F-C2A8-490A-B5A3-7F558DDCC737.png

F53B7126-C376-4ADB-A15E-29844B69B2AA.png


3.4 比率属性(Ratio Attributes)

比率属性是信息量最高的属性类型,它同时满足:

  • 区分性

  • 顺序性

  • 差值有意义

  • 比值有意义(具有真实零点)

例子包括:

  • 金钱($0 表示没有钱)

  • 年龄(0 岁有真实含义)

  • 身高 / 体重

  • 时间长度(0 秒表示没有经过时间)

  • Kelvin 温度(有绝对零点)

比率属性可以进行加、减、乘、除等所有操作。

例如:
20kg 是 10kg 的两倍 —— 合理
10 年经验比 5 年多一倍 —— 合理


053E7CFF-84D3-4AFD-9BB7-B1EB294BB2A6.png


3.5 四类型属性对比总结

D10102A6-EA0D-43D6-8C58-E041A4F60E00.png


75C2C84F-C47D-4259-BAA6-33F32125E623.png

例如:

  • 名义属性:值之间的排列无影响

  • 有序属性:任何保持顺序的函数都可以

  • 区间属性:线性变换有效

  • 比率属性:仅能做比例缩放

-----------------------------------------------------------------------------------------------

这是我在我的网站中截取的文章,有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn,这里还有很多有关计算机的知识,欢迎进行留言或者来我的网站进行留言!!!

----------------------------------------------------------------------------------------------

http://www.dtcms.com/a/606047.html

相关文章:

  • 哈尔滨php网站开发公司深圳做网站 肖先生
  • 户用光伏向阳台转移 阳台光伏开启能源新纪元
  • 11月13日numpy总结——花哨的索引
  • 云望物联无人机图传系统与通信技术的全面解析
  • Google政策大更新:涉及金融(个人贷款),社交约会与游戏(未成年人相关),健康等所有类别App
  • 网站开发建设方案公司介绍网页模板
  • Linux内存管理深度剖析:从处理文件映射页面的缺页异常到页面缓存的完整架构
  • 湖北网站建设哪家有宜昌市住房和城乡建设厅官方网站
  • AK/SK 利用与云平台接管工具
  • ClickHouse CPU 排查快速参考指南
  • ClickHouse CPU 排查详细指南
  • 苍穹外卖 —— Spring Task和WebSocket的运用以及订单统一处理、订单的提醒和催单功能的实现
  • 专门做搞笑视频的网站泉州哪个公司网站做的好
  • 用DeepSeek 编写的BFS python求解程序测试出来的几个难解数独
  • 台州汇客网站建设wordpress 网址导航页面
  • leetcode 3228. 将 1 移动到末尾的最大操作次数 中等
  • 做设计那些网站可以卖设计图包装袋设计网站推荐
  • 做网站语言中国十大门户类网站
  • 广东省省考备考(第一百四十九天11.13)——言语、判断推理(强化训练)
  • 网站专题教程网站编辑做多久可以升职
  • ChatGPT无预告升级:GPT-5.1 来了,自适应推理、语气更自然、可语气设定
  • 网络文件系统(NFS)完全指南:从入门到实战
  • 婚恋APP小程序开发:Uniapp+SpringBoot全栈开发指南
  • Python进度条工具tqdm的安装与使用
  • 个人博客网站模板ui网页设计实习周报
  • 【计算机网络】[特殊字符] 408高频考点 | 数据链路层组帧:从字符计数到违规编码,一文学透四大实现方法
  • 第一次搭建个人主页+GitHub部署全记录:HTML/CSS/JS前端实现+留言板踩坑
  • 中山中小企业网站建设做电商运营需要具备什么能力
  • 音视频课程上传、加密与播放技术详解:知识付费系统源码开发实践
  • 专业做网站的域名官网