【大数据技术04】数据可视化
参考资料:朝乐门。数据科学导论 [M]. 北京:人民邮电出版社,2020.

文章目录
- 四.数据可视化
- 1.数据科学与数据可视化
- 2.数据可视化的基本原则
- 3.视觉编码与数据类型
- 3.1 视觉图形元素与视觉通道
- 3.2 数据类型
- 3.3 视觉通道的评价标准
- 精确性
- 可辨认性
- 可分离性
- 视觉突出性
- 4.可视分析学
- 5.常用统计图表
- 5.1 柱形图/条形图
- 5.2 折线图
- 5.3 饼图/环形图
- 5.4 散点图
- 5.5 面积图
- 5.6 雷达图
- 5.7 热力图
四.数据可视化
1.数据科学与数据可视化
数据可视化
数据可视化是信息可视化、科学可视化、可视分析学等可视化理论的统称,其处理对象可以扩展至任何类型的数据
研究发现,视觉感知是人类大脑的最主要功能之一,超过 50%的人脑功能用于视觉信息的处理。同时,眼睛是感知信息能力最强的人体感知器官之一。
因此,数据可视化在数据科学中占有重要地位。
信息可视化:处理 “非结构化 / 抽象信息”,比如用流程图展示公司组织架构、用热力图展示用户浏览网页的点击分布;
科学可视化:聚焦 “科学数据”,比如用 3D 模型展示分子结构、用折线图展示气象数据(温度 / 降水量)的变化;
可视分析学:更侧重 “人机配合分析”,比如用交互图表让分析师自己筛选数据、调整维度,从数据中找规律(比如电商用它分析不同地区的销售趋势)。
2.数据可视化的基本原则
五大原则
- 忠于原始数据
- 尊重目标用户
- 突出重点
- 强调用户体验
- 具有较高的信度和效度
- 忠于原始数据:不 “篡改” 数据,不误导
核心是 “图表要如实反映数据,不能为了好看或迎合结论而扭曲事实”。
2.尊重目标用户:按 “看的人” 的需求设计
核心是 “可视化要适配用户的认知习惯和需求,不能自说自话”。
3.突出重点:让 “关键信息” 一眼被看到
核心是 “不堆砌信息,把最想传递的核心内容放在视觉焦点上”。4.强调用户体验:让用户 “看得舒服、用得顺畅”
核心是 “避免反人类的设计,减少用户的理解成本”。5.具有较高的信度和效度:“靠谱” 且 “有用”
- 信度:图表结果要 “稳定”—— 比如用同一批数据做两次相同的可视化,得到的图表结论(如 “销量 Q2 最高”)要一致,不能这次这样、下次那样;
- 效度:图表要 “能解决问题”—— 比如想分析 “销量与广告投入的关系”,就该用散点图(看关联),而不是用饼图(只能看占比),如果用错图表,就算做得再好看,也达不到分析目的,就是 “效度低”。
3.视觉编码与数据类型
3.1 视觉图形元素与视觉通道
“视觉图形元素”
指几何图形元素,如点、线、面、体等等,主要用来刻画数据的性质,决定数据所属的类型
“视觉通道”
视觉通道指图形元素的视觉属性,如位置、长度、面积、形状、方向、色调、亮度和饱和度等。视觉通道进一步刻画了图形元素,使同一个类型(性质)的不同数据有不同的可视化效果。
没有视觉图形元素,视觉通道就没了 “承载对象”(比如只说 “红色”,不说红色的 “点” 还是 “面”,根本不知道要表达什么);没有视觉通道,视觉图形元素就没了 “区分能力”(比如所有点都是同一个颜色、同一个大小,根本分不清不同数据的差异)。
3.2 数据类型
从人类的视觉感知和认知习惯看,数据类型与视觉通道存在一定的关系。。雅克·伯延(Jacques Bertin)曾提出 7 个视觉通道的组织层次,并给出了可支持的数据类型, 如下表所示。
视觉编码(用 “图形元素 + 视觉通道” 表达数据)要和数据类型 “匹配”—— 不同类型的数据(定类、定序、定量),适合用不同的视觉通道来呈现,这样才能让数据信息传递得更准确、更易懂,具体可拆成 3 类数据类型 + 对应的视觉编码选择:
- 定类数据:“分类别,无顺序”,用 “区分型” 视觉通道
定类数据是 “只有类别差异,没有大小 / 顺序关系” 的数据,比如性别(男 / 女)、品牌(A/B/C)、职业(教师 / 医生)。- 定序数据是 “有明确顺序,但没有精确数值差异” 的数据,比如满意度(高 / 中 / 低)、成绩等级(优 / 良 / 及格)、用户活跃度(高 / 中 / 低)。
- 定量数据是 “有具体数值、能比较大小、可计算差异” 的数据,比如销量(100 件 / 200 件)、身高(170cm/180cm)、收入(5000 元 / 8000 元)。
3.3 视觉通道的评价标准
精确性
精确性指用户对于可视化编码结果的感知效果和原始数据之间的吻合程度。
比如 “位置、长度” 的精确性高,能让用户准确判断数据数值(如柱长对应销量),而 “颜色、体积” 精确性低,难以精准感知差异,是选择 “需传递精确数值” 还是 “仅需区分类别” 通道的依据;
可辨认性
可辨认性指视觉通道的可辨认度的高低。通常,人眼对视觉(如形状、线宽、颜色等)的辨认度有限,当使用过多的相似视觉通道来表现不同信息时,图中采用过多的形状代表不同信息,虽然不同形状确实有差异,但已超出了一般读者的辨认能力,导致其可读性差。
衡量 “用户对视觉通道差异的分辨能力”,比如人眼最多能清晰辨认 10 种左右不同形状,若用 20 种相似形状编码 20 个类别,可辨认性就差,是控制 “视觉通道数量” 的关键标准;
可分离性
可分离性指同一个视觉图形元素的不同视觉通道的表现力之间应具备一定的独立性
例如,在上图,当通道“面积”的取值较小时可能影响另一个通道“纹理”的表现力,也就是说在此图中两种通道的表现力之间并不完全独立。
衡量 “同一图形元素的不同通道是否相互干扰”,比如 “面积小的图形” 搭配 “复杂纹理” 时,纹理会被遮挡,通道间可分离性差,是避免 “多通道叠加导致信息混乱” 的依据
视觉突出性
视觉突出性指视觉编码结果在很短的时间内(如毫秒级时间) 迅速准确表达出可视化编码的主要意图。以上图为例,由于右半部分中的数字“8”采用了背景颜色,区别于其他数字,很容易产生视觉突出现象。
衡量 “视觉通道能否快速传递核心信息”,比如用 “高亮度颜色” 标注关键数据,能让用户毫秒级捕捉重点,是判断 “通道能否高效吸引注意力” 的标准。
4.可视分析学
可视分析学是一门以可视化交互为基础,综合运用图形学、数据挖掘和人机交互等技术等多个学科领域的知识,以实现人机协同完成可视化任务为主要目的的分析推理性学科
可视分析学是一门跨学科性较强的新兴学科,主要涉及的学科领域有科学/信息可视化、数据挖掘、统计分析、分析推理、人机交互和数据管理等
可视分析学可简单理解为 “让人通过‘看得见的交互’,和机器一起高效分析数据、找规律的学科”,核心是 “人机协同”
科学 / 信息可视化 提供 “把数据变图表” 的基础能力(比如用热力图展示用户分布、用网络图展示数据关联) 数据挖掘 帮机器自动挖掘隐藏规律(比如自动识别 “销量与广告投入的关联”,再用图表呈现给人) 统计分析 提供量化分析逻辑(比如用假设检验判断 “销量下降是否显著”,确保分析结论靠谱) 分析推理 引导人按逻辑思考(比如提供 “从整体到局部” 的分析路径,先看总销量,再拆地区、再拆产品) 人机交互 让 “人与机器的沟通” 更顺畅(比如支持拖拽调整图表维度、hover 显示数据详情、点击筛选条件) 数据管理 保障数据能快速调用(比如高效存储、读取海量历史数据,避免交互时卡顿)
5.常用统计图表
统计图表是数据可视化中最为常用的方法之一,主要用于可视化数据的某一(些) 统计特征。
用于显示统计结果的可视化方法有很多,如柱形图、折线图、饼图、条形图、面积图、散点图、雷达图等。
5.1 柱形图/条形图
作用:展示多个分类的数据变化或同类别各变量之间的比较情况。
- 适用场景:定类数据(品牌)与定量数据(销量)的对比,尤其适合 “类别多、需清晰看高低” 的场景。
- 核心作用:通过柱体 “长度” 直观体现数值大小,快速判断 “谁多谁少”。
5.2 折线图
作用:展示数据随时间或有序类别的波动情况的趋势变化。
- 适用场景:时间序列数据(如月度、季度数据),重点体现 “变化方向(上升 / 下降 / 波动)” 和 “变化速度”。
- 核心作用:通过 “线条的走向” 展示趋势,比柱形图更适合连续数据的动态变化。
5.3 饼图/环形图
作用:显 “类别占总体的比例”
- 适用场景:定类数据的 “占比关系”,且类别数量不宜过多(建议≤6 类,否则扇区太小看不清)
- 核心作用:通过 “扇面面积” 体现占比,直观感受 “某类别是否为主体”。
5.4 散点图
作用:用于发现各变量之间的关系。
- 适用场景:分析两个变量(如 “广告投入” 与 “销量”、“身高” 与 “体重”)的相关性,判断是否存在 “正相关(一个增、另一个也增)”“负相关(一个增、另一个减)” 或 “无关联”。
- 核心作用:通过 “点的分布规律” 体现关联,点越集中呈直线趋势,相关性越强。
5.5 面积图
作用:兼 “趋势 + 占比”,强调 “总量中的部分变化”
- 适用场景:在折线图基础上,增加 “线条与坐标轴之间的面积填充”,既体现单个数据的趋势,也能对比 “多类别占总量的变化”。
- 核心作用:比折线图更突出 “数值的累积感”,适合展示 “部分与整体的动态关系”。
5.6 雷达图

作用:将多个分类的数据量映射到坐标轴上,对比某项目不同属性的特点。
- 适用场景:同一对象在多个维度的表现对比,或多个对象在同一维度的差异。
- 核心作用:通过 “多边形的形状” 直观判断 “各维度是否均衡”,多边形越规整,说明各维度表现越均衡。
5.7 热力图
作用: 看 “数据的密度 / 强度分布”
- 适用场景:多维度数据(尤其含空间、时间维度)的 “强度差异”,比如 “地区用户密度”“网页点击分布”“时间段订单量”。
- 核心作用:通过 “颜色深浅” 体现数据强度,深色代表强度高,浅色代表强度低,快速定位 “热点区域”。

