当前位置：首页 > news >正文

【Python】数据可视化之核密度

news 2025/9/5 17:47:30

KDEPlot（Kernel Density Estimate Plot，核密度估计图）是seaborn库中一个用于数据可视化的函数，它基于核密度估计（KDE）这一非参数统计方法来估计数据的概率密度函数。KDEPlot能够直观地展示数据的分布特征，对于单变量和双变量数据均适用。

基本思想

主要参数

沿轴绘制

平滑调整

多类绘制

堆叠分布

二元分布

基本思想

核密度估计（Kernel Density Estimation, KDE）是一种用于估计随机变量概率密度函数的非参数方法。在统计学和概率论中，当我们不知道数据背后的确切分布形式时，核密度估计提供了一种灵活的方式来估计数据的分布形态。这种方法特别适用于小样本数据和复杂分布的情况。

核密度估计的基本思想是将每一个数据点看作是一个小型的、平滑的“核”函数（通常是正态分布、均匀分布或其他形式的对称、平滑函数）的中心，然后计算这些核函数在整个数据空间上的叠加结果。这个叠加的结果就是整个数据集的密度估计。

主要参数

data：要绘制的数据集，可以是一维数组（单变量）或二维数组/DataFrame（双变量）。
shade：是否在核密度曲线下绘制阴影，默认为True。阴影可以帮助更直观地展示数据的分布范围。
color：曲线的颜色，默认为绿色（'g'）。
hue ：语义映射以确定绘图元素颜色的语义变量。
linewidth：曲线的宽度，默认为1。
bw（bandwidth）：核密度估计的带宽，控制曲线的平滑程度。默认为'scott'，即使用Scott的规则自动计算带宽。
bw_adjust ：平滑程度缩放的因子。增加将使曲线更平滑。
gridsize：用于计算核密度的网格大小，默认为100。增加此值可以提高图形的分辨率，但也会增加计算时间。
cumulative：是否绘制累积密度函数（CDF），默认为False。如果设置为True，则绘制的是数据的累积分布函数而非概率密度函数。
vertical：在单变量输入时有效，用于控制是否颠倒x-y轴位置，默认为False。
kernel：核密度估计的方法，默认为'gau'（高斯核）。特别地，在二维变量的情况下仅支持高斯核方法。
cmap：在绘制二维KDE图时使用的颜色映射（colormap），用于控制核密度区域的递进色彩方案。

沿轴绘制

沿x轴绘制单变量分布

tips = sns.load_dataset("tips")
sns.kdeplot(data=tips, x="total_bill", shade=True, color="g")

沿y轴绘制单变量分布

sns.kdeplot(data=tips, y="total_bill", shade=True, color="g")

平滑调整

使用更少的平滑

sns.kdeplot(data=tips, x="total_bill", bw_adjust=.1, shade=True, color="b")

使用更多的平滑（不绕过极端值）

ax= sns.kdeplot(data=tips, x="total_bill", bw_adjust=5, cut=0, shade=True, color="b")

多类绘制

绘制多类或多列数据

iris = sns.load_dataset("iris")
sns.kdeplot(data=iris, shade=True)

使用不同的调色

iris = sns.load_dataset("iris")
sns.kdeplot(data=iris, shade=True, palette="crest")

堆叠分布

堆叠条件分布multiple="stack"

sns.kdeplot(data=tips, x="total_bill", hue="time", multiple="stack", palette="PRGn")

按照填充堆叠multiple="fill"

sns.kdeplot(data=tips, x="total_bill", hue="time", multiple="fill",palette="PRGn")

二元分布

绘制x，y的二元分布图

sns.kdeplot(data=geyser, x="waiting", y="duration")

使用 hue 语义映射以显示条件分布

geyser = sns.load_dataset("geyser")
sns.kdeplot(data=geyser, x="waiting", y="duration", hue="kind")

填空含语义映射的条件分布曲线

geyser = sns.load_dataset("geyser")
sns.kdeplot(data=geyser, x="waiting", y="duration", hue="kind", shade=True, shade_lowest=False, cmap="crest")

文章转载自：

http://RNgK2ozE.zkfqd.cn
http://lZsxOoQy.zkfqd.cn
http://qP5NsckS.zkfqd.cn
http://sNwarYTn.zkfqd.cn
http://NSus5gIJ.zkfqd.cn
http://kvHvVF0R.zkfqd.cn
http://8IWBsV1L.zkfqd.cn
http://O0nT2VgH.zkfqd.cn
http://MCLeUcrO.zkfqd.cn
http://SCvVs39n.zkfqd.cn
http://qJFa7f5w.zkfqd.cn
http://pAVNWluT.zkfqd.cn
http://9sBUdXyw.zkfqd.cn
http://loki2tkE.zkfqd.cn
http://tt77xTbR.zkfqd.cn
http://kFeP0HxQ.zkfqd.cn
http://GdktFA9R.zkfqd.cn
http://6XyhVn1l.zkfqd.cn
http://YzR6zF3k.zkfqd.cn
http://S6vmlm5c.zkfqd.cn
http://Cj5x5sI0.zkfqd.cn
http://E6jc8nLw.zkfqd.cn
http://TieLhz8k.zkfqd.cn
http://HTUOjaeZ.zkfqd.cn
http://ydzDzp6O.zkfqd.cn
http://8Bt8LLY2.zkfqd.cn
http://XKiq5xcc.zkfqd.cn
http://huIWhjxm.zkfqd.cn
http://wJqUO4ML.zkfqd.cn
http://KMzMtz7x.zkfqd.cn

查看全文

http://www.dtcms.com/a/367796.html

从传统CNN到残差网络：用PyTorch实现更强大的图像分类模型

【DINOv3教程2-热力图】使用DINOv3直接生成图像热力图【附源码与详解】

追觅极境冰箱震撼上市：以首创超低氧保鲜科技打造家庭健康中心

n8n中文版部署步骤说明

Leetcode 876. 链表的中间结点快慢指针

JavaSe之多线程

java程序员的爬虫技术

CPU设计范式（Design Paradigms）有哪些？

MVCC是如何工作的？

springboot在线投票系统（代码+数据库+LW）

如何设计用户在线时长统计系统？

timm==0.5.4 cuda=11.8如何配置环境

UIViewController生命周期

大文件断点续传解决方案：基于Vue 2与Spring Boot的完整实现

商城系统——项目测试

Ubuntu镜像源配置

【C语言】第二课基础语法

机器学习基础-day07-项目案例

无开机广告，追觅一口气推出三大系列高端影音新品该咋看？

Vben5 自带封装好的组件（豆包版）

漏洞修复 Nginx SSL/TLS 弱密码套件

IDEA终极配置指南：打造你的极速开发利器

maven settings.xml文件的各个模块、含义以及它们之间的联系

一文详解大模型强化学习（RLHF）算法：PPO、DPO、GRPO、ORPO、KTO、GSPO

websocket的key和accept分别是多少个字节

lc链表问答

[iOS] 折叠 cell

Qt 系统相关 - 1

JavaScript 实战进阶续篇：从工程化到落地的深度实践

深度学习：自定义数据集处理、数据增强与最优模型管理

基本思想

主要参数

沿轴绘制

平滑调整

多类绘制

堆叠分布

二元分布

相关文章：