当前位置: 首页 > news >正文

连续随机变量无法用点概率描述出现了概率密度函数(Probability Density Function, PDF)

连续随机变量无法用点概率描述出现了概率密度函数(Probability Density Function, PDF)

flyfish

连续随机变量无法用点概率描述,然后用函数 + 面积的方式解决出现了概率密度函数(Probability Density Function, PDF)

离散变量与连续变量

两种变量取值方式的天壤之别

想象变量就像测量世界的不同“尺子”,它们决定了概率如何分配。

离散变量(如抛硬币的正面次数):取值是可数的、孤立的点,就像散落在地上的珠子——可能的值是0、1、2……没有像0.5次或1.3次这样的中间过渡。每个点独立存在,之间有明确的间隔。因此,我们可以直接说“正好1次的概率是1/2”,因为这些点是“真实可区分的实体”,概率像份额一样分配到每个点上,总和正好为1。

连续变量(如身高):取值则是一条无限连续的河流,可以无限细分下去。在150-190cm的范围内,有无数可能:170cm、170.001cm、170.00001cm……没有绝对的间隔,一切融为一体。数学上,“正好170cm”就是一个“没有宽度的精确点”,而非有范围的区间。这导致概率计算必须依赖“积累”,单个点在无限空间里微不足道。

直观把握“无宽度点概率为零”的道理

连续变量的无限可分性如何抹杀单点的概率份额,同时对比离散变量的可数性。

  1. 线段上的点 vs. 线段的长度:把总概率1想象成一条1米长的线段,代表所有可能取值。连续变量的每个值(如170cm)就是一个“点”——理想中零宽度(长度=0)。无论你选多少点,总长度仍是0。只有一段“有宽度的区间”(如165-175cm,宽度10cm)才有实际长度,对应非零概率。比如,“正好170cm”像零宽点的占比,自然为0;但165-175cm区间在正态分布下可能占68%。对比离散:线段上只有有限孤立点(如0、1、2),每个点直接有份额。

    要深挖这个类比,看对应关系:

    概率概念线段类比核心含义
    总概率1米线段所有可能总和=1
    单点(如170cm)一个点长度=0,概率=0
    区间(如169.5-170.5cm)一段小线段长度>0,概率>0
    概率长度占比单点无占比,区间有

    为什么点长度=0?数学点是零维的——画笔点有大小是人为的,理想点无。身高中,无限精确的170.000…cm就是这种点,无宽度、无占比。

  2. 无限选项 vs. 有限选项:身高150-190cm有无限值(无限细分)。问“正好170cm”的概率,如从无限彩票抽一张——1/无限=0。离散对比:10种可能,概率1/10;有限让每个点有份,无限则抹平单点。

概率从“点质量”到“曲线面积”的转变

离散变量用概率质量函数(PMF)直接给点赋值,如 P(X=1)=12P(X=1)=\frac{1}{2}P(X=1)=21,总求和=1。

连续变量则用概率密度函数(PDF)——一条曲线表示密度,但概率是曲线下面积(积分):
单点(如 X=170 cmX=170\,\text{cm}X=170cm):积分区间为 [170,170][170,170][170,170],宽度=0,面积=f(170)×0=0f(170) \times 0=0f(170)×0=0
区间(如 165≤X≤175165 \leq X \leq 175165X175):∫165175f(x) dx>0\int_{165}^{175} f(x) \, dx > 0165175f(x)dx>0(正态分布下约为 0.68270.68270.6827)。

公式:
单点概率:P(X=a)=∫aaf(x) dx=0P(X=a) = \int_{a}^{a} f(x) \, dx = 0P(X=a)=aaf(x)dx=0
区间概率:P(b≤X≤c)=∫bcf(x) dx>0(c>b)P(b \leq X \leq c) = \int_{b}^{c} f(x) \, dx > 0 \quad (c > b)P(bXc)=bcf(x)dx>0(c>b)。这源于连续的无限性:概率需通过宽度积累定义。离散无此需,因为点自成单位。

概率为零不等于不可能,以及现实中的近似(澄清误区)

“单点概率=0”常被误以为“不可能”,但在连续变量中,它只是说无限精确点在无限空间的占比无限小——不绝对排除,只是无限接近不可能。离散点>0则直接可能。

现实澄清:日常身高170cm不是数学单点,而是近似区间,概率>0。
170cm通常指169.5-170.5cm,1cm精度,四舍五入。
170.0cm,0.1cm精度。

为什么区间不同?精度越高越窄,但都>0:

表述精度区间属性
170cm1cm169.5-170.5cm区间约数
170.0cm0.1cm169.95-170.05cm更精确区间
170.00cm0.01cm169.995-170.005cm更精细区间
170.000…cm无限单点现实不存在

工具总有最小刻度,测量有误差;身高物理上动态波动(一天0.5-1cm变,纳米级原子运动),连续性让它永非固定精确值(如需头顶到脚底正好170标准厘米,但细胞代谢干扰)。日常表述是实用简化:买衣用“170cm”忽略微差,体检“170.0cm”仍是仪器近似。无限精确单点现实中不存在,总落在区间。

在这里插入图片描述

概率密度函数(Probability Density Function, PDF)

连续随机变量无法用点概率描述,然后用函数 + 面积的方式解决出现了概率密度函数(Probability Density Function, PDF)

直观理解概率密度函数(PDF),抓住“密度”二字——它和我们生活中“水的密度”“空气的密度”本质逻辑相通,只是描述的对象从“物质质量”变成了“概率可能性”。

用“不均匀的金属棒”理解:PDF = 「概率的密度」

想象一根不均匀的金属棒(比如一端粗、一端细,或材质密度有差异),它的总质量是1kg(对应“总概率=1”)。

生活中的“金属棒”概率中的“PDF”直观理解
金属棒的“长度”连续随机变量X的“取值范围”比如成年男性身高X的范围是150cm~220cm,对应金属棒的全长。
某点的“质量密度”(g/cm)某点的“概率密度”f(x)比如金属棒上某位置1cm长的小段质量是3g,密度就是3g/cm;
身高170cm处的f(x)=0.03,意思是“每1cm身高区间内的概率密度是0.03”。
某段金属的“总质量”X落在某区间的“概率”金属棒上10cm长的一段,总质量=平均密度×10cm;
身高165-175cm的概率=该区间的PDF曲线下面积(≈0.68)。
1:PDF的“高低”≠ 概率,而是“可能性的密集程度”

金属棒上密度高的地方,意味着“同样1cm的长度,质量更重”;
PDF曲线上位置高的地方,意味着“同样宽度的区间,概率更大”(可能性更密集)。

比如:
身高170cm处的PDF值很高(曲线峰值),说明“在170cm附近,每1cm身高区间内的人特别多”(可能性密集);
身高210cm处的PDF值接近0,说明“在210cm附近,每1cm身高区间内的人几乎没有”(可能性稀疏)。

2:“密度×区间宽度”≈ 概率(面积)

单独说“金属棒某点的密度是3g/cm”,没法直接知道该点的质量(因为“一个点没有长度”,质量=密度×0=0);
同理,单独说“身高170cm处的PDF是0.03”,也没法直接知道“身高正好170cm”的概率——因为“一个点没有区间宽度”,概率=密度×0=0。

只有当我们划定一个区间(比如169.5-170.5cm),才能用“密度×区间宽度”(近似)计算概率:
若170cm附近的PDF约为0.03,区间宽度1cm,则该区间的概率≈0.03×1=0.03(3%);
若区间是165-175cm(宽度10cm),则概率就是这10cm区间内PDF曲线下的总面积(≈68%)。

成年男性身高的概率密度函数(PDF)图说明

  1. 曲线越高,“人越集中”
    170cm附近曲线最高,说明“在这个身高附近,密集分布了最多的人”(可能性最高);两端曲线很低,说明“极高或极矮的人很少”(可能性极低)。

  2. “曲线下的面积”= 人数占比(概率)
    若问“身高在165-175cm之间的人占比多少?”,就是算这两个身高之间PDF曲线下的面积(约68%);
    若问“身高正好170.0001cm的人占比多少?”,就是算一个“宽度为0”的点的面积——结果为0(因为不可能有两个人身高完全一模一样,精确到无限小数)。

  3. 总面积=1(100%)
    整个PDF曲线下的面积加起来,就是“所有身高的人占比总和”,必然等于100%(对应概率的基本规则:所有可能结果的总概率=1)。

PDF到底是什么?

PDF就像一张**“可能性的密集程度地图”
它的
高度告诉我们:“在某个数值附近,随机变量取值的‘密集程度’如何”(越高越密集,可能性越集中);
它的
曲线下面积才告诉我们:“随机变量落在某个区间内的实际概率是多少”;
不是概率本身**,就像“水的密度(1g/cm³)”不是“一杯水的质量”——质量需要用“密度×体积”计算,概率需要用“密度×区间宽度”(即面积)计算。
概率质量函数(PMF)与概率密度函数(PDF)的对比

对比维度概率质量函数(PMF)概率密度函数(PDF)
适用对象仅适用于离散随机变量(取值为可数的孤立点,如次数、个数等,例如“抛硬币的正面次数”“骰子点数”)。仅适用于连续随机变量(取值为无限可分的区间,如身高、时间、温度等,例如“成年男性身高”“灯泡寿命”)。
定义描述离散随机变量取某个具体值的概率,即 p(x)=P(X=x)p(x) = P(X = x)p(x)=P(X=x)描述连续随机变量在某一区间内取值的“概率密度”,需通过积分计算区间概率,即 P(a≤X≤b)=∫abf(x)dxP(a \leq X \leq b) = \int_{a}^{b} f(x)dxP(aXb)=abf(x)dx
函数值含义函数值 p(x)p(x)p(x) 直接等于概率(0≤p(x)≤10 \leq p(x) \leq 10p(x)1),例如 p(1)=0.5p(1) = 0.5p(1)=0.5 表示“X=1的概率是50%”。函数值 f(x)f(x)f(x) 是“概率密度”(单位:概率/单位区间),不等于概率,例如 f(170)=0.03f(170) = 0.03f(170)=0.03 表示“170cm附近每1cm区间的概率密度是0.03”。
函数值范围取值在 [0,1][0, 1][0,1] 之间(因直接是概率,不能超过1,也不能为负)。取值在 [0,+∞)[0, +\infty)[0,+) 之间(非负,但可大于1,例如均匀分布 U[0,0.5]U[0, 0.5]U[0,0.5] 的PDF为 f(x)=2f(x)=2f(x)=2)。
单点概率单点概率有意义,即 P(X=x)=p(x)>0P(X = x) = p(x) > 0P(X=x)=p(x)>0(只要x是随机变量的可能取值)。单点概率无意义,恒为0,即 P(X=x)=∫xxf(t)dt=0P(X = x) = \int_{x}^{x} f(t)dt = 0P(X=x)=xxf(t)dt=0(因单点区间宽度为0)。
区间概率计算区间概率是该区间内所有单点概率的求和,例如 P(1≤X≤3)=p(1)+p(2)+p(3)P(1 \leq X \leq 3) = p(1) + p(2) + p(3)P(1X3)=p(1)+p(2)+p(3)区间概率是该区间内PDF曲线下的面积(积分),例如 P(165≤X≤175)=∫165175f(x)dxP(165 \leq X \leq 175) = \int_{165}^{175} f(x)dxP(165X175)=165175f(x)dx
归一性条件所有可能取值的概率之和为1:∑x∈Sp(x)=1\sum_{x \in S} p(x) = 1xSp(x)=1SSS 是随机变量的所有可能取值集合)。整个定义域上的积分等于1:∫−∞+∞f(x)dx=1\int_{-\infty}^{+\infty} f(x)dx = 1+f(x)dx=1(总概率为1)。
非负性条件p(x)≥0p(x) \geq 0p(x)0 对所有 xxx 成立(概率不能为负)。f(x)≥0f(x) \geq 0f(x)0 对所有 xxx 成立(密度不能为负,否则积分可能为负)。
表示形式常用表格、柱状图表示(因取值可数,每个点对应一个概率值)。常用连续曲线表示(因取值无限,曲线高度反映密度高低)。
图形特征柱状图中,柱子的高度=该点的概率(直接体现概率大小)。连续曲线中,曲线的高度≠概率,但“区间内的曲线下面积=该区间的概率”(面积体现概率大小)。
常见实例- 抛硬币正面次数(二项分布PMF);
- 骰子点数(均匀分布PMF);
- 某路口日交通事故数(泊松分布PMF)。
- 成年男性身高(正态分布PDF);
- 灯泡寿命(指数分布PDF);
- 随机时间点(均匀分布PDF)。
类比类似“离散的质量点”:将1kg面粉分成若干份,每份的质量就是对应点的“概率”(总质量=1)。类似“连续的物体密度”:1kg铁块的密度分布,某点的密度≠质量,但“某区间的体积×密度=该区间的质量”(总质量=1)。
# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm  # 用于正态分布的PDF和CDF计算# 设置中文字体(确保中文标签正常显示)
plt.rcParams["font.family"] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False  # 解决负号显示问题# --------------------------
# 1. 定义正态分布参数(以成年男性身高为例)
# --------------------------
mu = 170  # 分布均值(平均身高170cm)
sigma = 5  # 分布标准差(身高波动5cm)
# 生成身高取值范围(155-185cm,1000个点确保曲线平滑)
x = np.linspace(155, 185, 1000)
# 计算每个x对应的PDF值(概率密度)
pdf = norm.pdf(x, loc=mu, scale=sigma)# --------------------------
# 2. 计算关键区间的概率(用于标注)
# --------------------------
# ±1σ区间(165-175cm)的概率
prob_1sigma = norm.cdf(mu + sigma, mu, sigma) - norm.cdf(mu - sigma, mu, sigma)
# ±2σ区间(160-180cm)的概率
prob_2sigma = norm.cdf(mu + 2*sigma, mu, sigma) - norm.cdf(mu - 2*sigma, mu, sigma)# --------------------------
# 3. 创建PDF可视化图形
# --------------------------
plt.figure(figsize=(10, 6))# 绘制PDF曲线(蓝色实线,加粗)
plt.plot(x, pdf, color="#2E86AB", linewidth=2.5, label=f'正态分布 PDF\nμ={mu}cm, σ={sigma}cm')# 填充±1σ区间(浅蓝色阴影,标注概率)
x_1sigma = np.linspace(mu - sigma, mu + sigma, 500)
pdf_1sigma = norm.pdf(x_1sigma, mu, sigma)
plt.fill_between(x_1sigma, 0, pdf_1sigma, color="#A23B72", alpha=0.3,label=f'±1σ 区间 [165,175]cm\n概率: {prob_1sigma:.2%}')# 填充±2σ区间(浅红色阴影,标注概率)
x_2sigma = np.linspace(mu - 2*sigma, mu + 2*sigma, 500)
pdf_2sigma = norm.pdf(x_2sigma, mu, sigma)
plt.fill_between(x_2sigma, 0, pdf_2sigma, color="#F18F01", alpha=0.2,label=f'±2σ 区间 [160,180]cm\n概率: {prob_2sigma:.2%}')# 绘制均值线(红色虚线)
plt.axvline(x=mu, color="#C73E1D", linestyle="--", linewidth=2, label=f'均值 μ={mu}cm')# --------------------------
# 4. 图形样式设置
# --------------------------
plt.title('成年男性身高的概率密度函数(PDF)', fontsize=15)
plt.xlabel('身高(cm)', fontsize=12)
plt.ylabel('概率密度 f(x)(单位:概率/cm)', fontsize=12)
plt.xlim(155, 185)  # 限制x轴范围,聚焦核心区间
plt.ylim(0, max(pdf) * 1.15)  # 预留顶部空间用于标注
plt.grid(axis='y', alpha=0.3, linestyle='-')  # 添加y轴网格线
plt.legend(loc='upper right', fontsize=10)  # 图例位置调整# 在PDF峰值处标注密度值
peak_density = max(pdf)
plt.text(mu, peak_density + 0.002, f'峰值密度: {peak_density:.4f}',ha='center', fontsize=11, color="#2E86AB")# 调整布局,避免标签重叠
plt.tight_layout()# 显示图形
plt.show()

在这里插入图片描述

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm# 设置中文字体
plt.rcParams["font.family"] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False# 创建21行的子图
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))# 左图:PMF(抛两次公平硬币的正面次数)
pmf_x = [0, 1, 2]
pmf_y = [0.25, 0.5, 0.25]
ax1.bar(pmf_x, pmf_y, color="#4ECDC4", edgecolor="black", width=0.6)
ax1.set_title('概率质量函数(PMF)\n抛两次公平硬币的正面次数', fontsize=12)
ax1.set_xlabel('正面次数 X')
ax1.set_ylabel('概率 P(X=x)')
ax1.set_xticks(pmf_x)
ax1.grid(axis='y', alpha=0.3)# 右图:PDF(标准正态分布)
pdf_x = np.linspace(-3, 3, 500)
pdf_y = norm.pdf(pdf_x, 0, 1)
ax2.plot(pdf_x, pdf_y, color="#FF6B6B", linewidth=2)
ax2.fill_between(pdf_x, 0, pdf_y, alpha=0.3, color="#FF6B6B")
ax2.set_title('概率密度函数(PDF)\n标准正态分布 N(0,1)', fontsize=12)
ax2.set_xlabel('随机变量 X')
ax2.set_ylabel('概率密度 f(x)')
ax2.grid(axis='y', alpha=0.3)plt.tight_layout()
plt.show()

文章转载自:

http://FO4jXCiJ.mtsgx.cn
http://tGf3wCQS.mtsgx.cn
http://oCJq2mZo.mtsgx.cn
http://55R2NX0C.mtsgx.cn
http://CoxwybyH.mtsgx.cn
http://LdR9uoRQ.mtsgx.cn
http://eR86clpe.mtsgx.cn
http://4ummEOsX.mtsgx.cn
http://RWkAQvyk.mtsgx.cn
http://WAW086gQ.mtsgx.cn
http://oDFDLtbI.mtsgx.cn
http://qLVsMpIV.mtsgx.cn
http://AU4ZzwNm.mtsgx.cn
http://rEQylDV8.mtsgx.cn
http://a7QBNdo3.mtsgx.cn
http://Z97ImwP7.mtsgx.cn
http://S2gK83NN.mtsgx.cn
http://gnbTyxan.mtsgx.cn
http://ZVq2oClg.mtsgx.cn
http://sti54A9f.mtsgx.cn
http://CNdiqWFe.mtsgx.cn
http://PbjPAZrZ.mtsgx.cn
http://fzNt2f4W.mtsgx.cn
http://LFaZX81m.mtsgx.cn
http://PriQ67dt.mtsgx.cn
http://vIkfeQcg.mtsgx.cn
http://KwuuWJUO.mtsgx.cn
http://HtuxrXl8.mtsgx.cn
http://wPwu7LFm.mtsgx.cn
http://eZqkomnw.mtsgx.cn
http://www.dtcms.com/a/381642.html

相关文章:

  • Go语言实战案例 — 工具开发篇:Go 实现条形码识别器
  • 洛谷-P1923 【深基9.例4】求第 k 小的数-普及-
  • DeerFlow实践:华为ITR流程的评审智能体设计
  • K均值聚类(K-Means)算法介绍及示例
  • 【企业架构】TOGAF-4A架构概览
  • 华为防火墙三层部署模式
  • Linux Kernel Core API:printk
  • 空间信息与数字技术专业主要学什么技能?
  • 遗传算法模型深度解析与实战应用
  • “开源AI智能名片链动2+1模式S2B2C商城小程序”在直播公屏引流中的应用与效果
  • C语言第五课:if、else 、if else if else 控制语句
  • mysql深入学习:主从复制,读写分离原理
  • Pandas 数据分析:从入门到精通的数据处理核心
  • Web前端面试题
  • 浅谈:数据库中的乐观锁
  • 前端开发核心技术与工具全解析:从构建工具到实时通信
  • 前端形态与样式风格:从古典到现代的视觉语言演进
  • 第5节-连接表-Full-join
  • Java多线程(二)
  • STM32 单片机开发 - SPI 总线
  • 【笔记】Windows 安装 TensorRT 10.13.3.9(适配 CUDA 13.0,附跨版本 CUDA 调用维护方案)
  • 基于PHP的鲜花网站设计与实现
  • 如果系统里没有cmake怎么办? 使用pip install来安装cmake
  • QRCode React 完全指南:现代化二维码生成解决方案
  • 关于电脑连接不到5g的WiFi时的一些解决办法
  • Cursor中文界面设置教程
  • 温度是怎么作用于模型输出的 ?
  • 一个迁移案例:从传统 IDC 到 AWS 的真实对比
  • DeerFlow实践:华为LTC流程的评审智能体设计
  • Linux内核调优实战指南