当前位置：首页 > news >正文

【算法】基于中位数和MAD鲁棒平均值计算算法

news 2025/8/29 0:08:12

问题

在项目中，需要对异常值进行剔除，需要一种鲁棒性比较好的方法，总结了一个实践方法。

方法

基于中位数和MAD（中位数绝对偏差）的鲁棒平均值计算算法的详细过程，按照您要求的步骤分解：

算法过程

过程：

1. 先使用中位数作为初始估计
1. 计算MAD作为离散度度量
1. 排除偏离中位数超过3倍MAD的数据点
1. 对剩余数据计算平均值

输入：

数据集 data = [x₁, x₂, ..., xₙ]（可能包含异常值）
异常值阈值 k（默认 k=3）

输出：

鲁棒平均值 robust_mean
被排除的异常值索引列表 outliers

步骤 1：计算中位数（初始估计）

中位数对异常值不敏感，是数据中心的鲁棒估计。

median = np.median(data)  # 中位数

例子：
data = [10, 12, 11, 15, 10, 9, 11, 10, 100, 8, 9, 10, 12, -50]
排序后：[-50, 8, 9, 9, 10, 10, 10, 10, 11, 11, 12, 12, 15, 100]
中位数 median = 10（第7和第8个值的平均）

步骤 2：计算MAD（离散度度量）

MAD（Median Absolute Deviation）是数据与中位数绝对偏差的中位数，对异常值鲁棒。

deviations = np.abs(data - median)  # 各点与中位数的绝对偏差
mad = np.median(deviations)         # MAD
mad = mad * 1.4826                  # 调整因子（使MAD≈标准差）

调整因子解释：

对于正态分布，标准差 σ ≈ 1.4826 × MAD。
调整后，k=3 对应正态分布的3σ准则（覆盖99.7%数据）。

例子：
绝对偏差 deviations = [60, 2, 1, 5, 0, 1, 1, 0, 90, 2, 1, 0, 2, 40]
排序后：[0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 5, 40, 60, 90]
MAD = 1（中位数）
调整后 mad = 1.4826

步骤 3：排除异常值（3×MAD准则）

标记所有满足 |xᵢ - median| > k × mad 的点为异常值。

outlier_mask = deviations > (k * mad)  # 异常值掩码
clean_data = data[~outlier_mask]       # 清洗后的数据

例子（k=3）：
阈值 3 × 1.4826 ≈ 4.45
异常值条件：|xᵢ - 10| > 4.45

100：|100 - 10| = 90 > 4.45 → 异常
-50：|-50 - 10| = 60 > 4.45 → 异常
其他点均保留。

步骤 4：计算剩余数据的平均值

对清洗后的数据求算术平均。

robust_mean = np.mean(clean_data)

例子：
清洗后数据：[10, 12, 11, 15, 10, 9, 11, 10, 8, 9, 10, 12]
鲁棒平均值 robust_mean = 10.5

完整代码实现

import numpy as npdef robust_mean(data, k=3):data = np.asarray(data)median = np.median(data)# 计算MAD并调整deviations = np.abs(data - median)mad = np.median(deviations) * 1.4826# 处理MAD为0的情况（所有数据相同）if mad == 0:return median, np.array([])# 标记并排除异常值outlier_mask = deviations > (k * mad)clean_data = data[~outlier_mask]return np.mean(clean_data), np.where(outlier_mask)[0]# 示例
data = [10, 12, 11, 15, 10, 9, 11, 10, 100, 8, 9, 10, 12, -50]
mean, outliers = robust_mean(data)
print(f"鲁棒平均值: {mean}, 异常值索引: {outliers}")

算法优点

鲁棒性：中位数和MAD均不受极端值影响。
自动阈值：k=3 对应正态分布的3σ准则，可调整（如严格检测用 k=2.5）。
适用性：适合传感器数据（如鸡秤）、金融数据等含离群点的场景。

可视化

数据分布: [-50, 8, 9, 9, 10, 10, 10, 10, 11, 11, 12, 12, 15, 100]↑______中位数=10______↑           ↑异常值（-50）                    异常值（100）

查看全文

http://www.dtcms.com/a/249773.html

全面指南：HTTPX - 下一代Python HTTP客户端

【算法深练】二分答案：从「猜答案」到「精准求解」的解题思路

【大厂机试题解法笔记】恢复数字序列

《Gulp与SCSS：解构前端样式开发的底层逻辑与实战智慧》

迁移数据库服务器和应用服务器步骤

Wiiu平台RetroArch全能模拟器美化整合包v1.18

LeetCode[106]从中序和后序遍历序列构造二叉树

考研好？还是找工作好？

动态BGP服务器的用途都有什么？

Lombok 介绍

33-Oracle Parallel 并行处理的选择和实践

31-Oracle 23 ai-Unrestrict Parallel DML（无限制并行DML）

SAP复制一个自定义移动类型

篇章七论坛系统——业务开发——前端

Python 中的 `lru_cache` 详解

掌握应用分层：高内聚低耦合的艺术

Python with 关键字

【FineDance】ModuleNotFoundError: No module named ‘pytorch3d‘

数据目录：企业数据管理的核心引擎与最佳实践

Linux02

Linux Docker的环境配置与简单使用

【Day48】

Docker 在尝试连接 Docker Hub 时遇到网络问题（超时）

27 - ASPP模块

TI 毫米波雷达走读系列—— 3DFFT及测角

疫菌QBD案例

Spring-rabbit重试消费源码分析

低温对MOSFET的影响

SpringBoot打包运行原理和加载机制原理

篇章六论坛系统——业务开发——实现业务功能

问题

方法