当前位置: 首页 > wzjs >正文

网站怎样做收录会更好竞价推广账户竞价托管公司

网站怎样做收录会更好,竞价推广账户竞价托管公司,织梦怎么设置网站首页,医院网站建设宗旨问题 在项目中,需要对异常值进行剔除,需要一种鲁棒性比较好的方法,总结了一个实践方法。 方法 基于中位数和MAD(中位数绝对偏差)的鲁棒平均值计算算法的详细过程,按照您要求的步骤分解: 算法…

问题

在项目中,需要对异常值进行剔除,需要一种鲁棒性比较好的方法,总结了一个实践方法。

方法

基于中位数和MAD(中位数绝对偏差)的鲁棒平均值计算算法的详细过程,按照您要求的步骤分解:


算法过程

过程:
    1. 先使用中位数作为初始估计
    1. 计算MAD作为离散度度量
    1. 排除偏离中位数超过3倍MAD的数据点
    1. 对剩余数据计算平均值
输入
  • 数据集 data = [x₁, x₂, ..., xₙ](可能包含异常值)
  • 异常值阈值 k(默认 k=3
输出
  • 鲁棒平均值 robust_mean
  • 被排除的异常值索引列表 outliers

步骤 1:计算中位数(初始估计)

中位数对异常值不敏感,是数据中心的鲁棒估计。

median = np.median(data)  # 中位数

例子
data = [10, 12, 11, 15, 10, 9, 11, 10, 100, 8, 9, 10, 12, -50]
排序后:[-50, 8, 9, 9, 10, 10, 10, 10, 11, 11, 12, 12, 15, 100]
中位数 median = 10(第7和第8个值的平均)


步骤 2:计算MAD(离散度度量)

MAD(Median Absolute Deviation)是数据与中位数绝对偏差的中位数,对异常值鲁棒。

deviations = np.abs(data - median)  # 各点与中位数的绝对偏差
mad = np.median(deviations)         # MAD
mad = mad * 1.4826                  # 调整因子(使MAD≈标准差)

调整因子解释

  • 对于正态分布,标准差 σ ≈ 1.4826 × MAD
  • 调整后,k=3 对应正态分布的3σ准则(覆盖99.7%数据)。

例子
绝对偏差 deviations = [60, 2, 1, 5, 0, 1, 1, 0, 90, 2, 1, 0, 2, 40]
排序后:[0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 5, 40, 60, 90]
MAD = 1(中位数)
调整后 mad = 1.4826


步骤 3:排除异常值(3×MAD准则)

标记所有满足 |xᵢ - median| > k × mad 的点为异常值。

outlier_mask = deviations > (k * mad)  # 异常值掩码
clean_data = data[~outlier_mask]       # 清洗后的数据

例子k=3):
阈值 3 × 1.4826 ≈ 4.45
异常值条件:|xᵢ - 10| > 4.45

  • 100|100 - 10| = 90 > 4.45 → 异常
  • -50|-50 - 10| = 60 > 4.45 → 异常
    其他点均保留。

步骤 4:计算剩余数据的平均值

对清洗后的数据求算术平均。

robust_mean = np.mean(clean_data)

例子
清洗后数据:[10, 12, 11, 15, 10, 9, 11, 10, 8, 9, 10, 12]
鲁棒平均值 robust_mean = 10.5


完整代码实现

import numpy as npdef robust_mean(data, k=3):data = np.asarray(data)median = np.median(data)# 计算MAD并调整deviations = np.abs(data - median)mad = np.median(deviations) * 1.4826# 处理MAD为0的情况(所有数据相同)if mad == 0:return median, np.array([])# 标记并排除异常值outlier_mask = deviations > (k * mad)clean_data = data[~outlier_mask]return np.mean(clean_data), np.where(outlier_mask)[0]# 示例
data = [10, 12, 11, 15, 10, 9, 11, 10, 100, 8, 9, 10, 12, -50]
mean, outliers = robust_mean(data)
print(f"鲁棒平均值: {mean}, 异常值索引: {outliers}")

算法优点

  1. 鲁棒性:中位数和MAD均不受极端值影响。
  2. 自动阈值k=3 对应正态分布的3σ准则,可调整(如严格检测用 k=2.5)。
  3. 适用性:适合传感器数据(如鸡秤)、金融数据等含离群点的场景。

可视化

数据分布: [-50, 8, 9, 9, 10, 10, 10, 10, 11, 11, 12, 12, 15, 100]↑______中位数=10______↑           ↑异常值(-50)                    异常值(100)
http://www.dtcms.com/wzjs/53964.html

相关文章:

  • 哈尔滨网站制作推广常见的推广方式有哪些
  • 做网站是不是要备案营销软件app
  • 单页面视频网站模板希爱力5mg效果真实经历
  • 衡水专业制作网站百度推广广告公司
  • 三亚海棠警方拘留3名涉黄人员电脑优化大师有用吗
  • 口碑好的网站开发公司哪家最专业搜索引擎营销的名词解释
  • 哪里有零基础网站建设教学公司百度app在哪里找
  • 深圳响应式网站公司新站整站优化
  • 在什么网站上可以做免费广告51外链代发网
  • 简述商务网站建设步骤二级域名注册
  • 佛山做网站哪家好网页广告调词平台多少钱
  • 高端网站制作网站建设网络舆情监测系统
  • 高德地图为什么没有国外的地图权威seo技术
  • 做英文网站公司查询百度关键词排名
  • 哪里学软装设计最好seo网络推广经理招聘
  • 讯响模板网站网站优化公司哪家好
  • 网站开发小程序百度竞价排名背后的伦理问题
  • 2017做淘宝客网站还有吗semen是什么意思
  • 新疆昌吉市建设委员会网站优化师培训机构
  • 网站3d展示怎么做域名注册免费
  • 大连个人网站建设怎么做网页
  • wordpress修改底部文字百度seo视频教程
  • 泰州网站建设方案seo必备软件
  • 山东建设执业师专业官方网站链爱交易平台
  • 北京中高端网站建设深圳网络营销推广培训
  • 深圳网站开发专业企业营销咨询
  • 深圳做微信网站多少钱百度广告搜索引擎
  • 淘宝网站建设需求分析影响seo排名的因素
  • 日语网站建设多少钱百度快速排名化
  • 特卖网站怎么做网络营销方案总结