当前位置: 首页 > news >正文

辛普森悖论

辛普森悖论

第一步:概念拆解

想象你在比较两个班级的考试成绩:

  • 第一天​:实验组(1个学生考了90分),对照组(99个学生平均考了80分)
  • 第二天​:实验组(50个学生平均考了70分),对照组(50个学生平均考了60分)
    如果简单把两天的分数加起来算总平均:
  • 实验组:(90 + 70×50)/51 ≈ 70.4分
  • 对照组:(80×99 + 60×50)/149 ≈ 72.3分
    奇怪的事情发生了​:明明实验组每天都比对照组考得好,但合起来看反而更差!

第二步:关键矛盾点

就像比较两个餐厅的满意度:

  • 工作日​:高档餐厅(客人少但评分高),快餐店(客人多评分略低)
  • 周末​:两家客流量相同,高档餐厅评分仍更高
    但如果忽略时间维度,直接合并数据:
    快餐店会因为工作日的大量客流拉高总平均分,​掩盖了高档餐厅每天的真实优势

第三步:统计学本质

辛普森悖论的核心是混淆变量(这里是"日期"):

  1. 第一天实验组只有1%流量,这部分用户可能是高质量种子用户(转化率2.3%极高)
  2. 第二天50%流量包含大量普通用户(转化率降至1.2%)
  3. 合并时,实验组数据被第二天的大量普通用户稀释,而对照组数据仍被第一天的高权重优质用户支撑

第四步:解决方案

避免错误的三步法:

  1. 分层比较​:分别看第一天/第二天的结果(保持流量比例一致)
  2. 加权计算​:按天数分配权重(如每天算50%贡献)
  3. 因果图分析​:画流程图确认"日期"是否影响流量分配与转化率的关系

就像比较两种药物的疗效时,必须考虑试验阶段的重症/轻症患者比例变化,否则会得出"救人更多的药反而总死亡率更高"的荒谬结论。


内容类AB实验案例分析

看一个内容类AB实验的例子,某资讯内容产品在列表包括AB两类内容,某实验做了A类内容的提权,也就是提升了A类内容的曝光占比,实验关心的核心指标是点击率

1)实验提升了整体的点击率吗?

2)通过数据推测实验为什么会出现A、B的点击率都下降的现象。

3)这种提升点击率的方法可能有什么潜在的问题?


第一步:用买菜比喻理解基础概念

想象菜市场有两个摊位:

  • 摊位A​(精品蔬菜):每天摆10斤能卖9斤(点击率90%)
  • 摊位B​(普通蔬菜):每天摆100斤能卖70斤(点击率70%)

某天市场经理决定:

  • 给摊位A多分配货架​(从10斤→30斤)
  • 摊位B被迫减少到80斤

结果发现:

  • 摊位A销量变成25斤(点击率降到83%)
  • 摊位B销量变成55斤(点击率降到68%)
  • 总销售额却从79斤增加到80斤!

第二步:拆解三个问题的本质

问题1:整体点击率提升了吗?​

  • 对照组:A(9.2%) + B(7.4%) → 加权平均=(83+192)/(900+2600)=7.9%
  • 实验组:A(8.7%) + B(6.9%) → 加权平均=(234+55)/(2700+800)=8.3%
    → ​确实提升了0.4%​,就像菜市场总销售额增加

问题2:为什么AB各自点击率都降?​

  • 对A内容​:曝光量从900→2700(3倍!)

    • 用户看到太多同类内容产生审美疲劳(如同连续吃3天精品菜也会腻)
    • 新曝光的用户可能不是A的理想受众(像把精品菜卖给只想买便宜菜的人)
  • 对B内容​:曝光量从2600→800(被挤压)

    • 用户注意力被更多A内容吸引(像顾客都被精品菜摊位的促销吸引)
    • 剩余曝光可能给了B的非目标用户(像只有匆匆路过的人才会买剩下的普通菜)

问题3:潜在问题是什么?​

  1. 数据假象​:就像菜市场总销售额增加,但:

    • 可能牺牲了老顾客体验(天天被迫看同类内容)
    • 新用户可能因内容单一而流失
  2. 生态破坏​:

    • 如果A是标题党内容,长期会降低内容质量
    • B类优质内容得不到曝光(如同菜市场再也买不到小众但健康的食材)
  3. 指标陷阱​:

    • 点击率提升但阅读时长可能下降
    • 用户满意度等隐性指标无法体现

第三步:用控制变量法看本质

如果把实验组数据按对照组比例还原:

  • 假设保持A:B=900:2600的比例
  • 实验组A应有289×(900/3500)=74.3点击(实际234,严重偏离)
  • 实验组B应有289×(2600/3500)=214.7点击(实际55,严重偏离)
    → 证明流量分配变化才是核心影响因素

第四步:给产品经理的建议

  1. 分层实验​:对不同用户群体分别测试(如新用户/老用户)
  2. 动态加权​:根据用户偏好实时调整AB比例
  3. 多指标监控​:配合阅读深度、分享率等综合评估
  4. 内容质量检测​:建立A类内容的"标题党指数"预警机制

就像调整菜市场摊位不能只看总销售额,还要考虑顾客复购率、摊位多样性、菜品质量等。这个案例生动展示了:​局部最优≠全局最优,需要警惕"提升一个指标,毁掉整个生态"的陷阱。

  

http://www.dtcms.com/a/287122.html

相关文章:

  • SLAM中的非线性优化-2D图优化之激光SLAM基于优化的前端匹配(十八)
  • 2023年CSP入门级第二轮第四题——旅游巴士
  • windows wsl2-06-docker hello world
  • 网络原理——TCP
  • 【学习记录】智能客服小桃(进度更新ing)
  • 张 关于大语言模型(LLM)置信度研究的经典与前沿论文 :温度缩放;语义熵;自一致性;事实与反思;检索增强;黑盒引导;
  • 软考 系统架构设计师系列知识点之杂项集萃(113)
  • LangGraph教程10:LangGraph ReAct应用
  • 基于Electron打包jar成Windows应用程序
  • 技术演进中的开发沉思-39 MFC系列:多重文件和多重视图
  • 安全事件响应分析--基础命令
  • 【52】MFC入门到精通——(CComboBox)下拉框选项顺序与初始化不一致,默认显示项也不一致
  • pytorch:tensorboard和transforms学习
  • HTML5中的自定义属性
  • Jenkins自动化部署.NET应用实战:Docker+私有仓库+SSH远程发布
  • mysql常用总结
  • EMC杂谈-001-基础知识
  • 【面试八股文】软件测试面试题汇总
  • [黑马头条]-项目整合对象存储服务MinIO
  • 百度网盘TV版1.21.0 |支持倍速播放,大屏云看片
  • CS231n-2017 Lecture2图像分类笔记
  • 工业企业与污染库匹配数据库(1998-2014年)
  • Letter Combination of a Phone Number
  • Redis原理之集群
  • windows内核研究(驱动开发之内核编程)
  • Qt控件实战详解:深入掌握输入输出与数据展示
  • Python MCP与Excel增强智能:构建下一代数据处理和自动化解决方案
  • SpringBoot 3.0 挥别 spring.factories,拥抱云原生新纪元
  • 人该怎样活着呢?55
  • 【RK3576】Android 14 驱动开发实战指南