第19章 AB实验的局限性
第六部分重点讨论AB实验的适用场景和局限性,以及用户理解的补充手段,包括观察性因果分析方法和常见的用户研究手段。虽然AB实验很强大,但也不是万能的。AB实验、观察性因果分析、用户调查是3种典型的用户研究分析方法。在选择分析方法时,有一个简单的判断原则,对于需要进行因果判断,特别是需要量化的场景,能进行AB实验的尽量通过AB实验来判断产品是否符合预期;对于不适合AB实验的场景,可以采用其他的观察性因果分析方法;用户调查方法可以辅助判断行为和指标之间的移动是否符合逻辑;AB实验之外的因果分析方法和用户调查方法也可以用于佐证AB实验。
AB实验的因果分析方法和用户调查方法
1. 战略创新层面
适用场景有限:
AB实验擅长优化现有路径(如"找到更快登顶的路"),但无法发现全新方向(如"发现新山峰")。
关键限制因素:
机会成本过高:资源有限时,多方向并行实验可能导致核心业务延误(如竞品抢占市场)。
缺乏基线参照:初创产品或战略转型时,无历史数据作为对照组基准。
决策不可逆性:战略选择(如产品定位)具有长期影响,无法通过实验简单回溯。
规模化门槛:仅有少数创意能转化为成功产品,大规模实验效率低。
替代方案:
需结合用户需求洞察(如第一性原理)、战略规划及小范围定性验证(如用户访谈)。
2. 战术执行层面
无法满足AB实验核心要素的场景:
限制类型 | 典型案例 | 根本原因 |
---|---|---|
用户量不足 | 小众功能、初创产品 | 统计功效不足,无法检测小幅度提升 |
用户无法随机分组 | 电视广告投放、并购事件评估 | 无法控制变量,违反独立性假设 |
行为改变成本过高 | 药物实验、强制关闭核心功能(如微信朋友圈) | 用户权益/安全风险或机会成本过高 |
观察期过长/数据难收集 | 二手车复购率研究、教育长期影响因素 | 周期过长引入混杂变量,数据稀疏 |
小练习答案解析
C/D/F不适合AB实验
选项 | 场景描述 | 限制类型 | 原因分析 |
---|---|---|---|
A | 推荐算法点击率优化 | ✅ 适用 | 标准战术优化:用户量大、可快速分组、指标易量化。 |
B | 外卖App首页排版改造 | ✅ 适用 | 典型UI/UX优化:支持随机分组,短期可验证效果。 |
C | 视频网站新增VIP plus会员等级 | ❌ 战略创新 | 涉及产品定位与长期价值:机会成本高,需综合用户需求/市场定价策略判断。 |
D | 电商App子品类齐全度验证 | ❌ 战术执行(用户量/数据) | 低频决策场景:用户对特定子品类需求分散,实验数据稀疏且周期长。 |
E | 内容App增加娱乐品类曝光 | ✅ 适用 | 内容曝光属常规战术优化:可通过CTR、时长等短期指标验证。 |
F | 二手车App新策略对复购率的影响 | ❌ 战术执行(观察期) | 超长观察期:复购行为低频(可能1-2年),实验周期过长且受外部因素干扰。 |
关键结论
战略层慎用AB实验:方向选择、北极星指标制定等需依赖深度洞察与战略规划,而非实验迭代。
战术层验证前提:需同时满足 用户量充足、随机分组可行、成本可控、指标可快速量化 四大条件。
替代方案:
战略层:用户研究、竞品分析、小范围MVP验证。
战术层:断点回归(如政策变化)、双重差分法(如地域试点)、合成控制法(如广告效果评估)。
企业需明确:AB实验是优化工具而非创新引擎,其价值在规模化产品的持续迭代中最大化,而非从0到1的探索阶段。
AB实验方法应用路径图
1、明确核心问题
这张图的核心问题是:“AB实验在不同产品阶段(初创期、成长期、瓶颈期)的适用性如何?”
用费曼学习法的思路,我们可以先问:
- 什么是AB实验? → 一种对比测试方法,通过随机分组(A组 vs. B组)验证不同策略的效果。
- 为什么不同阶段适用性不同? → 因为产品的发展阶段决定了数据的可用性、实验的可行性和决策的重点。
2、拆解图中的三个阶段
1. 初创期:无产品有想法(AB实验不太适用)
关键特征:
- 产品尚未成型,只有初步想法(MVP阶段)。
- 缺乏用户数据,无法进行科学的AB实验。
适用方法:
✅ 需求分析(用户访谈、市场调研)
✅ MVP(最小可行产品)(快速验证核心功能)
✅ 数据洞察(早期用户行为分析)
费曼案例(用生活例子解释):
假设你想开一家奶茶店,但还没开店(初创期)。这时你不能做AB实验(比如测试“甜度对销量的影响”),因为你连顾客都没有。
你该做的是:
- 需求分析:问朋友“你们喜欢喝奶茶吗?喜欢什么口味?”
- MVP:先摆个小摊试卖几种口味,看看哪些受欢迎。
- 数据洞察:记录哪种口味卖得最好,而不是直接做AB测试。
2. 成长期:有产品有想法(AB实验可适用)
关键特征:
- 产品已上线,有一定用户基础。
- 有明确优化方向(功能、UI、算法等)。
适用方法:
✅ 可以进行AB实验(如按钮颜色、推荐算法、定价策略等)
✅ 无法进行AB实验时(如政策变化、技术限制):
- 因果分析(如断点回归、双重差分法)
- 用户研究(如眼动实验、深度访谈)
费曼案例:
你的奶茶店已经运营半年(成长期),现在你想测试:
- AB实验:A组顾客看到“第二杯半价”,B组看到“买一送一”,看哪种促销更有效。
- 无法AB实验时:比如政府突然限制塑料杯使用(外部因素),这时你要用因果分析(对比政策前后的销量变化)。
3. 瓶颈期:有产品无想法(AB实验不适用)
关键特征:
- 产品增长停滞,缺乏创新方向。
- AB实验无法解决根本问题(因为实验只能优化现有产品)。
适用方法:
❌ AB实验无效(因为实验只能微调,无法突破瓶颈)
✅ 非实验决策:
- 产品OCE(目标、客户、体验)是否需要改变?(如转型目标用户群)
- 是否需要创建新赛道?(如开发全新产品线)
费曼案例:
你的奶茶店开了3年,销量不再增长(瓶颈期)。这时:
- AB测试“换包装”或“改甜度”都没用,因为市场饱和了。
- 你需要非实验决策,比如:
- 改变OCE:从“学生市场”转向“白领市场”(目标客户变化)。
- 新赛道:推出咖啡业务,而不仅是优化奶茶。
3、总结
一句话回答:AB实验的适用性取决于产品阶段:
- 初创期 → 不做AB实验,先验证需求(MVP、用户调研)。
- 成长期 → 大量AB实验优化产品(功能、UI、算法)。
- 瓶颈期 → 跳出AB实验,思考战略转型(新赛道、新客户)。
行动建议:
- 如果你的产品在成长期,可以疯狂做AB实验;
- 如果增长停滞,别纠结实验,直接考虑“破局点”(如转型或创新)。
4、费曼技巧检验:你能向别人解释清楚吗?
试着用这个例子向朋友解释:
“想象你开一家店——
- 刚开店时(初创期):你没法测试‘广告语A vs B’,因为还没顾客,得先问问大家喜欢啥。
- 生意不错时(成长期):你可以测试‘促销A vs B’来赚更多钱。
- 生意停滞时(瓶颈期):再测试‘招牌颜色A vs B’也没用,得想想是不是该卖别的东西了。”
来源书籍:——刘玉凤《AB实验:科学归因于增长的利器》