当前位置：首页 > news >正文

数据分析核心术语略解

news 2025/10/26 7:26:37

文章目录

- 第一章：数据基石篇
- 第二章：统计描述篇
- 第三章：统计推断篇
- 第四章：模型与评估篇
- 第五章：高级技术篇
- 第六章：数据工程与预处理
- 第七章：机器学习进阶
- 第八章：模型评估与调优
- 第九章：业务与可视化
- 第十章：深度学习与大数所
- 总结表格：更多核心概念对比

第一章：数据基石篇

1. 数据集 - Dataset

详解：数据的集合，通常结构化为表格（如Excel、CSV）。每一行是一个观测，每一列是一个变量。
生动评语：数据集就是你的“矿山”，里面蕴含着待挖掘的“黄金”（洞见）。没有矿山，巧妇也难为无米之炊。

# 1. 数据集 - Dataset
data(mtcars)  # 加载内置数据集
head(mtcars)  # 查看前几行
str(mtcars)   # 查看数据结构

2. 变量 - Variable / 特征 - Feature

详解：代表数据集中某个可测量或可观察的属性。在机器学习中常称为“特征”。
- 连续型变量：可以在给定范围内取任何数值。如：身高、温度、销售额。
- 分类型变量：表示类别或组别。如：性别（男/女）、产品类型（A/B/C）。
生动评语：变量就是你看待问题的“视角”。比如预测房价，你的视角可以是“面积”（连续）、“地段”（分类）、“是否有学区”（分类）。视角越多，看得越全面。

# 2. 变量类型
#连续型变量
mpg <- mtcars$mpg  # 每加仑行驶英里数
#分类型变量 
cyl <- factor(mtcars$cyl)  # 气缸数，转换为因子

3. 观测值 - Observation / 样本 - Sample

详解：数据集中代表一个独立个体的完整信息，即表格中的一行。
生动评语：每个观测值就是矿山中的一块“矿石”。比如在一个客户数据集中，一行就是一位具体客户的全部信息档案。

# 3. 观测值/样本
nrow(mtcars)  # 样本数量
mtcars[1, ]   # 第一个观测值

4. 因变量 - Dependent Variable / 响应变量 - Response

详解：我们关心并试图预测或解释的那个“结果”。
生动评语：因变量就是你想解开的“谜题核心”。比如，“这个客户会流失吗？”（因变量：是否流失），它就是你的终极目标。

# 4. 因变量和自变量
# mpg 作为因变量，hp和wt作为自变量
model <- lm(mpg ~ hp + wt, data = mtcars)

5. 自变量 - Independent Variable / 预测变量 - Predictor

详解：我们用来解释或预测因变量的那些“原因”或“影响因素”。
生动评语：自变量就是你破案的“线索”和“嫌疑人”。通过分析“客户投诉次数”、“上月使用时长”（自变量）来破解“客户是否流失”（因变量）这个谜案。

第二章：统计描述篇

6. 中心趋势度量

均值 - Mean：所有数据点的平均值。对极端值敏感。
中位数 - Median：将数据排序后，正中间的那个值。不受极端值影响。
众数 - Mode：出现频率最高的值。
生动评语：想象一个村的收入：
- 均值：把全村所有人的钱加起来平分，这个数可能被马云这样的富豪拉得很高。
- 中位数：把村民按收入从低到高排队，排在正中间那位老兄的收入。它能告诉你“典型的”村民收入水平。
- 众数：村里最常见的收入范围。选哪个，取决于你的业务问题。通常中位数更能抵抗“土豪”的干扰。

# 6. 中心趋势度量
mean(mtcars$mpg)     # 均值
median(mtcars$mpg)   # 中位数
# 众数需要自定义函数
get_mode <- function(x) {ux <- unique(x)ux[which.max(tabulate(match(x, ux)))]
}
get_mode(mtcars$cyl)

R语言众数函数分析
7. 离散程度度量

范围 - Range：最大值与最小值的差。
方差 - Variance：衡量每个数据点与均值偏离程度的平方的平均值。
标准差 - Standard Deviation：方差的平方根，回到原始单位，更常用。
生动评语：中心趋势告诉你“平均水平”，而离散程度告诉你“是否稳定”。
- A班和B班平均分都是80分。
- A班标准差是5分（成绩很集中，都在75-85分）。
- B班标准差是20分（成绩很分散，有100分的学霸，也有60分的学渣）。
- 标准差，就是衡量“波动性”和“风险”的尺子。

# 7. 离散程度度量
range(mtcars$mpg)    # 范围
var(mtcars$mpg)      # 方差
sd(mtcars$mpg)       # 标准差
IQR(mtcars$mpg)      # 四分位距

8. 相关性 - Correlation

详解：衡量两个连续变量之间线性关系的强度和方向。取值范围-1到+1。
- +1：完全正相关（x增大，y完美地增大）。
- 0：无线性关系。
- -1：完全负相关（x增大，y完美地减小）。
生动评语：“相关性不等于因果性！”这是数据分析的第一定律！
- 例子：冰淇淋销量和溺水人数高度正相关。是因为冰淇淋导致溺水吗？不！是因为它们背后都有一个共同的“因”——夏天来了。相关性能帮你发现线索，但不能直接定罪。

# 8. 相关性
cor(mtcars$mpg, mtcars$hp)                    # Pearson相关系数
cor.test(mtcars$mpg, mtcars$hp)               # 相关性检验# 相关性矩阵
cor_matrix <- cor(mtcars)
library(corrplot)
corrplot(cor_matrix, method = "circle")

第三章：统计推断篇

9. 假设检验 - Hypothesis Testing

详解：一个严谨的“法庭审判”流程，用于判断一个发现是真实的还是偶然的。
- 原假设 - Null Hypothesis：默认的“无罪”假设，通常表示“没有效果”、“没有差异”。
- 备择假设 - Alternative Hypothesis：我们希望证实的“有罪”假设，表示“有效果”、“有差异”。
生动评语：我们永远不直接“证明”备择假设，而是看证据是否足够“拒绝”原假设。就像法庭上，我们证明的是“ beyond a reasonable doubt （超出合理怀疑）”，而非100%确定。

10. P值 - P-value

详解：在原假设为真的前提下，观察到当前样本数据或更极端数据的概率。
决策规则：如果P值很小（通常<0.05），我们就拒绝原假设。
生动评语：P值就是“巧合的概率”。
- 你发现新药A比旧药B效果好，P值=0.03。
- 这意味着：如果新药A其实根本无效（原假设为真），那么你观察到这次实验结果的概率只有3%。
- 这个概率太小了，所以我们更愿意相信不是巧合，而是新药A真的有效！P值越小，巧合的可能性越低，你的发现就越可靠。

# 9-10. 假设检验和P值
# 单样本t检验：检验mpg均值是否等于20
t.test(mtcars$mpg, mu = 20)# 两样本t检验：4缸 vs 非4缸车的mpg
t.test(mpg ~ I(cyl == 4), data = mtcars)

R语言~T检验

11. 置信区间 - Confidence Interval

详解：对总体参数（如均值）的一个区间估计。我们通常说“95%置信区间”，意思是：如果我们重复抽样100次，构造100个这样的区间，那么大约有95个会包含真实的总体参数。
生动评语：置信区间是一个“网”，而不是一个“点”。
- 点估计：“美国人的平均身高是175cm。”（这个单一的值很可能不准）
- 区间估计：“我们有95%的把握，美国人的平均身高在173cm到177cm之间。”这个区间给出了估计的精确程度，比一个孤零零的数字信息量大多了。

# 11. 置信区间
# 计算mpg均值的95%置信区间
t_test_result <- t.test(mtcars$mpg)
t_test_result$conf.int# 方差分析 (ANOVA)
anova_result <- aov(mpg ~ factor(cyl), data = mtcars)
summary(anova_result)

第四章：模型与评估篇

12. 过拟合 - Overfitting vs. 欠拟合 - Underfitting

欠拟合：模型太简单，连训练数据中的基本规律都没学好。好比学生连课本基础知识都没掌握。
过拟合：模型太复杂，把训练数据中的噪声和细节都当成了规律来学习。好比学生死记硬背了所有习题甚至错误答案，一遇到新题型就傻眼。
生动评语：机器学习的目标是找到“泛化能力”最好的模型，即在新数据上表现好。这需要在简单（可能欠拟合）和复杂（可能过拟合）之间找到“甜蜜点”。

model <- lm(mpg ~ hp + wt + factor(cyl), data = mtcars)
summary(model)  # 查看系数、R平方、P值等

R语言模型分析（一）

13. 训练集 - Training Set / 测试集 - Test Set

训练集：用于“教导”模型的数据，模型从中学习规律。
测试集：用于“期末考试”的数据，全程不参与训练，用于公正地评估模型的真实水平。
生动评语：绝对不能用教辅（训练集）来当高考试卷（测试集）！否则就是作弊，你得到的将是虚假的高分（过拟合的假象）。

# 13. 训练集和测试集划分
set.seed(123)  # 设置随机种子确保可重复性
train_indices <- sample(1:nrow(mtcars), 0.7 * nrow(mtcars))
train_data <- mtcars[train_indices, ]
test_data <- mtcars[-train_indices, ]

14. 交叉验证 - Cross-Validation

详解：一种更强大、更充分地利用数据评估模型的方法。最常用的是K折交叉验证：将数据分成K份，轮流将其中1份作为测试集，其余K-1份作为训练集，最后取K次评估结果的平均值。
生动评语：如果把一次“训练集-测试集”拆分比作一次模拟考，那K折交叉验证就是进行了K轮不同出题范围的模拟考，最后取平均分。这个分数更能反映你的真实（泛化）水平，结果非常稳健。

# 14. 交叉验证
library(caret)
# 设置10折交叉验证
train_control <- trainControl(method = "cv", number = 10)
# 训练线性回归模型
cv_model <- train(mpg ~ hp + wt, data = mtcars, method = "lm", trControl = train_control)
cv_model

15. 分类模型评估指标

准确率 - Accuracy：猜对的样本占总样本的比例。在类别不平衡时容易误导人（比如99%是好瓜，1%是坏瓜，一个把所有瓜都预测为“好”的模型也有99%的准确率，但对找坏瓜毫无用处）。
精确率 - Precision：在所有预测为真的样本中，真正是真的比例。“宁缺毋滥”。关注的是预测结果的准确性。
召回率 - Recall：在所有实际为真的样本中，被预测为真的比例。“宁可错杀”。关注的是找出所有正例的能力。
F1分数 - F1-Score：精确率和召回率的调和平均数，是二者的平衡。
生动评语：以“抓小偷”为例：
- 精确率：你抓来的人里，真正是小偷的比例。越高，说明你不错抓好人。
- 召回率：所有小偷里，被你抓到的比例。越高，说明漏网之鱼越少。
- 业务决定侧重：如果误抓成本高（如金融风控），优先保证高精确率。如果漏掉成本高（如癌症筛查），优先保证高召回率。

# 15. 分类模型评估（以逻辑回归为例）
# 创建二分类问题
mtcars$high_mpg <- ifelse(mtcars$mpg > 20, 1, 0)# 逻辑回归模型
logit_model <- glm(high_mpg ~ hp + wt, data = mtcars, family = "binomial")
predictions <- predict(logit_model, type = "response")
pred_class <- ifelse(predictions > 0.5, 1, 0)# 混淆矩阵
library(caret)
confusionMatrix(factor(pred_class), factor(mtcars$high_mpg))# 精确率、召回率、F1分数
library(MLmetrics)
Precision(y_true = mtcars$high_mpg, y_pred = pred_class)
Recall(y_true = mtcars$high_mpg, y_pred = pred_class)
F1_Score(y_true = mtcars$high_mpg, y_pred = pred_class)

第五章：高级技术篇

16. 正则化 - Regularization

详解：为了防止过拟合，在模型损失函数中加入一个“惩罚项”，限制模型参数不要变得过大。
生动评语：正则化就是给模型戴上“紧箍咒”。
- 没有正则化：模型可以随心所欲地调整系数，容易变得复杂而过拟合。
- 有正则化：告诉模型，“你可以学习，但不能学得太‘偏’、太‘怪’，要简洁优雅。”这迫使模型抓住主要矛盾，忽略噪声。

17. Lasso vs. 岭回归 - Lasso vs. Ridge Regression

Lasso回归：使用L1惩罚，可以将不重要的特征系数压缩至0，从而实现特征选择。
岭回归：使用L2惩罚，可以使特征系数变小但不会为0，所有特征都保留在模型中。
生动评语：想象你在收拾行李箱：
- 岭回归：你把所有衣服（特征）都带上，但每件都用力压一压（缩小系数），让箱子还能关上。
- Lasso回归：你果断地把一些不重要的衣服（特征）扔出箱子（系数归零），只带最重要的。当你怀疑很多特征没用时，Lasso是更好的选择。

18. 决策树 - Decision Tree

详解：一种模拟人类决策过程的树形模型，通过一系列“如果…那么…”的问题进行预测。
生动评语：决策树就像玩“20个问题”猜东西游戏。“是动物吗？” -> “是” -> “会飞吗？” -> … 它非常直观，容易解释，这也是它最大的优点。

19. 随机森林 - Random Forest

详解：集成学习方法。构建多棵决策树，并通过投票（分类）或平均（回归）得到最终结果。
生动评语：“三个臭皮匠，顶个诸葛亮”。随机森林就是打造一支“决策树委员会”。每棵树可能在数据的不同部分、不同特征上训练，可能各有偏颇。但当它们集体投票时，就能抵消个别树的错误，做出更稳健、更准确的决策。它是目前最强大、最常用的“开箱即用”算法之一。

太好了！让我们继续扩展数据分析的宇宙，加入更多高级且实用的概念，保持同样的详细程度和生动评语。

第六章：数据工程与预处理

20. 数据清洗 - Data Cleaning

详解：处理数据中的不完整、错误或不一致的部分，包括处理缺失值、异常值、重复值等。
生动评语：数据清洗就像给食材洗菜、去泥沙、摘掉烂叶。不洗干净，再好的厨师也做不出美味的菜（模型）。这是最耗时但最基础的一步。

21. 缺失值 - Missing Values

详解：数据集中某些字段没有值。处理方式包括删除、用均值/中位数/众数填充（Imputation）、使用模型预测等。
生动评语：缺失值就像拼图缺了几块。你可以选择忽略（删除）、用类似颜色补上（填充）、或者根据周围图案推测（模型预测），但无论如何，都会影响最终画面的完整性。

22. 异常值 - Outliers

详解：与大多数数据点明显不同的值。可能是由于错误（如记录错误）或真实情况（如亿万富翁的收入）。
生动评语：异常值就像人群中的姚明。你需要判断他是穿了高跟鞋（数据错误）还是真的就这么高（真实现象）。不能一概而论，要结合业务背景判断是否剔除。

23. 数据标准化 - Standardization / 归一化 - Normalization

标准化：将数据按均值为0、标准差为1进行缩放。
归一化：将数据缩放到[0,1]区间。
生动评语：当特征量纲不同时（如年龄和收入），就像让一个用米尺和一个用厘米尺的人比身高。标准化/归一化就是统一单位，让模型更公平地对待每个特征。

24. 特征工程 - Feature Engineering

详解：利用领域知识从原始数据中提取特征，使机器学习算法更好工作。包括创建新特征、变换特征等。
生动评语：特征工程是机器学习中的"炼金术"。它把原始数据（矿石）通过组合、拆分、变换（如将日期变为星期几）变成对模型更有效的特征（黄金）。一个好的特征工程能极大提升模型性能。

25. 独热编码 - One-Hot Encoding

详解：将分类型变量转换为二进制向量表示。例如，颜色（红、绿、蓝）变为三个特征：是红吗？是绿吗？是蓝吗？
生动评语：独热编码就像给类别分配独立的开关。每个类别都有一个开关，只有对应的那个会亮起（值为1），其他都是关闭（值为0）。这样模型就能理解这些类别是独立的，没有顺序关系。

第七章：机器学习进阶

26. 监督学习 - Supervised Learning

详解：使用带有标签的数据训练模型，模型学习从输入到输出的映射。包括回归和分类。
生动评语：监督学习就像有答案的学习。老师（训练数据）给你题目（特征）和答案（标签），你通过练习学会了解题方法（模型）。

27. 无监督学习 - Unsupervised Learning

详解：使用没有标签的数据，模型自行发现数据中的模式。包括聚类、降维等。
生动评语：无监督学习就像没有答案的探索。给你一堆东西（数据），让你自己找出其中的规律（聚类）或简化描述（降维）。

28. 聚类 - Clustering

详解：将数据分成不同的组，使得同一组内的数据点彼此相似，不同组的数据点不相似。
生动评语：聚类就是"物以类聚，人以群分"。比如将客户分成不同群体，以便针对每个群体制定营销策略。

29. 降维 - Dimensionality Reduction

详解：减少特征的数量，同时尽可能保留重要信息。常用方法有主成分分析（PCA）、t-SNE等。
生动评语：降维就像给数据"瘦身"。把高维数据投影到低维空间，便于可视化或去除噪声。就像把三维地球仪展开成二维地图，虽然失真但更易用。

30. 主成分分析 - Principal Component Analysis

详解：一种常用的降维方法，通过线性变换将原始特征转换为一组各维度线性无关的特征（主成分），并按方差大小排序。
生动评语：PCA就像找拍照的最佳角度。它找到数据中方差最大的方向（主要信息），然后依次找与之正交的次大方向，从而用更少的维度保留最多的信息。

31. 梯度提升树 - Gradient Boosting Machines

详解：一种集成学习方法，通过 sequentially 构建一系列弱模型（通常是决策树），每个新模型都试图修正前一个模型的错误。
生动评语：梯度提升就像"吃一堑，长一智"。每犯一个错误（预测误差），就重点学习如何纠正这个错误，通过不断迭代，模型越来越聪明。

32. 支持向量机 - Support Vector Machine

详解：一种分类模型，试图找到一个超平面，使得不同类别之间的间隔（margin）最大。
生动评语：SVM就像在两国之间划界，不仅要边界线正确，还要让边界线离两国都尽可能远（最大间隔），这样即使有新的点靠近边界，也不容易误判。

第八章：模型评估与调优

33. 混淆矩阵 - Confusion Matrix

详解：一个表格，用于展示分类模型预测结果与真实情况的对比。包括真正例、假正例、真负例、假负例。
生动评语：混淆矩阵是分类模型的"成绩单"，清晰地列出了哪些猜对了，哪些猜错了。它是计算精确率、召回率等指标的基础。

34. ROC曲线 - ROC Curve

详解：接收者操作特征曲线，展示在不同分类阈值下，模型的真阳性率（召回率）和假阳性率之间的权衡。
生动评语：ROC曲线就像模型判断能力的"试金石"。曲线下的面积（AUC）越大，说明模型整体性能越好。一条对角线（AUC=0.5）表示模型没有分辨能力（随机猜测）。

35. AUC - Area Under the ROC Curve

详解：ROC曲线下的面积，用于衡量分类模型整体性能。AUC越接近1，模型越好。
生动评语：AUC可以理解为：随机抽取一个正样本和一个负样本，模型将正样本预测为正的概率高于负样本的概率。AUC=0.9意味着有90%的把握模型能正确区分正负样本。

36. 超参数调优 - Hyperparameter Tuning

详解：调整模型训练前设置的参数（超参数），以优化模型性能。常用方法有网格搜索、随机搜索、贝叶斯优化等。
生动评语：超参数就像模型的"旋钮"，你需要调整到合适的位置，模型才能发挥最佳性能。调参就是寻找最佳组合的过程，既是一门科学也是一门艺术。

37. 网格搜索 - Grid Search

详解：一种超参数调优方法，遍历给定参数网格的所有组合，通过交叉验证选择最佳组合。
生动评语：网格搜索就像"地毯式搜索"，确保不遗漏任何可能的好组合，但计算成本高，尤其当参数多时。

38. 随机搜索 - Random Search

详解：从参数空间中随机抽取组合进行尝试。相比网格搜索，有时能以更少的尝试找到良好参数。
生动评语：随机搜索就像"抽奖"，运气好时很快找到好参数，尤其当有些参数对结果影响不大时，它比网格搜索更高效。

第九章：业务与可视化

39. 业务智能 - Business Intelligence

详解：利用数据分析和可视化工具帮助企业做出决策的技术和流程。
生动评语：BI就是把原始数据变成"商业洞察"的翻译官，让决策者一眼看懂公司运营状况。

40. 仪表盘 - Dashboard

详解：将多个关键指标和可视化图表集中在一个界面，用于监控业务状态。
生动评语：仪表盘就像汽车的"仪表盘"，速度、油量、转速一目了然，让司机（管理者）实时掌握车辆（企业）运行状况。

41. A/B测试 - A/B Testing

详解：一种对比两个版本（A和B）以确定哪个性能更好的实验方法。通常用于网页设计、营销活动等。
生动评语：A/B测试就是"赛马机制"。让两个方案同时跑，用真实数据说话，避免拍脑袋决策。

42. 关键绩效指标 - Key Performance Indicator

详解：用于衡量业务表现的关键指标。如用户增长率、客户流失率、转化率等。
生动评语：KPI就是业务的"成绩单"，告诉你做得好还是不好。选对KPI就像选对考试科目，至关重要。

43. 数据可视化 - Data Visualization

详解：用图表、图形等视觉方式展示数据，帮助人们理解数据中的模式和趋势。
生动评语：“一图胜千言”。好的可视化能瞬间揭示数据背后的故事，是沟通分析结果最有力的工具。

第十章：深度学习与大数所

44. 神经网络 - Neural Network

详解：受人脑启发的计算系统，由互连的节点（神经元）组成，能够学习复杂的非线性关系。
生动评语：神经网络就像"儿童学认猫"。一开始乱猜，每次被告知对错后，就调整内部连接（权重）。经过成千上万次练习，它就能准确认出各种猫了。

45. 深度学习 - Deep Learning

详解：使用多层神经网络的机器学习方法，能够自动学习数据的层次化特征表示。
生动评语：深度学习是神经网络的"升级版"。就像剥洋葱，每一层学习不同抽象级别的特征 - 从边缘到形状再到完整物体。

46. 自然语言处理 - Natural Language Processing

详解：让计算机理解、解释和生成人类语言的技术。
生动评语：NLP就是教计算机"读书识字"。从简单的拼写检查到复杂的聊天机器人，都是NLP的功劳。

47. 大数据 - Big Data

详解：指规模巨大、复杂到传统数据处理软件无法处理的数据集。通常用3V描述：Volume（体积）、Velocity（速度）、Variety（多样性）。
生动评语：大数据就像海洋，传统数据像游泳池。你无法用游泳池的工具来探索海洋，需要新的船和网（如Hadoop、Spark）。

48. 数据仓库 - Data Warehouse

详解：集成的、面向主题的数据集合，用于支持管理决策。
生动评语：数据仓库就像企业的"中央图书馆"，把各个部门的数据整理归类，方便查询分析，而不是让数据散落在各个"小书店"（业务系统）里。

总结表格：更多核心概念对比

术语	核心思想	优点	缺点/注意事项
均值 vs 中位数	平均 vs 中间	均值利用所有数据；中位数抗干扰。	均值受异常值影响大。
标准差	衡量波动性	量化数据的不确定性。	单位与原始数据相同。
相关性	衡量线性关系	发现变量间关联。	不等于因果！
P值	巧合的概率	量化统计证据的强度。	不是发现为真的概率！
训练/测试集	模拟考试	公平评估模型。	单次拆分结果可能不稳定。
交叉验证	多次模拟考	评估更稳健，数据利用更充分。	计算成本高。
Lasso回归	L1惩罚，特征选择	产生稀疏模型，解释性强。	相关变量中只随机选一个。
随机森林	集成学习，集体决策	精度高，抗过拟合能力强，开箱即用。	模型像黑箱，解释性较差。
标准化 vs 归一化	统一特征量纲	使模型训练更稳定，收敛更快。	归一化对异常值敏感。
独热编码	处理分类变量	避免模型误以为类别有顺序。	如果类别很多，会导致特征维度爆炸。
监督学习 vs 无监督学习	有标签 vs 无标签	监督学习目标明确；无监督学习探索未知。	无监督学习的结果较难评估。
聚类	物以类聚	发现数据内在分组。	需要预先指定或寻找合适的簇数。
PCA	降维，保留主要信息	去除噪声，减少计算量，便于可视化。	转换后的特征失去原始意义。
梯度提升树	序列化学习纠错	预测精度高，表现优异。	计算开销大，容易过拟合（需谨慎调参）。
ROC曲线	展示分类器性能	不受类别分布影响，全面评估模型。	当类别极度不平衡时，可能过于乐观。
网格搜索 vs 随机搜索	寻找最优超参数	网格搜索全面；随机搜索高效。	网格搜索耗时长；随机搜索可能错过最优。
神经网络	模拟人脑学习	能学习极其复杂的模式。	需要大量数据，计算资源大，解释性差（黑箱）。
A/B测试	对比实验	提供因果证据，决策科学。	需要足够的流量和时间，实验设计要严谨。