数据分析核心术语略解
文章目录
- 第一章:数据基石篇
- 第二章:统计描述篇
- 第三章:统计推断篇
- 第四章:模型与评估篇
- 第五章:高级技术篇
- 第六章:数据工程与预处理
- 第七章:机器学习进阶
- 第八章:模型评估与调优
- 第九章:业务与可视化
- 第十章:深度学习与大数所
- 总结表格:更多核心概念对比
第一章:数据基石篇
1. 数据集 - Dataset
- 详解:数据的集合,通常结构化为表格(如Excel、CSV)。每一行是一个观测,每一列是一个变量。
- 生动评语:数据集就是你的“矿山”,里面蕴含着待挖掘的“黄金”(洞见)。没有矿山,巧妇也难为无米之炊。
# 1. 数据集 - Dataset
data(mtcars) # 加载内置数据集
head(mtcars) # 查看前几行
str(mtcars) # 查看数据结构
2. 变量 - Variable / 特征 - Feature
- 详解:代表数据集中某个可测量或可观察的属性。在机器学习中常称为“特征”。
- 连续型变量:可以在给定范围内取任何数值。如:身高、温度、销售额。
- 分类型变量:表示类别或组别。如:性别(男/女)、产品类型(A/B/C)。
- 生动评语:变量就是你看待问题的“视角”。比如预测房价,你的视角可以是“面积”(连续)、“地段”(分类)、“是否有学区”(分类)。视角越多,看得越全面。
# 2. 变量类型
#连续型变量
mpg <- mtcars$mpg # 每加仑行驶英里数
#分类型变量
cyl <- factor(mtcars$cyl) # 气缸数,转换为因子
3. 观测值 - Observation / 样本 - Sample
- 详解:数据集中代表一个独立个体的完整信息,即表格中的一行。
- 生动评语:每个观测值就是矿山中的一块“矿石”。比如在一个客户数据集中,一行就是一位具体客户的全部信息档案。
# 3. 观测值/样本
nrow(mtcars) # 样本数量
mtcars[1, ] # 第一个观测值
4. 因变量 - Dependent Variable / 响应变量 - Response
- 详解:我们关心并试图预测或解释的那个“结果”。
- 生动评语:因变量就是你想解开的“谜题核心”。比如,“这个客户会流失吗?”(因变量:是否流失),它就是你的终极目标。
# 4. 因变量和自变量
# mpg 作为因变量,hp和wt作为自变量
model <- lm(mpg ~ hp + wt, data = mtcars)
5. 自变量 - Independent Variable / 预测变量 - Predictor
- 详解:我们用来解释或预测因变量的那些“原因”或“影响因素”。
- 生动评语:自变量就是你破案的“线索”和“嫌疑人”。通过分析“客户投诉次数”、“上月使用时长”(自变量)来破解“客户是否流失”(因变量)这个谜案。
第二章:统计描述篇
6. 中心趋势度量
- 均值 - Mean:所有数据点的平均值。对极端值敏感。
- 中位数 - Median:将数据排序后,正中间的那个值。不受极端值影响。
- 众数 - Mode:出现频率最高的值。
- 生动评语:想象一个村的收入:
- 均值:把全村所有人的钱加起来平分,这个数可能被马云这样的富豪拉得很高。
- 中位数:把村民按收入从低到高排队,排在正中间那位老兄的收入。它能告诉你“典型的”村民收入水平。
- 众数:村里最常见的收入范围。选哪个,取决于你的业务问题。通常中位数更能抵抗“土豪”的干扰。
# 6. 中心趋势度量
mean(mtcars$mpg) # 均值
median(mtcars$mpg) # 中位数
# 众数需要自定义函数
get_mode <- function(x) {ux <- unique(x)ux[which.max(tabulate(match(x, ux)))]
}
get_mode(mtcars$cyl)
R语言众数函数分析
7. 离散程度度量
- 范围 - Range:最大值与最小值的差。
- 方差 - Variance:衡量每个数据点与均值偏离程度的平方的平均值。
- 标准差 - Standard Deviation:方差的平方根,回到原始单位,更常用。
- 生动评语:中心趋势告诉你“平均水平”,而离散程度告诉你“是否稳定”。
- A班和B班平均分都是80分。
- A班标准差是5分(成绩很集中,都在75-85分)。
- B班标准差是20分(成绩很分散,有100分的学霸,也有60分的学渣)。
- 标准差,就是衡量“波动性”和“风险”的尺子。
# 7. 离散程度度量
range(mtcars$mpg) # 范围
var(mtcars$mpg) # 方差
sd(mtcars$mpg) # 标准差
IQR(mtcars$mpg) # 四分位距
8. 相关性 - Correlation
- 详解:衡量两个连续变量之间线性关系的强度和方向。取值范围-1到+1。
- +1:完全正相关(x增大,y完美地增大)。
- 0:无线性关系。
- -1:完全负相关(x增大,y完美地减小)。
- 生动评语:“相关性不等于因果性!”这是数据分析的第一定律!
- 例子:冰淇淋销量和溺水人数高度正相关。是因为冰淇淋导致溺水吗?不!是因为它们背后都有一个共同的“因”——夏天来了。相关性能帮你发现线索,但不能直接定罪。
# 8. 相关性
cor(mtcars$mpg, mtcars$hp) # Pearson相关系数
cor.test(mtcars$mpg, mtcars$hp) # 相关性检验# 相关性矩阵
cor_matrix <- cor(mtcars)
library(corrplot)
corrplot(cor_matrix, method = "circle")
第三章:统计推断篇
9. 假设检验 - Hypothesis Testing
- 详解:一个严谨的“法庭审判”流程,用于判断一个发现是真实的还是偶然的。
- 原假设 - Null Hypothesis:默认的“无罪”假设,通常表示“没有效果”、“没有差异”。
- 备择假设 - Alternative Hypothesis:我们希望证实的“有罪”假设,表示“有效果”、“有差异”。
- 生动评语:我们永远不直接“证明”备择假设,而是看证据是否足够“拒绝”原假设。就像法庭上,我们证明的是“ beyond a reasonable doubt (超出合理怀疑)”,而非100%确定。
10. P值 - P-value
- 详解:在原假设为真的前提下,观察到当前样本数据或更极端数据的概率。
- 决策规则:如果P值很小(通常<0.05),我们就拒绝原假设。
- 生动评语:P值就是“巧合的概率”。
- 你发现新药A比旧药B效果好,P值=0.03。
- 这意味着:如果新药A其实根本无效(原假设为真),那么你观察到这次实验结果的概率只有3%。
- 这个概率太小了,所以我们更愿意相信不是巧合,而是新药A真的有效!P值越小,巧合的可能性越低,你的发现就越可靠。
# 9-10. 假设检验和P值
# 单样本t检验:检验mpg均值是否等于20
t.test(mtcars$mpg, mu = 20)# 两样本t检验:4缸 vs 非4缸车的mpg
t.test(mpg ~ I(cyl == 4), data = mtcars)
R语言~T检验
11. 置信区间 - Confidence Interval
- 详解:对总体参数(如均值)的一个区间估计。我们通常说“95%置信区间”,意思是:如果我们重复抽样100次,构造100个这样的区间,那么大约有95个会包含真实的总体参数。
- 生动评语:置信区间是一个“网”,而不是一个“点”。
- 点估计:“美国人的平均身高是175cm。”(这个单一的值很可能不准)
- 区间估计:“我们有95%的把握,美国人的平均身高在173cm到177cm之间。”这个区间给出了估计的精确程度,比一个孤零零的数字信息量大多了。
# 11. 置信区间
# 计算mpg均值的95%置信区间
t_test_result <- t.test(mtcars$mpg)
t_test_result$conf.int# 方差分析 (ANOVA)
anova_result <- aov(mpg ~ factor(cyl), data = mtcars)
summary(anova_result)
第四章:模型与评估篇
12. 过拟合 - Overfitting vs. 欠拟合 - Underfitting
- 欠拟合:模型太简单,连训练数据中的基本规律都没学好。好比学生连课本基础知识都没掌握。
- 过拟合:模型太复杂,把训练数据中的噪声和细节都当成了规律来学习。好比学生死记硬背了所有习题甚至错误答案,一遇到新题型就傻眼。
- 生动评语:机器学习的目标是找到“泛化能力”最好的模型,即在新数据上表现好。这需要在简单(可能欠拟合)和复杂(可能过拟合)之间找到“甜蜜点”。
model <- lm(mpg ~ hp + wt + factor(cyl), data = mtcars)
summary(model) # 查看系数、R平方、P值等
R语言模型分析(一)
13. 训练集 - Training Set / 测试集 - Test Set
- 训练集:用于“教导”模型的数据,模型从中学习规律。
- 测试集:用于“期末考试”的数据,全程不参与训练,用于公正地评估模型的真实水平。
- 生动评语:绝对不能用教辅(训练集)来当高考试卷(测试集)!否则就是作弊,你得到的将是虚假的高分(过拟合的假象)。
# 13. 训练集和测试集划分
set.seed(123) # 设置随机种子确保可重复性
train_indices <- sample(1:nrow(mtcars), 0.7 * nrow(mtcars))
train_data <- mtcars[train_indices, ]
test_data <- mtcars[-train_indices, ]
14. 交叉验证 - Cross-Validation
- 详解:一种更强大、更充分地利用数据评估模型的方法。最常用的是K折交叉验证:将数据分成K份,轮流将其中1份作为测试集,其余K-1份作为训练集,最后取K次评估结果的平均值。
- 生动评语:如果把一次“训练集-测试集”拆分比作一次模拟考,那K折交叉验证就是进行了K轮不同出题范围的模拟考,最后取平均分。这个分数更能反映你的真实(泛化)水平,结果非常稳健。
# 14. 交叉验证
library(caret)
# 设置10折交叉验证
train_control <- trainControl(method = "cv", number = 10)
# 训练线性回归模型
cv_model <- train(mpg ~ hp + wt, data = mtcars, method = "lm", trControl = train_control)
cv_model
15. 分类模型评估指标
- 准确率 - Accuracy:猜对的样本占总样本的比例。在类别不平衡时容易误导人(比如99%是好瓜,1%是坏瓜,一个把所有瓜都预测为“好”的模型也有99%的准确率,但对找坏瓜毫无用处)。
- 精确率 - Precision:在所有预测为真的样本中,真正是真的比例。“宁缺毋滥”。关注的是预测结果的准确性。
- 召回率 - Recall:在所有实际为真的样本中,被预测为真的比例。“宁可错杀”。关注的是找出所有正例的能力。
- F1分数 - F1-Score:精确率和召回率的调和平均数,是二者的平衡。
- 生动评语:以“抓小偷”为例:
- 精确率:你抓来的人里,真正是小偷的比例。越高,说明你不错抓好人。
- 召回率:所有小偷里,被你抓到的比例。越高,说明漏网之鱼越少。
- 业务决定侧重:如果误抓成本高(如金融风控),优先保证高精确率。如果漏掉成本高(如癌症筛查),优先保证高召回率。
# 15. 分类模型评估(以逻辑回归为例)
# 创建二分类问题
mtcars$high_mpg <- ifelse(mtcars$mpg > 20, 1, 0)# 逻辑回归模型
logit_model <- glm(high_mpg ~ hp + wt, data = mtcars, family = "binomial")
predictions <- predict(logit_model, type = "response")
pred_class <- ifelse(predictions > 0.5, 1, 0)# 混淆矩阵
library(caret)
confusionMatrix(factor(pred_class), factor(mtcars$high_mpg))# 精确率、召回率、F1分数
library(MLmetrics)
Precision(y_true = mtcars$high_mpg, y_pred = pred_class)
Recall(y_true = mtcars$high_mpg, y_pred = pred_class)
F1_Score(y_true = mtcars$high_mpg, y_pred = pred_class)
第五章:高级技术篇
16. 正则化 - Regularization
- 详解:为了防止过拟合,在模型损失函数中加入一个“惩罚项”,限制模型参数不要变得过大。
- 生动评语:正则化就是给模型戴上“紧箍咒”。
- 没有正则化:模型可以随心所欲地调整系数,容易变得复杂而过拟合。
- 有正则化:告诉模型,“你可以学习,但不能学得太‘偏’、太‘怪’,要简洁优雅。”这迫使模型抓住主要矛盾,忽略噪声。
17. Lasso vs. 岭回归 - Lasso vs. Ridge Regression
- Lasso回归:使用L1惩罚,可以将不重要的特征系数压缩至0,从而实现特征选择。
- 岭回归:使用L2惩罚,可以使特征系数变小但不会为0,所有特征都保留在模型中。
- 生动评语:想象你在收拾行李箱:
- 岭回归:你把所有衣服(特征)都带上,但每件都用力压一压(缩小系数),让箱子还能关上。
- Lasso回归:你果断地把一些不重要的衣服(特征)扔出箱子(系数归零),只带最重要的。当你怀疑很多特征没用时,Lasso是更好的选择。
18. 决策树 - Decision Tree
- 详解:一种模拟人类决策过程的树形模型,通过一系列“如果…那么…”的问题进行预测。
- 生动评语:决策树就像玩“20个问题”猜东西游戏。“是动物吗?” -> “是” -> “会飞吗?” -> … 它非常直观,容易解释,这也是它最大的优点。
19. 随机森林 - Random Forest
- 详解:集成学习方法。构建多棵决策树,并通过投票(分类)或平均(回归)得到最终结果。
- 生动评语:“三个臭皮匠,顶个诸葛亮”。随机森林就是打造一支“决策树委员会”。每棵树可能在数据的不同部分、不同特征上训练,可能各有偏颇。但当它们集体投票时,就能抵消个别树的错误,做出更稳健、更准确的决策。它是目前最强大、最常用的“开箱即用”算法之一。
太好了!让我们继续扩展数据分析的宇宙,加入更多高级且实用的概念,保持同样的详细程度和生动评语。
第六章:数据工程与预处理
20. 数据清洗 - Data Cleaning
- 详解:处理数据中的不完整、错误或不一致的部分,包括处理缺失值、异常值、重复值等。
- 生动评语:数据清洗就像给食材洗菜、去泥沙、摘掉烂叶。不洗干净,再好的厨师也做不出美味的菜(模型)。这是最耗时但最基础的一步。
21. 缺失值 - Missing Values
- 详解:数据集中某些字段没有值。处理方式包括删除、用均值/中位数/众数填充(Imputation)、使用模型预测等。
- 生动评语:缺失值就像拼图缺了几块。你可以选择忽略(删除)、用类似颜色补上(填充)、或者根据周围图案推测(模型预测),但无论如何,都会影响最终画面的完整性。
22. 异常值 - Outliers
- 详解:与大多数数据点明显不同的值。可能是由于错误(如记录错误)或真实情况(如亿万富翁的收入)。
- 生动评语:异常值就像人群中的姚明。你需要判断他是穿了高跟鞋(数据错误)还是真的就这么高(真实现象)。不能一概而论,要结合业务背景判断是否剔除。
23. 数据标准化 - Standardization / 归一化 - Normalization
- 标准化:将数据按均值为0、标准差为1进行缩放。
- 归一化:将数据缩放到[0,1]区间。
- 生动评语:当特征量纲不同时(如年龄和收入),就像让一个用米尺和一个用厘米尺的人比身高。标准化/归一化就是统一单位,让模型更公平地对待每个特征。
24. 特征工程 - Feature Engineering
- 详解:利用领域知识从原始数据中提取特征,使机器学习算法更好工作。包括创建新特征、变换特征等。
- 生动评语:特征工程是机器学习中的"炼金术"。它把原始数据(矿石)通过组合、拆分、变换(如将日期变为星期几)变成对模型更有效的特征(黄金)。一个好的特征工程能极大提升模型性能。
25. 独热编码 - One-Hot Encoding
- 详解:将分类型变量转换为二进制向量表示。例如,颜色(红、绿、蓝)变为三个特征:是红吗?是绿吗?是蓝吗?
- 生动评语:独热编码就像给类别分配独立的开关。每个类别都有一个开关,只有对应的那个会亮起(值为1),其他都是关闭(值为0)。这样模型就能理解这些类别是独立的,没有顺序关系。
第七章:机器学习进阶
26. 监督学习 - Supervised Learning
- 详解:使用带有标签的数据训练模型,模型学习从输入到输出的映射。包括回归和分类。
- 生动评语:监督学习就像有答案的学习。老师(训练数据)给你题目(特征)和答案(标签),你通过练习学会了解题方法(模型)。
27. 无监督学习 - Unsupervised Learning
- 详解:使用没有标签的数据,模型自行发现数据中的模式。包括聚类、降维等。
- 生动评语:无监督学习就像没有答案的探索。给你一堆东西(数据),让你自己找出其中的规律(聚类)或简化描述(降维)。
28. 聚类 - Clustering
- 详解:将数据分成不同的组,使得同一组内的数据点彼此相似,不同组的数据点不相似。
- 生动评语:聚类就是"物以类聚,人以群分"。比如将客户分成不同群体,以便针对每个群体制定营销策略。
29. 降维 - Dimensionality Reduction
- 详解:减少特征的数量,同时尽可能保留重要信息。常用方法有主成分分析(PCA)、t-SNE等。
- 生动评语:降维就像给数据"瘦身"。把高维数据投影到低维空间,便于可视化或去除噪声。就像把三维地球仪展开成二维地图,虽然失真但更易用。
30. 主成分分析 - Principal Component Analysis
- 详解:一种常用的降维方法,通过线性变换将原始特征转换为一组各维度线性无关的特征(主成分),并按方差大小排序。
- 生动评语:PCA就像找拍照的最佳角度。它找到数据中方差最大的方向(主要信息),然后依次找与之正交的次大方向,从而用更少的维度保留最多的信息。
31. 梯度提升树 - Gradient Boosting Machines
- 详解:一种集成学习方法,通过 sequentially 构建一系列弱模型(通常是决策树),每个新模型都试图修正前一个模型的错误。
- 生动评语:梯度提升就像"吃一堑,长一智"。每犯一个错误(预测误差),就重点学习如何纠正这个错误,通过不断迭代,模型越来越聪明。
32. 支持向量机 - Support Vector Machine
- 详解:一种分类模型,试图找到一个超平面,使得不同类别之间的间隔(margin)最大。
- 生动评语:SVM就像在两国之间划界,不仅要边界线正确,还要让边界线离两国都尽可能远(最大间隔),这样即使有新的点靠近边界,也不容易误判。
第八章:模型评估与调优
33. 混淆矩阵 - Confusion Matrix
- 详解:一个表格,用于展示分类模型预测结果与真实情况的对比。包括真正例、假正例、真负例、假负例。
- 生动评语:混淆矩阵是分类模型的"成绩单",清晰地列出了哪些猜对了,哪些猜错了。它是计算精确率、召回率等指标的基础。
34. ROC曲线 - ROC Curve
- 详解:接收者操作特征曲线,展示在不同分类阈值下,模型的真阳性率(召回率)和假阳性率之间的权衡。
- 生动评语:ROC曲线就像模型判断能力的"试金石"。曲线下的面积(AUC)越大,说明模型整体性能越好。一条对角线(AUC=0.5)表示模型没有分辨能力(随机猜测)。
35. AUC - Area Under the ROC Curve
- 详解:ROC曲线下的面积,用于衡量分类模型整体性能。AUC越接近1,模型越好。
- 生动评语:AUC可以理解为:随机抽取一个正样本和一个负样本,模型将正样本预测为正的概率高于负样本的概率。AUC=0.9意味着有90%的把握模型能正确区分正负样本。
36. 超参数调优 - Hyperparameter Tuning
- 详解:调整模型训练前设置的参数(超参数),以优化模型性能。常用方法有网格搜索、随机搜索、贝叶斯优化等。
- 生动评语:超参数就像模型的"旋钮",你需要调整到合适的位置,模型才能发挥最佳性能。调参就是寻找最佳组合的过程,既是一门科学也是一门艺术。
37. 网格搜索 - Grid Search
- 详解:一种超参数调优方法,遍历给定参数网格的所有组合,通过交叉验证选择最佳组合。
- 生动评语:网格搜索就像"地毯式搜索",确保不遗漏任何可能的好组合,但计算成本高,尤其当参数多时。
38. 随机搜索 - Random Search
- 详解:从参数空间中随机抽取组合进行尝试。相比网格搜索,有时能以更少的尝试找到良好参数。
- 生动评语:随机搜索就像"抽奖",运气好时很快找到好参数,尤其当有些参数对结果影响不大时,它比网格搜索更高效。
第九章:业务与可视化
39. 业务智能 - Business Intelligence
- 详解:利用数据分析和可视化工具帮助企业做出决策的技术和流程。
- 生动评语:BI就是把原始数据变成"商业洞察"的翻译官,让决策者一眼看懂公司运营状况。
40. 仪表盘 - Dashboard
- 详解:将多个关键指标和可视化图表集中在一个界面,用于监控业务状态。
- 生动评语:仪表盘就像汽车的"仪表盘",速度、油量、转速一目了然,让司机(管理者)实时掌握车辆(企业)运行状况。
41. A/B测试 - A/B Testing
- 详解:一种对比两个版本(A和B)以确定哪个性能更好的实验方法。通常用于网页设计、营销活动等。
- 生动评语:A/B测试就是"赛马机制"。让两个方案同时跑,用真实数据说话,避免拍脑袋决策。
42. 关键绩效指标 - Key Performance Indicator
- 详解:用于衡量业务表现的关键指标。如用户增长率、客户流失率、转化率等。
- 生动评语:KPI就是业务的"成绩单",告诉你做得好还是不好。选对KPI就像选对考试科目,至关重要。
43. 数据可视化 - Data Visualization
- 详解:用图表、图形等视觉方式展示数据,帮助人们理解数据中的模式和趋势。
- 生动评语:“一图胜千言”。好的可视化能瞬间揭示数据背后的故事,是沟通分析结果最有力的工具。
第十章:深度学习与大数所
44. 神经网络 - Neural Network
- 详解:受人脑启发的计算系统,由互连的节点(神经元)组成,能够学习复杂的非线性关系。
- 生动评语:神经网络就像"儿童学认猫"。一开始乱猜,每次被告知对错后,就调整内部连接(权重)。经过成千上万次练习,它就能准确认出各种猫了。
45. 深度学习 - Deep Learning
- 详解:使用多层神经网络的机器学习方法,能够自动学习数据的层次化特征表示。
- 生动评语:深度学习是神经网络的"升级版"。就像剥洋葱,每一层学习不同抽象级别的特征 - 从边缘到形状再到完整物体。
46. 自然语言处理 - Natural Language Processing
- 详解:让计算机理解、解释和生成人类语言的技术。
- 生动评语:NLP就是教计算机"读书识字"。从简单的拼写检查到复杂的聊天机器人,都是NLP的功劳。
47. 大数据 - Big Data
- 详解:指规模巨大、复杂到传统数据处理软件无法处理的数据集。通常用3V描述:Volume(体积)、Velocity(速度)、Variety(多样性)。
- 生动评语:大数据就像海洋,传统数据像游泳池。你无法用游泳池的工具来探索海洋,需要新的船和网(如Hadoop、Spark)。
48. 数据仓库 - Data Warehouse
- 详解:集成的、面向主题的数据集合,用于支持管理决策。
- 生动评语:数据仓库就像企业的"中央图书馆",把各个部门的数据整理归类,方便查询分析,而不是让数据散落在各个"小书店"(业务系统)里。
总结表格:更多核心概念对比
| 术语 | 核心思想 | 优点 | 缺点/注意事项 |
|---|---|---|---|
| 均值 vs 中位数 | 平均 vs 中间 | 均值利用所有数据;中位数抗干扰。 | 均值受异常值影响大。 |
| 标准差 | 衡量波动性 | 量化数据的不确定性。 | 单位与原始数据相同。 |
| 相关性 | 衡量线性关系 | 发现变量间关联。 | 不等于因果! |
| P值 | 巧合的概率 | 量化统计证据的强度。 | 不是发现为真的概率! |
| 训练/测试集 | 模拟考试 | 公平评估模型。 | 单次拆分结果可能不稳定。 |
| 交叉验证 | 多次模拟考 | 评估更稳健,数据利用更充分。 | 计算成本高。 |
| Lasso回归 | L1惩罚,特征选择 | 产生稀疏模型,解释性强。 | 相关变量中只随机选一个。 |
| 随机森林 | 集成学习,集体决策 | 精度高,抗过拟合能力强,开箱即用。 | 模型像黑箱,解释性较差。 |
| 标准化 vs 归一化 | 统一特征量纲 | 使模型训练更稳定,收敛更快。 | 归一化对异常值敏感。 |
| 独热编码 | 处理分类变量 | 避免模型误以为类别有顺序。 | 如果类别很多,会导致特征维度爆炸。 |
| 监督学习 vs 无监督学习 | 有标签 vs 无标签 | 监督学习目标明确;无监督学习探索未知。 | 无监督学习的结果较难评估。 |
| 聚类 | 物以类聚 | 发现数据内在分组。 | 需要预先指定或寻找合适的簇数。 |
| PCA | 降维,保留主要信息 | 去除噪声,减少计算量,便于可视化。 | 转换后的特征失去原始意义。 |
| 梯度提升树 | 序列化学习纠错 | 预测精度高,表现优异。 | 计算开销大,容易过拟合(需谨慎调参)。 |
| ROC曲线 | 展示分类器性能 | 不受类别分布影响,全面评估模型。 | 当类别极度不平衡时,可能过于乐观。 |
| 网格搜索 vs 随机搜索 | 寻找最优超参数 | 网格搜索全面;随机搜索高效。 | 网格搜索耗时长;随机搜索可能错过最优。 |
| 神经网络 | 模拟人脑学习 | 能学习极其复杂的模式。 | 需要大量数据,计算资源大,解释性差(黑箱)。 |
| A/B测试 | 对比实验 | 提供因果证据,决策科学。 | 需要足够的流量和时间,实验设计要严谨。 |
注:学习这些概念的最好方法是在实际项目中遇到它们、使用它们、理解它们。
未完待修改……
