深度学习一些知识点(指标+正则化)
一、数据稀疏性
1. 核心定义
数据集、矩阵或向量中,大多数元素为零(或空值、默认值),仅极少数元素具有非零(或有效)值的特性,是高维、大规模数据的常见属性。
2. 主要类型
-
比例稀疏性:非零/有效元素占总元素比例极低(通常<1%),如推荐系统用户-物品交互矩阵中99%以上为“未交互”零值。
-
特征稀疏性:高维特征空间中单个样本多数特征值为零,仅少数有实际取值,如文本词袋模型向量中仅包含词汇表极少数词。
-
高维稀疏性:数据维度极高(百万级特征)时,即使样本量较大,各维度非零值仍稀疏,如基因数据(十万级基因特征)仅少数基因有表达量。
-
样本稀疏性:样本空间中有效样本量远小于理论可容纳量,样本点分布稀疏,如图像像素组合空间极大但有效图像样本占比极低。
-
领域特定稀疏性:不同领域的具体表现,如NLP中的“词汇稀疏性”(多数词出现频率极低)、传感器网络的“观测稀疏性”(多数时间无有效读数)。
3. 量化指标
-
稀疏度:核心指标,公式为“1 - (非零/有效元素数量 / 总元素数量)”,值越接近1稀疏性越强。
-
稀疏系数:总元素数量 / 非零元素数量,直观体现“平均多少元素中含1个有效值”。
-
特征稀疏度(单样本):1 - (单个样本非零特征数 / 总特征数),衡量单样本的稀疏程度。
-
样本稀疏度(单特征):1 - (单个特征有非零值的样本数 / 总样本数),识别“冷门特征”。
-
稀疏熵:衡量非零元素分布集中程度,熵低表示非零元素集中,熵高表示分布较均匀。
4. 核心挑战
-
梯度估计不稳定:少数非零值主导梯度计算,导致模型训练震荡。
-
特征利用率低:大量零值特征无法为模型提供有效信息,增加计算冗余。
-
模型泛化风险:稀疏数据易导致模型过拟合到少数非零样本。
二、模型评估指标
1. 分类任务指标
-
精确率(Precision)定义:预测为正的样本中,实际为正的比例。
-
公式:Precision = TP / (TP + FP)(TP:真正例,FP:假正例)。
-
适用场景:需避免“假正例”的场景,如垃圾邮件过滤(避免正常邮件误判)。
召回率(Recall)定义:实际为正的样本中,被预测为正的比例。
公式:Recall = TP / (TP + FN)(FN:假负例)。
适用场景:需避免“假负例”的场景,如医疗诊断(避免漏诊患病者)。
F1分数定义:精确率与召回率的调和平均数,综合两者性能。
公式:F1 = 2×(Precision×Recall)/(Precision+Recall),取值0-1,越接近1越好。
适用场景:精确率与召回率需平衡的场景。
ROC曲线 & AUC值ROC曲线:以假正例率(FPR)为横轴,真正例率(TPR=Recall)为纵轴的曲线。
AUC值:ROC曲线下的面积,取值0.5-1,0.5为随机猜测,越接近1区分能力越强。
适用场景:正负样本不平衡的通用评估场景。
准确率(Accuracy)定义:预测正确的样本占总样本的比例。
公式:Accuracy = (TP + TN)/(TP + TN + FP + FN)(TN:真负例)。
局限性:正负样本不平衡时失效,如患病样本占1%时,全预测为健康仍有99%准确率。
2. 回归任务指标
-
均方误差(MSE)定义:预测值与真实值差值的平方和均值。
-
公式:MSE = (1/n)×Σ(y_i - ŷ_i)²(y_i:真实值,ŷ_i:预测值,n:样本数)。
-
特点:对异常值敏感,异常值的平方会放大误差。
-
适用场景:异常值会导致严重损失的场景,如股价预测。
平均绝对误差(MAE)定义:预测值与真实值差值的绝对值均值。
公式:MAE = (1/n)×Σ|y_i - ŷ_i|。
特点:对异常值鲁棒,不会放大误差。
适用场景:异常值影响较小的场景,如日用品销量预测。
决定系数(R²)定义:衡量模型解释数据变异的能力。
公式:R² = 1 - [Σ(y_i - ŷ_i)² / Σ(y_i - ȳ)²](ȳ:真实值均值)。
取值意义:1为完美拟合,0与均值预测效果相当,<0为模型无效。
3. 稀疏数据专属指标
-
覆盖率定义:有有效交互的元素(如物品、用户)占总元素的比例。
-
分类:物品覆盖率=有交互记录的物品数/总物品数;用户覆盖率=有交互记录的用户数/总用户数。
-
适用场景:推荐系统、广告投放等稀疏交互场景,避免模型仅关注热门元素。
低频元素占比定义:出现次数极少的元素(如低频词、冷门物品)占总元素的比例。
适用场景:NLP、推荐系统,评估数据稀疏性对模型学习的影响。
三、正则化方法
1. 核心目的
通过限制模型参数规模或训练过程,缓解过拟合(训练集效果好、测试集效果差)问题,提升模型泛化能力。
2. 常见方法及特点
-
L1正则化原理:在损失函数中加入参数绝对值之和。
-
公式:Loss = 原始损失 + λ×Σ|w|(λ:正则化强度,w:模型参数)。
-
特点:使部分参数变为0,实现“自动特征选择”,精简模型。
-
适用场景:高维稀疏数据,如文本分类、基因数据建模。
L2正则化(权重衰减)原理:在损失函数中加入参数平方和。
公式:Loss = 原始损失 + λ×Σw²。
特点:仅使参数值变小,不产生零值,计算简单,梯度易求解。
适用场景:通用场景,尤其图像、语音等稠密数据建模。
Dropout原理:训练时随机“关闭”部分神经元(按概率p置零输出),测试时恢复所有神经元并调整权重。
特点:模拟“多模型集成”效果,避免神经元过度依赖特定输入,实现简单且效果显著。
适用场景:CNN、MLP、Transformer等各类深度模型,默认 dropout 概率0.5。
早停(Early Stopping)原理:训练过程中监控验证集损失,当验证集损失连续k轮(如10轮)不再下降时,提前停止训练。
特点:无需修改损失函数,无额外计算成本,易实现。
适用场景:所有模型训练,尤其小数据集场景。
数据增强原理:通过对训练数据进行人工扩充(如图像旋转、裁剪、文本同义词替换),增加样本多样性。
特点:从数据层面缓解过拟合,与其他正则化方法互补。
适用场景:图像、文本等数据易扩充的场景。
