当前位置: 首页 > news >正文

深度学习一些知识点(指标+正则化)

一、数据稀疏性

1. 核心定义

数据集、矩阵或向量中,大多数元素为零(或空值、默认值),仅极少数元素具有非零(或有效)值的特性,是高维、大规模数据的常见属性。

2. 主要类型

  • 比例稀疏性:非零/有效元素占总元素比例极低(通常<1%),如推荐系统用户-物品交互矩阵中99%以上为“未交互”零值。

  • 特征稀疏性:高维特征空间中单个样本多数特征值为零,仅少数有实际取值,如文本词袋模型向量中仅包含词汇表极少数词。

  • 高维稀疏性:数据维度极高(百万级特征)时,即使样本量较大,各维度非零值仍稀疏,如基因数据(十万级基因特征)仅少数基因有表达量。

  • 样本稀疏性:样本空间中有效样本量远小于理论可容纳量,样本点分布稀疏,如图像像素组合空间极大但有效图像样本占比极低。

  • 领域特定稀疏性:不同领域的具体表现,如NLP中的“词汇稀疏性”(多数词出现频率极低)、传感器网络的“观测稀疏性”(多数时间无有效读数)。

3. 量化指标

  • 稀疏度:核心指标,公式为“1 - (非零/有效元素数量 / 总元素数量)”,值越接近1稀疏性越强。

  • 稀疏系数:总元素数量 / 非零元素数量,直观体现“平均多少元素中含1个有效值”。

  • 特征稀疏度(单样本):1 - (单个样本非零特征数 / 总特征数),衡量单样本的稀疏程度。

  • 样本稀疏度(单特征):1 - (单个特征有非零值的样本数 / 总样本数),识别“冷门特征”。

  • 稀疏熵:衡量非零元素分布集中程度,熵低表示非零元素集中,熵高表示分布较均匀。

4. 核心挑战

  • 梯度估计不稳定:少数非零值主导梯度计算,导致模型训练震荡。

  • 特征利用率低:大量零值特征无法为模型提供有效信息,增加计算冗余。

  • 模型泛化风险:稀疏数据易导致模型过拟合到少数非零样本。

二、模型评估指标

1. 分类任务指标

  • 精确率(Precision)定义:预测为正的样本中,实际为正的比例。

  • 公式:Precision = TP / (TP + FP)(TP:真正例,FP:假正例)。

  • 适用场景:需避免“假正例”的场景,如垃圾邮件过滤(避免正常邮件误判)。

召回率(Recall)定义:实际为正的样本中,被预测为正的比例。

公式:Recall = TP / (TP + FN)(FN:假负例)。

适用场景:需避免“假负例”的场景,如医疗诊断(避免漏诊患病者)。

F1分数定义:精确率与召回率的调和平均数,综合两者性能。

公式:F1 = 2×(Precision×Recall)/(Precision+Recall),取值0-1,越接近1越好。

适用场景:精确率与召回率需平衡的场景。

ROC曲线 & AUC值ROC曲线:以假正例率(FPR)为横轴,真正例率(TPR=Recall)为纵轴的曲线。

AUC值:ROC曲线下的面积,取值0.5-1,0.5为随机猜测,越接近1区分能力越强。

适用场景:正负样本不平衡的通用评估场景。

准确率(Accuracy)定义:预测正确的样本占总样本的比例。

公式:Accuracy = (TP + TN)/(TP + TN + FP + FN)(TN:真负例)。

局限性:正负样本不平衡时失效,如患病样本占1%时,全预测为健康仍有99%准确率。

2. 回归任务指标

  • 均方误差(MSE)定义:预测值与真实值差值的平方和均值。

  • 公式:MSE = (1/n)×Σ(y_i - ŷ_i)²(y_i:真实值,ŷ_i:预测值,n:样本数)。

  • 特点:对异常值敏感,异常值的平方会放大误差。

  • 适用场景:异常值会导致严重损失的场景,如股价预测。

平均绝对误差(MAE)定义:预测值与真实值差值的绝对值均值。

公式:MAE = (1/n)×Σ|y_i - ŷ_i|。

特点:对异常值鲁棒,不会放大误差。

适用场景:异常值影响较小的场景,如日用品销量预测。

决定系数(R²)定义:衡量模型解释数据变异的能力。

公式:R² = 1 - [Σ(y_i - ŷ_i)² / Σ(y_i - ȳ)²](ȳ:真实值均值)。

取值意义:1为完美拟合,0与均值预测效果相当,<0为模型无效。

3. 稀疏数据专属指标

  • 覆盖率定义:有有效交互的元素(如物品、用户)占总元素的比例。

  • 分类:物品覆盖率=有交互记录的物品数/总物品数;用户覆盖率=有交互记录的用户数/总用户数。

  • 适用场景:推荐系统、广告投放等稀疏交互场景,避免模型仅关注热门元素。

低频元素占比定义:出现次数极少的元素(如低频词、冷门物品)占总元素的比例。

适用场景:NLP、推荐系统,评估数据稀疏性对模型学习的影响。

三、正则化方法

1. 核心目的

通过限制模型参数规模或训练过程,缓解过拟合(训练集效果好、测试集效果差)问题,提升模型泛化能力。

2. 常见方法及特点

  • L1正则化原理:在损失函数中加入参数绝对值之和。

  • 公式:Loss = 原始损失 + λ×Σ|w|(λ:正则化强度,w:模型参数)。

  • 特点:使部分参数变为0,实现“自动特征选择”,精简模型。

  • 适用场景:高维稀疏数据,如文本分类、基因数据建模。

L2正则化(权重衰减)原理:在损失函数中加入参数平方和。

公式:Loss = 原始损失 + λ×Σw²。

特点:仅使参数值变小,不产生零值,计算简单,梯度易求解。

适用场景:通用场景,尤其图像、语音等稠密数据建模。

Dropout原理:训练时随机“关闭”部分神经元(按概率p置零输出),测试时恢复所有神经元并调整权重。

特点:模拟“多模型集成”效果,避免神经元过度依赖特定输入,实现简单且效果显著。

适用场景:CNN、MLP、Transformer等各类深度模型,默认 dropout 概率0.5。

早停(Early Stopping)原理:训练过程中监控验证集损失,当验证集损失连续k轮(如10轮)不再下降时,提前停止训练。

特点:无需修改损失函数,无额外计算成本,易实现。

适用场景:所有模型训练,尤其小数据集场景。

数据增强原理:通过对训练数据进行人工扩充(如图像旋转、裁剪、文本同义词替换),增加样本多样性。

特点:从数据层面缓解过拟合,与其他正则化方法互补。

适用场景:图像、文本等数据易扩充的场景。

http://www.dtcms.com/a/524766.html

相关文章:

  • 企业官方网站建设的作用仿牌 镜像网站
  • java实现多线程分片下载超大文件,支持HTTPS。
  • 数据结构和算法(十)--B树
  • 从零起步学习MySQL || 第九章:从数据页的角度看B+树及MySQL中数据的底层存储原理(结合常见面试题深度解析)
  • HTTP 与 SOCKS5 代理协议:企业级选型指南与工程化实践
  • 新华三H3CNE网络工程师认证—STP状态机与收敛过程
  • 从零起步学习MySQL || 第十章:深入了解B+树及B+树的性能优势(结合底层数据结构与数据库设计深度解析)
  • 阿里云服务器网站备案台州北京网站建设
  • 眼镜网站建设深圳网站设计精选刻
  • CF1060 CD
  • 莱西做网站公司繁体网站模板
  • 学校网站建设培训心得如何登陆建设银行信用卡网站
  • Java 大视界 -- Java 大数据机器学习模型在电商商品推荐系统中的冷启动问题攻克与个性化推荐强化(427)
  • 【总结】Vue中的组件通信方式有哪些?React中的组件通信方式有哪些?
  • 外贸网站优化推广手工制作大全折纸
  • 华为一站式服务建站视觉设计案例
  • 前端大文件分片上传
  • webrtc代码走读(四)-QOS-NACK实现-发送端
  • 主成分分析(PCA)在计算机图形学中的深入解析与应用
  • Kubernetes:实战Pod共享存储
  • 合肥市建设工程造价管理站网站ps网站背景图片怎么做
  • 5118网站是免费的吗网站如何防止重登录
  • 网络编程实战02·从零搭建Epoll服务器
  • IP数据报分片 题
  • 杭州设计 公司 网站建设适合小企业的erp软件
  • 全面掌握PostgreSQL关系型数据库,创建用户创建数据库操作,笔记09
  • 西安市网站制作公司购物商城排名
  • 思维大反转——往内走如实觉察
  • 计算机视觉——从环境配置到跨线计数的完整实现基于 YOLOv12 与质心追踪器的实时人员监控系统
  • 《商户查询缓存案例》使用案例学习Redis的缓存使用;缓存击穿、穿透、雪崩的原理的解决方式