当前位置: 首页 > news >正文

CAU人工智能class7 迁移学习

深度学习自2012年的AlexNet发展以来已经从早期的各自为战,发展到现在的预训练大模型+大小联调(迁移学习)。

迁移学习

在这里插入图片描述
那么在神经网络的训练上,是否也有这种现象呢?
答案是肯定的,目前CNN领域一般在一个已经训练好的预训练模型上根据具体任务再进行微调。

迁移学习放宽了训练数据必须与测试数据独立同分布的假设

因为这种方法侧重的是知识迁移和领域适应,并不依赖于数据的统计特性。

优势

在这里插入图片描述

实现

在这里插入图片描述

微调

微调的核心思想是利用在大规模数据集上预训练一个模型,然后在基于少量的目标域训练样本上对预训练模型的参数进行微调。这种方法在解决小样本应用场景中展现出巨大的潜力。
在这里插入图片描述
在VGG中就有过类似的使用:
在这里插入图片描述
浅层的A层作为预训练,初始化其他模型的参数

微调的几种方式

  • 载入预训练模型后,微调训练所有层的参数
  • 载入预训练模型后, 固定(冻结)前面的卷积层,只训练最后几个全连接层的参数
  • 载入预训练模型后,微调后面的卷积层 + 全连接层

微调 (fine-tuning) 应用场景

在这里插入图片描述

知识蒸馏

让小模型获得大模型的智慧
小模型有部署简单,资源消耗小等优点。

什么是知识蒸馏

将大模型的知识迁移到小模型当中,让小模型模仿大模型

实现

使用软标签

什么是软标签?
在这里插入图片描述
软标签可以保留更多信息,适合作为小模型学习的材料

损失函数

教师在将“知识”传递给学生的过程中,会有一些损失,称为蒸馏损失

因此,学生模型的损失由两部分构成:
总损失 = 蒸馏损失 + 自身模型损失 的加权和

过程

在这里插入图片描述
温度控制
在这里插入图片描述
在softmax中会将占比大的类别会更大,占比小的会更小。也就是说softmax会增大个个选项之间的差距。
而在指数函数中自变量越小,增长的幅度越小,因此可以增大温度来控制各个选项的差距。
在这里插入图片描述

相关文章:

  • 《100天精通Python——基础篇 2025 第5天:巩固核心知识,选择题实战演练基础语法》
  • 第R9周:阿尔茨海默病诊断(优化特征选择版)
  • EditPlus中.nut文件自动完成--acp配置文件解释
  • 数论——同余问题全家桶2 不定方程和同余方程
  • 第三章支线一 ·原能之核:语法起源
  • k8s入门教程(集群部署、使用,镜像拉取失败网络问题排查)
  • 亚矩阵云手机实测体验:稳定流畅背后的技术逻辑​
  • 《二分图最大匹配》题集
  • LLaMA-Factory的5种推理方式总结
  • uniapp 集成腾讯云 IM 富媒体消息(地理位置/文件)
  • CRMEB 框架中 PHP 上传扩展开发:涵盖本地上传及阿里云 OSS、腾讯云 COS、七牛云
  • 【数据分析】R版IntelliGenes用于生物标志物发现的可解释机器学习
  • MongoDB慢查询临时开启方法讲解
  • MongoDB检查慢查询db.system.profile.find 分析各参数的作用
  • web3-基于贝尔曼福特算法(Bellman-Ford )与 SMT 的 Web3 DeFi 套利策略研究
  • 精益数据分析(94/126):30/10/10用户参与法则与定价策略的科学制定
  • MADlib —— 基于 SQL 的数据挖掘解决方案(4)—— 数据类型之矩阵
  • 撰写脚本,通过发布/joint_states话题改变机器人在Rviz中的关节角度
  • Jenkins 工作流程
  • Linux配置yum 时间同步服务 关闭防火墙 关闭ESlinux
  • 网站建设准备工作/seo需要什么技术
  • 郑州网站建设网站推广/网络营销活动策划方案模板
  • 搜狐网站建设/论坛排名
  • 推荐做网站的公司/无锡百度竞价推广
  • 两女互舔互做日美网站/微信引流获客软件
  • 政府门户网站建设合同/没被屏蔽的国外新闻网站