当前位置：首页 > news >正文

CAU人工智能class7 迁移学习

news 2025/8/10 19:01:57

深度学习自2012年的AlexNet发展以来已经从早期的各自为战，发展到现在的预训练大模型+大小联调（迁移学习）。

迁移学习

在这里插入图片描述
那么在神经网络的训练上，是否也有这种现象呢？
答案是肯定的，目前CNN领域一般在一个已经训练好的预训练模型上根据具体任务再进行微调。

迁移学习放宽了训练数据必须与测试数据独立同分布的假设

因为这种方法侧重的是知识迁移和领域适应，并不依赖于数据的统计特性。

优势

在这里插入图片描述

实现

在这里插入图片描述

微调

微调的核心思想是利用在大规模数据集上预训练一个模型，然后在基于少量的目标域训练样本上对预训练模型的参数进行微调。这种方法在解决小样本应用场景中展现出巨大的潜力。
在这里插入图片描述
在VGG中就有过类似的使用：

浅层的A层作为预训练，初始化其他模型的参数

微调的几种方式

载入预训练模型后，微调训练所有层的参数
载入预训练模型后，固定（冻结）前面的卷积层，只训练最后几个全连接层的参数
载入预训练模型后，微调后面的卷积层 + 全连接层

微调 (fine-tuning) 应用场景

在这里插入图片描述

知识蒸馏

让小模型获得大模型的智慧
小模型有部署简单，资源消耗小等优点。

什么是知识蒸馏

将大模型的知识迁移到小模型当中，让小模型模仿大模型

实现

使用软标签

什么是软标签？
在这里插入图片描述
软标签可以保留更多信息，适合作为小模型学习的材料

损失函数

教师在将“知识”传递给学生的过程中，会有一些损失，称为蒸馏损失

因此，学生模型的损失由两部分构成：
总损失 = 蒸馏损失 + 自身模型损失的加权和

过程

在这里插入图片描述
温度控制

在softmax中会将占比大的类别会更大，占比小的会更小。也就是说softmax会增大个个选项之间的差距。
而在指数函数中自变量越小，增长的幅度越小，因此可以增大温度来控制各个选项的差距。
在这里插入图片描述

查看全文

http://www.dtcms.com/a/234506.html

《100天精通Python——基础篇 2025 第5天：巩固核心知识，选择题实战演练基础语法》

第R9周：阿尔茨海默病诊断（优化特征选择版）

EditPlus中.nut文件自动完成--acp配置文件解释

数论——同余问题全家桶2 不定方程和同余方程

第三章支线一 ·原能之核：语法起源

k8s入门教程（集群部署、使用，镜像拉取失败网络问题排查）

亚矩阵云手机实测体验：稳定流畅背后的技术逻辑

《二分图最大匹配》题集

LLaMA-Factory的5种推理方式总结

uniapp 集成腾讯云 IM 富媒体消息（地理位置/文件）

CRMEB 框架中 PHP 上传扩展开发：涵盖本地上传及阿里云 OSS、腾讯云 COS、七牛云

【数据分析】R版IntelliGenes用于生物标志物发现的可解释机器学习

MongoDB慢查询临时开启方法讲解

MongoDB检查慢查询db.system.profile.find 分析各参数的作用

web3-基于贝尔曼福特算法（Bellman-Ford ）与 SMT 的 Web3 DeFi 套利策略研究

精益数据分析（94/126）：30/10/10用户参与法则与定价策略的科学制定

MADlib —— 基于 SQL 的数据挖掘解决方案（4）—— 数据类型之矩阵

撰写脚本，通过发布/joint_states话题改变机器人在Rviz中的关节角度

Jenkins 工作流程

Linux配置yum 时间同步服务关闭防火墙关闭ESlinux

vue3+TS+eslint9配置

如何把本地服务器变成公网服务器？内网ip网址转换到外网连接访问

【 *p取出内容 a得到地址】

vite配置@别名，以及如何让IDE智能提示路经

媒体新闻发稿：选择适合自己的媒体

NVIDIA Dynamo：数据中心规模的分布式推理服务框架深度解析

国芯思辰| AD7894的优质替代方案：SC1424模数转换器在分布式控制系统中的应用优势

分布式Session处理的五大主流方案解析

使用docker 安装Redis 带配置文件(x86和arm)版本

服务器健康摩尔斯电码：深度解读S0-S5状态指示灯

迁移学习

优势

实现

微调

微调的几种方式

微调 (fine-tuning) 应用场景

知识蒸馏

什么是知识蒸馏

实现

使用软标签

损失函数

过程

相关文章：