当前位置: 首页 > news >正文

对“预训练”的理解

预训练有什么用

传统的机器学习是偏数学的,对数据的量不做过多要求,而深度学习的项目通常是有大量的数据可供使用。

在平常的任务或者项目中,我们可能并没有大量数据,只有少量数据,在这时我们就可以通过“借用”有大数据支持的模型的参数,作为基准,这样就能提高效率和准确率。因为他们神经网络的浅层是相似的,也就是说,在任务相似的情况下,可以用已有的模型即“预训练”好的模型参数实现小数据量的模型训练。

预训练可以节省训练时间,和成本。

预训练是什么

通过一个已训练好的模型A,去完成一个小数据量的任务B,前提,任务A和任务B极其相似。

分两步

  • 冻结:浅层参数不变

  • 微调:浅层参数会跟着训练而改变

预训练怎么用

fairseq、transformers库

http://www.dtcms.com/a/47496.html

相关文章:

  • 深入理解Spring @Async:异步编程的利器与实战指南
  • C++核心编程之STL
  • NLP09-拓展1-对比其他分类器(SVM)
  • Android SystemUI开发(一)
  • 【废物研究生零基础刷算法】DFS与递归(二)习题
  • Socket是什么接口
  • ansible自动化运维工具学习笔记
  • 算法-二叉树篇16-合并二叉树
  • 【常见BUG】Spring Boot 和 Springfox(Swagger)版本兼容问题
  • Linux 访问控制列表(ACLs)| getfacl / setfacl | 应用案例
  • 蒙特卡洛方法 估算圆周率、实现定积分
  • 通俗解释机器学习中的召回率、精确率、准确率
  • 详细介绍一下springboot自定义注解的使用方法
  • 【强化学习】Isaac sim 4.5 UI简介
  • [KEIL]单片机技巧 01
  • C#知识|泛型Generic概念与方法
  • 存贮论模型案例与Matlab实现
  • Ubuntu显卡服务器黑屏无响应的维护日志
  • 【Vue3】实现一个高可用的 markdown 显示组件
  • 【C++/数据结构】栈
  • LeetCode 718 - 最长重复子数组
  • VADv2: 基于矢量表征和概率规划的E2E架构
  • 《英雄无敌3:死亡阴影》游戏秘籍
  • 使用sam-vit-base 模型在caltech256 数据集上实现图片召回
  • 算法题笔记(自用)——Python
  • PHP实现国密SM4算法,银行系统加密算法,JAVA和PHP可相互转换(附完整源码)
  • 矩阵基本概念
  • Spring Boot 自定义 Starter 完整实战手册
  • QT:Graphics View的坐标系介绍
  • 消息中间件应用的常见问题与方案?