当前位置: 首页 > news >正文

李宏毅机器学习笔记27

目录

摘要

Abstract

1.GPT

2.如何使用GPT

3.Self-supervised learning扩展


 

 

 

 

摘要

本篇文章继续学习李宏毅老师2025春季机器学习课程,学习内容是self-supervised learning GPT系列相关概念及self-supervised learning的其他应用

Abstract

1.GPT

self-supervised learning除了BERT,还有GPT系列。BERT做的事情是填空题,GPT做的是预测接下来要出现的token是什么。而GPT的模型架构有点像transformer的decoder。

假设训练资料中有一个句子是“台湾大学”,GPT在begin之后,输出一个embedding,接下来根据embbedding去预测下一个token是什么。例如begin之后应该输出“台”,在输入begin,“台”之后输出“湾”等以此类推。在右侧图中,embedding用h表示,通过Linear Transform,再经过一个softmax,得到一个distribution,然后希望与正确答案的cross entropy越小越好。

2.如何使用GPT

举一个例子,GPT如何用在QA问题上,GPT的想法跟BERT不一样。普通要做听力题,首先会有描述部分,然后会给出一个例子说明。

假设GPT需要做翻译,我们首先会有任务描述部分,对应上面正常做听力的例子,然后给出几个范例,接下来就可以让GPT补完,实际在训练时,GPT并没有学到如何做翻译。这个叫做few-shot learning,给出一点例子进行训练,但是不同于普通的few-shot learning,这里面完全没有gradient descent。因此,给出了一个特殊的名字叫做in-context learning。甚至于有一个例子(one-shot learning),或者没有例子(zero0-shot learning)。

在实验中,他们正确率有点低,实验测试了42个任务,纵轴为正确率,横轴代表模型大小。随着模型不断变大,正确率也能打到50%左右。但是有些任务可能怎么学都学不会,例如逻辑推理相关的任务。

3.Self-supervised learning扩展

目前为止,所学习的Self-supervised learning技术都是用在文字上,实际上Self-supervised learning也可以用在语音,影像的应用上也都可以用Self-supervised learning技术。目前的Self-supervised learning的技术非常多,我们所学的BERT和GPT系列都只是Prediction类型的其中一种,还有很多其他类型。

在语音上如何使用BERT?那么我们回想文字的BERT如何训练——讲其中一些文字盖住,那么语音也是同样盖住一些部分,语音也可以预测接下来会出现的内容。

 

 

http://www.dtcms.com/a/507620.html

相关文章:

  • 机器学习作业七
  • openEuler安装jdk,nginx,redis
  • ffmpeg 交叉编译
  • Python编程之面向对象
  • 建设一个网站大概费用门户网站开发工具
  • OpenCV cv::Mat.type() 以及类型数据转换
  • Elasticsearch批量写入50万数据
  • 爬取GitHub开源项目信息并生成词云:从数据抓取到可视化实践
  • 做阀门的网站域名有了怎么建设网站
  • 西安交大Nat. Commun:749.276 cm²认证效率19.50%,通过IEC测试迈向产线
  • 百度站长平台登录网站图片自动轮换怎么做的
  • KuiklyUI 科普:UI 如何映射到 Android View 并完成渲染
  • 【2025-系统规划与管理师】第11章:信息系统治理
  • Python中如何实现数据库迁移
  • 第6部分:使用Netty的常见坑与注意事项
  • 广东企业品牌网站建设价格免费做网站的方法
  • 家政小程序系统开发:打造便捷高效的家政服务平台
  • CVE-2025-57833研究分析
  • 基于西门子proneta软件的网络设备台账自动管理软件
  • 深入大模型-12-Python虚拟环境的管理venv和uv和conda
  • DINOv2分类网络onnxruntime和tensorrt部署
  • 医疗网站建设网站wordpress别名时间戳
  • YOLOv3 深度解析:网络架构、核心改进与目标检测实践
  • 数据防泄露(DLP)综合指南:从基础到实践
  • 福鼎网站开发深圳市工程交易服务网
  • 电厂VR安全事故体验系统:让着火体验从 “看见” 变 “亲历”
  • 万网建设网站wordpress伪静态 page
  • 大模型训练显存优化全方案:ZeRO、Offload与重计算技术对比
  • 推客小程序系统开发:从0技术架构与实现细节深度解析
  • YOLOv4 知识点总结