大模型笔记1——李宏毅《2025机器学习》第一讲
本篇笔记内容
1、学习本节课需要的前置知识
- 了解大模型的训练过程:预训练、后训练、强化学习(2024年生成式AI导论前8讲)
- 了解基础机器学习、深度学习概念(如transformer)(2021年机器学习课程)
2、本节课的大纲
- 大模型有怎样的行为:
- 思考reasoning
- 使用工具(deepreasearch、使用浏览器、询问人类反馈)
- 运作机制:
- 人类给定输入,大模型给输出(输入输出可以是文字、语言、图片)
- 生成式AI的基本原理——文字接龙
- 根据给定的一串token,决定下一个token
- 输入给定的token,确定输出的一串token,哪个token的概率最大。因为有概率的参与,所以一模一样的输入也会有不一样的输出。
- 为什么需要深度学习?不精准的比喻是,深度学习可以把输入拆解成为多个步骤,因此相较于一次性计算所有数据,深度学习多层计算拆开后减少运算量,比较简单。
- 模型是怎样产生出来的
- 神经网络包含“架构”和“参数”两部分,其中架构包含如“神经网络有多少层”等,是人为定义好的,一般说工程师调参就是调整架构。(能调整的架构参数,就叫做超参数。参数,则模型是需要通过训练资料学习的)
- 找出参数过程,就是模型训练,需要大量语料
零、前置准备&课程大纲
一、有什么行为
1)大模型会推理
2)大模型会使用工具
- deep research
- 使用浏览器(操作电脑 open ai operator)
- 询问人类反馈
二、运作机制
1)给定输入,有输出
输入输出都可以是很复杂的东西,比如文字、图片、声音
2)生成式AI的基本原理——文字接龙
给定一串token,决定下一个token
输入给定的token,输出一串概率分布,确定输出的一串token,哪个token的概率最大。因为有概率的参与,所以一模一样的输入也会有不一样的输出。
为什么需要深度学习,不精准的比喻是,深度学习可以把输入拆解成为多个步骤,因此相较于一次性计算,深度学习比较简单。
如果深度学习的层数不够,也可以用前一个深度学习的输出作为下一个深度学习的输入
三、模型是怎样产生出来的
神经网络包含“架构”和“参数”两部分
其中架构包含如“神经网络有多少层”等,是人为定义好的。
一般说工程师调参就是调整架构。
能调整的架构参数,就叫做超参数。参数,则是模型需要通过训练资料学习的。
找出参数过程,就是模型训练