当前位置：首页 > news >正文

大模型笔记1——李宏毅《2025机器学习》第一讲

news 2025/8/3 5:34:15

本篇笔记内容

1、学习本节课需要的前置知识

了解大模型的训练过程：预训练、后训练、强化学习（2024年生成式AI导论前8讲）
了解基础机器学习、深度学习概念（如transformer）（2021年机器学习课程）

2、本节课的大纲

大模型有怎样的行为：
- 思考reasoning
- 使用工具（deepreasearch、使用浏览器、询问人类反馈）
运作机制：
- 人类给定输入，大模型给输出（输入输出可以是文字、语言、图片）
- 生成式AI的基本原理——文字接龙
  - 根据给定的一串token，决定下一个token
  - 输入给定的token，确定输出的一串token，哪个token的概率最大。因为有概率的参与，所以一模一样的输入也会有不一样的输出。
  - 为什么需要深度学习？不精准的比喻是，深度学习可以把输入拆解成为多个步骤，因此相较于一次性计算所有数据，深度学习多层计算拆开后减少运算量，比较简单。
模型是怎样产生出来的
- 神经网络包含“架构”和“参数”两部分，其中架构包含如“神经网络有多少层”等，是人为定义好的，一般说工程师调参就是调整架构。（能调整的架构参数，就叫做超参数。参数，则模型是需要通过训练资料学习的）
- 找出参数过程，就是模型训练，需要大量语料

零、前置准备&课程大纲

一、有什么行为

1）大模型会推理

2）大模型会使用工具

deep research
使用浏览器（操作电脑 open ai operator）
询问人类反馈

二、运作机制

1）给定输入，有输出

输入输出都可以是很复杂的东西，比如文字、图片、声音

2）生成式AI的基本原理——文字接龙

给定一串token，决定下一个token

输入给定的token，输出一串概率分布，确定输出的一串token，哪个token的概率最大。因为有概率的参与，所以一模一样的输入也会有不一样的输出。

为什么需要深度学习，不精准的比喻是，深度学习可以把输入拆解成为多个步骤，因此相较于一次性计算，深度学习比较简单。

如果深度学习的层数不够，也可以用前一个深度学习的输出作为下一个深度学习的输入

三、模型是怎样产生出来的

神经网络包含“架构”和“参数”两部分

其中架构包含如“神经网络有多少层”等，是人为定义好的。

一般说工程师调参就是调整架构。

能调整的架构参数，就叫做超参数。参数，则是模型需要通过训练资料学习的。

找出参数过程，就是模型训练

http://www.dtcms.com/a/310901.html

相关文章：

中科院自动化所机器人视觉中的多模态融合与视觉语言模型综述

【Java】在一个前台界面中动态展示多个数据表的字段及数据

第三阶段—8天Python从入门到精通【itheima】-141节（pysqark实战——数据输入）

True or False? 基于 BERT 学生数学问题误解检测

Python 第一阶段测试题答案及解析

Vuex 4.0：Vue.js 应用的状态管理新篇章

SLAM中的非线性优化-2D图优化之零空间实战（十六）

TiDB 和 MySQL 的迁移过程是什么？会遇到什么问题？怎么解决的？

编译器工作原理的显微镜级拆解

【读代码】 KAG项目：开源知识图谱自动构建与推理平台原理与实践

PYTHON从入门到实践-18Django从零开始构建Web应用

SpringBoot3.x入门到精通系列：2.1 自动配置原理

【软考中级网络工程师】知识点之 VRRP

关于Web前端安全防御CSRF攻防的几点考虑

关于人工智能AI＞ML＞DL＞transformer及NLP的关系

MySQL(173)MySQL中的存储过程和函数有什么区别？

【DeepSeek-R1 】分词系统架构解析

快速了解决策树

API征服者：Python抓取星链卫星实时轨迹

Docker 部署与配置 MySQL 5.7

四、Portainer图形化管理实战与Docker镜像原理

2024年网络安全案例

从数据丢失到动画流畅：React状态同步与远程数据加载全解析

Jotai：React轻量级原子化状态管理，告别重渲染困扰

《深潜React列表渲染：调和算法与虚拟DOM Diff的优化深解》

《React+TypeScript实战：前端状态管理的安全架构与性能优化深解》

Oracle 11g RAC集群部署手册（三）

SQL 四大语言分类详解：DDL、DML、DCL、DQL

Oracle 11g RAC集群部署手册（一）

探索：Uniapp 安卓热更新