当前位置: 首页 > news >正文

Deep Dive into LLMs like ChatGPT 学习笔记

视频链接 https://www.youtube.com/watch?v=7xTGNNLPyMI
要点:虽然名字是deep dive,但是属于帮助入门理解大模型。

预训练的data: FineWeb, focus on 英语。15-trillion tokens, 44TB size

训练:0-8000(大概的数) tokens序列作为input(context) ,神经网络预测下一个token的比例。
神经网络的weight初始是随机的。correct answer是label,可以tune网络,让正确结果的probability更高,这就是训练。
神经网络的结构参数可视化:https://bbycroft.net/llm
inference: to generate data, just predict one token at a time. 即使输入一个与训练data里一模一样的sequence,预测结果不一定与training data一样,是inspired by the training data。
推理:just talking to the model。

举例 GPT-2
general propose transformer
1.6 billion 参数
最大1024 token
用100 billion token训练
现在训练的成本变低了:dataset更好了,硬件更好了,软件优化好了。
8XH100 node,需要24hours。
每个step拿1million token去训练。loss:low loss is good

举例 Llama3 by meta 2024
405 billion parameters on 15 trillion tokens
Base模型,internet document simulator,只把你的输入当作prefix。模型的输出是随机。Llama模型有memory,比如输入某个wiki的句子,输出会和wiki剩下的内容一致。模型能记住,通过训练。base模型训练的数据集截至到2023年底。
模型也有in-context learning能力,可以学习prompt的pattern,虽然base模型没办法直接回答你的问题,但是你可以在prompt中模拟人类与AI的对话,在prompt最后问模型你真正想问的问题,那么模型会学习到“回答问题”的pattern。

note:base模型是不是就像这个世界知识的巨大zip文件。
----------------------base模型---------------------

Post-training 时间更少
human与AI之间的对话,人类问问题,AI回答。所以创造对话的数据集,再训练base模型。完全一样的算法和模型,只换数据集。数据集需要人肉、加上LLM辅助。

Hallucinations
训练的时候,有模型不知道的问题,那么答案就是不知道。这样的训练样本可以大概解决这个问题。
如何制造这样的训练集?”我不知道“的训练集合。

knowledge of self
默认模型会输出比较模糊的答案。工程师可以hard code一些对话样本,问题是你是谁之类的,然后模型能正确”认识“自己。

Models need tokens to think 理解能力,解题能力
简单的数学题训练样本。模型总是从左到右读token,好的答案是,先给推理,最后给出答案。如果回答是先给出答案,模型倾向于猜答案,所以是不好的。
给chatgpt提问一个数学题,prompt里加上use code,会给出python代码解题。

模型不擅长拼写?因为单词被tokenize了。不擅长数数。

-------------------强化学习 reinforce learning------------------- SFT模型 supervised finetuning model---------
exposition/background knowledge -> pretraining
worked problems -> supervised finetuning
practice problems -> reinforcement learning
根据给出的各种answer,取最好的正确答案和短的答案,训练。

Deepseek-R1 基于强化学习

http://www.dtcms.com/a/481763.html

相关文章:

  • AI-大模型接入
  • 4.Windows Server 磁盘管理(1)
  • 后端三层架构
  • PyTorch 实现多模型集成与 VGG 在 CIFAR-10 上的应用
  • 网站建设所需费用明细长沙优化官网收费标准
  • NVMe高速传输之摆脱XDMA设计52: 上板资源占用率分析
  • 青岛建网站的公司有哪些wordpress能用手机管理吗
  • 2.游戏中的Buff系统设计
  • 解锁网络性能优化利器HTTP/2C
  • 基于 React + Go + PostgreSQL + Redis 的管理系统开发框架
  • Flink Checkpoint 设计理念深度解析(附源码)
  • 从 TF-IDF 到 Word2Vec:让推荐系统更懂语义
  • 01-ELK安装ES,ES-head
  • OpenCV4-直方图与傅里叶变换-项目实战-信用卡数字识别
  • 医院排班挂号系统小程序
  • 河北建设厅网站打不开是什么原因国际新闻直播
  • C++设计模式_行为型模式_命令模式Command
  • Blender自动化展UV插件 UV Factory 4.3 v1 – Powerful Modular Uv Tools
  • 网络与通信安全课程复习汇总2——信息保密
  • 密码学安全:CIA三元组与三大核心技术
  • 建网站怎么做本地的营销网站建设
  • 短剧分销系统技术拆解:渠道推广码生成、订单归因与实时分账系统实现
  • ​RocketMQ 与 RabbitMQ 全面对比:架构、性能与适用场景解析
  • RabbitMQ 消息可靠投递
  • RabbitMQ全面详解:从核心概念到企业级应用
  • 北京市建设工程第四检测所网站小程序定制开发团队
  • 安徽网站优化flash如何做网页
  • AI文档处理:AI在处理扫描版PDF时准确率低,如何提升?
  • TDengine 数学函数 EXP 用户手册
  • C语言自定义变量类型结构体理论:从初见到精通​​​​​​​(下)