当前位置：首页 > wzjs >正文

deal 网站要怎么做免费推广方法有哪些

wzjs 2025/8/15 2:06:09

deal 网站要怎么做,免费推广方法有哪些,网页制作软件绿色版,微信h5页面制作软件哪个好写在前面 GPT（Generative Pre-trained Transformer）是目前最广泛应用的大语言模型架构之一，其强大的自然语言理解与生成能力背后，是一个庞大而精细的训练流程。本文将从宏观到微观，系统讲解GPT的训练过程，…

写在前面

GPT（Generative Pre-trained Transformer）是目前最广泛应用的大语言模型架构之一，其强大的自然语言理解与生成能力背后，是一个庞大而精细的训练流程。本文将从宏观到微观，系统讲解GPT的训练过程，包括数据收集、预处理、模型设计、训练策略、优化技巧以及后训练阶段（微调、对齐）等环节。

我们将先对 GPT 的训练方案进行一个简述，接着我们将借助 MiniMind 的项目，来完成我们自己的 GPT 的训练。

训练阶段概览

GPT 的训练过程大致分为以下几个阶段：

数据准备（Data Preparation）
预训练（Pretraining）
指令微调（Instruction Tuning）
对齐阶段（Alignment via RLHF 或 DPO）
推理部署（Inference & Serving）

在这里插入图片描述

准备数据

这里我们选择 MiniMind2：104M参数量的，0.1B。
使用数据集如下：
● pretrain_hq
● sft_512
● sft_2048
● dpo

我们对数据进行下载

wget -c 'https://huggingface.co/datasets/jingyaogong/minimind_dataset/resolve/main/dpo.jsonl?download=true'
wget -c 'https://huggingface.co/datasets/jingyaogong/minimind_dataset/resolve/main/sft_2048.jsonl?download=true'
wget -c 'https://huggingface.co/datasets/jingyaogong/minimind_dataset/resolve/main/sft_512.jsonl?download=true'

对应的内容如下：
在这里插入图片描述
下载完毕后如下所示：

预训练

torchrun --nproc_per_node 2 train_pretrain.py --n_layers 16 --dim 768 --use_wandb

继续双卡训练：
在这里插入图片描述
可以看到 LLM总参数量：104.031 百万，最终为 0.1B 模型。

开始预训练，两张卡，各15GB显存。
在这里插入图片描述

sft_512

训练模型

torchrun --nproc_per_node 2 train_full_sft.py --data_path "./dataset/sft_512.jsonl" --n_layers 16 --dim 768 --use_wandb

开始训练：
在这里插入图片描述
占用情况如下所示：

测试模型

python eval_model.py --model_mode 1 --n_layers 16 --dim 768

对应的内容如下所示：
在这里插入图片描述

sft_1024

训练模型

训练之前，我们需要将之前的 pretrained 模型备份一下（防止以后弄错了），然后把刚才训练好的模型修改为 pretrained 的名字。
简言之：在刚才sft_512上训练出来的模型上进行sft_1024的训练

mv full_sft_768.pth pretrain_768.pth

当前模型的列表如下所示：
在这里插入图片描述
此时的 pretrain_768.pth 模型就是刚才在 sft_512 上训练出来的

torchrun --nproc_per_node 2 train_full_sft.py --data_path="./dataset/sft_1024.jsonl" --n_layers 16 --dim 768 --use_wandb

我们继续进行训练，这次任务估计要更久了，需要耐心的等待。
在这里插入图片描述

测试模型

python eval_model.py --model_mode 1 --n_layers 16 --dim 768

测试的执行结果如下所示：
在这里插入图片描述

dpo

在大模型训练中，“DPO” 通常指的是 Direct Preference Optimization（直接偏好优化），这是一种新兴的对齐技术，用于更高效、直接地将大语言模型（LLM）对齐为更符合人类偏好的行为输出方式。它是近年来在人类反馈强化学习（RLHF）之后提出的一种新思路。

DPO 是不使用强化学习（如PPO）的方法，直接用“人类偏好对比数据”来优化语言模型的输出行为，使它更贴合用户期望。

大模型对齐，主要解决两个问题：

输出内容可控、有用、无害；
更符合人类用户的喜好或选择。

RLHF 是当前最流行的对齐技术，如 OpenAI 的 InstructGPT 和 ChatGPT 都用了这一方式。但 RLHF 存在如下问题：

实现复杂（需要 reward model、策略优化器等）；
训练不稳定；
PPO 的超参数难调；
训练代价大。

DPO 的目标：

用一种更简单的方式，实现类似甚至超过 RLHF 的对齐效果。

它解决了什么？

不用再引入复杂的 reward model + PPO；
直接在原始语言模型架构基础上，做最小改动即可实现。

为什么 DPO 有用？

✅ 不需要 reward model；
✅ 不使用强化学习；
✅ 易于实现、可以用常规优化器训练（如 Adam）；
✅ 效果与 PPO 相当或更优；
✅ 可直接用于 decoder-only 架构（如 GPT）；

训练模型

我们训练完了 sft_1024 的数据，接着进行下面的训练即可：

torchrun --nproc_per_node 2 train_dpo.py --n_layers 16 --dim 768 ----batch_size 4 --use_wandb

这里我们需要控制一下 batch_size 的大小，不然会OOM。
在这里插入图片描述
可以看到调整了 batch_size（代码里默认是8），此时调整为4，GPU也基本是要吃满的状态了：

查看全文

http://www.dtcms.com/wzjs/349457.html

江苏建设标准网站如何搭建自己的网站

做网站公司那家好长沙互联网网站建设

宁波网站优化平台百度app安卓版下载

在线制作免费搜索引擎优化的例子

中上网站建设如何进行推广

广东深圳旅游景点宜昌网站seo

高密营销型网站建设河南网站排名

绍兴网站建设方案推广b2b是什么意思

吴兴区建设局网站最近一周的重大热点新闻

python网站开发视频教程seo系统是什么

禁止粘贴的网站互联网广告代理商

购物类网站首页效果图seo网站怎么优化

有人用dw做网站吗免费的h5制作网站

公司做网站好不好全网营销系统怎么样

做网站还得备案网络营销最火的案例

郑州网站建设做推广吗比较好的品牌策划公司有哪些

网站系统繁忙是什么意思seo推广技巧

动态网站开发语言的优势与不足站长推广工具

邯郸互联网公司深圳seo顾问

织梦做双语网站上海seo服务

赣州宏达网站建设目前最新的营销方式有哪些

可以做申论的网站上海排名seo公司

菏泽网站建设推广宁波seo推广咨询

论坛网站建设推广优化指数基金怎么选

cms网站源码如何用html制作网页

如何进行产品开发seo职位

温州seo博客关键词排名优化营销推广

滨州网站建设远洋科技长沙网站推广和优化

林业局网站建设情况报告百度seo2022

上海哪家公司提供专业的网站建设网络营销五个特点

写在前面

训练阶段概览

准备数据

预训练

sft_512

训练模型

测试模型

sft_1024

训练模型

测试模型

dpo

训练模型

相关文章：