当前位置：首页 > wzjs >正文

国外做的比较好的展台网站自动推广软件

wzjs 2025/8/28 13:18:52

国外做的比较好的展台网站,自动推广软件,开发微信公众号需要多少钱,wordpress 启动流程写在前面 GPT（Generative Pre-trained Transformer）是目前最广泛应用的大语言模型架构之一，其强大的自然语言理解与生成能力背后，是一个庞大而精细的训练流程。本文将从宏观到微观，系统讲解GPT的训练过程，…

写在前面

GPT（Generative Pre-trained Transformer）是目前最广泛应用的大语言模型架构之一，其强大的自然语言理解与生成能力背后，是一个庞大而精细的训练流程。本文将从宏观到微观，系统讲解GPT的训练过程，包括数据收集、预处理、模型设计、训练策略、优化技巧以及后训练阶段（微调、对齐）等环节。

我们将先对 GPT 的训练方案进行一个简述，接着我们将借助 MiniMind 的项目，来完成我们自己的 GPT 的训练。

训练阶段概览

GPT 的训练过程大致分为以下几个阶段：

数据准备（Data Preparation）
预训练（Pretraining）
指令微调（Instruction Tuning）
对齐阶段（Alignment via RLHF 或 DPO）
推理部署（Inference & Serving）

在这里插入图片描述

准备数据

这里我们选择 MiniMind2：104M参数量的，0.1B。
使用数据集如下：
● pretrain_hq
● sft_512
● sft_2048
● dpo

我们对数据进行下载

wget -c 'https://huggingface.co/datasets/jingyaogong/minimind_dataset/resolve/main/dpo.jsonl?download=true'
wget -c 'https://huggingface.co/datasets/jingyaogong/minimind_dataset/resolve/main/sft_2048.jsonl?download=true'
wget -c 'https://huggingface.co/datasets/jingyaogong/minimind_dataset/resolve/main/sft_512.jsonl?download=true'

对应的内容如下：
在这里插入图片描述
下载完毕后如下所示：

预训练

torchrun --nproc_per_node 2 train_pretrain.py --n_layers 16 --dim 768 --use_wandb

继续双卡训练：
在这里插入图片描述
可以看到 LLM总参数量：104.031 百万，最终为 0.1B 模型。

开始预训练，两张卡，各15GB显存。
在这里插入图片描述

sft_512

训练模型

torchrun --nproc_per_node 2 train_full_sft.py --data_path "./dataset/sft_512.jsonl" --n_layers 16 --dim 768 --use_wandb

开始训练：
在这里插入图片描述
占用情况如下所示：

测试模型

python eval_model.py --model_mode 1 --n_layers 16 --dim 768

对应的内容如下所示：
在这里插入图片描述

sft_1024

训练模型

训练之前，我们需要将之前的 pretrained 模型备份一下（防止以后弄错了），然后把刚才训练好的模型修改为 pretrained 的名字。
简言之：在刚才sft_512上训练出来的模型上进行sft_1024的训练

mv full_sft_768.pth pretrain_768.pth

当前模型的列表如下所示：
在这里插入图片描述
此时的 pretrain_768.pth 模型就是刚才在 sft_512 上训练出来的

torchrun --nproc_per_node 2 train_full_sft.py --data_path="./dataset/sft_1024.jsonl" --n_layers 16 --dim 768 --use_wandb

我们继续进行训练，这次任务估计要更久了，需要耐心的等待。
在这里插入图片描述

测试模型

python eval_model.py --model_mode 1 --n_layers 16 --dim 768

测试的执行结果如下所示：
在这里插入图片描述

dpo

在大模型训练中，“DPO” 通常指的是 Direct Preference Optimization（直接偏好优化），这是一种新兴的对齐技术，用于更高效、直接地将大语言模型（LLM）对齐为更符合人类偏好的行为输出方式。它是近年来在人类反馈强化学习（RLHF）之后提出的一种新思路。

DPO 是不使用强化学习（如PPO）的方法，直接用“人类偏好对比数据”来优化语言模型的输出行为，使它更贴合用户期望。

大模型对齐，主要解决两个问题：

输出内容可控、有用、无害；
更符合人类用户的喜好或选择。

RLHF 是当前最流行的对齐技术，如 OpenAI 的 InstructGPT 和 ChatGPT 都用了这一方式。但 RLHF 存在如下问题：

实现复杂（需要 reward model、策略优化器等）；
训练不稳定；
PPO 的超参数难调；
训练代价大。

DPO 的目标：

用一种更简单的方式，实现类似甚至超过 RLHF 的对齐效果。

它解决了什么？

不用再引入复杂的 reward model + PPO；
直接在原始语言模型架构基础上，做最小改动即可实现。

为什么 DPO 有用？

✅ 不需要 reward model；
✅ 不使用强化学习；
✅ 易于实现、可以用常规优化器训练（如 Adam）；
✅ 效果与 PPO 相当或更优；
✅ 可直接用于 decoder-only 架构（如 GPT）；

训练模型

我们训练完了 sft_1024 的数据，接着进行下面的训练即可：

torchrun --nproc_per_node 2 train_dpo.py --n_layers 16 --dim 768 ----batch_size 4 --use_wandb

这里我们需要控制一下 batch_size 的大小，不然会OOM。
在这里插入图片描述
可以看到调整了 batch_size（代码里默认是8），此时调整为4，GPU也基本是要吃满的状态了：

查看全文

http://www.dtcms.com/wzjs/519821.html

做网站的前途推广网络营销案例

深圳软件开发定制公司贺州seo

网站制作公司属于广告发布者吗整站优化方案

艺术网站欣赏网站宣传和推广的方法有哪些

有哪个网站可以做口腔执业助理医师题库网站优化有哪些技巧

bs网站开发招聘长沙电商优化

香港主机做擦边球网站百度搜索关键词热度

佛山网站推广哪家专业seo文章代写一篇多少钱

平湖公司做网站字节跳动广告代理商加盟

品牌策划公司网站网络营销常见术语

为什么网站建设山西搜索引擎优化

东莞建网站公司排名广东病毒感染最新消息

做网站较好的公司安卓手机性能优化软件

如何在百度上添加店铺的位置seo公司网站

威海做网站哪家好个人免费推广网站

wordpress 类似建站域名查询备案

苏州园区代办公司注册seo百科

饿了么网站怎么做的百度知道

个人网页设计html代码实现深圳网站设计十年乐云seo

用软件做网站福州百度关键词优化

建立电子商务网站目的肇庆网站推广排名

王悦做网站十大营销手段

长沙专业网站制作服务价格seo排名优化推广

十堰网站建设哪家好seo建设

网站建设及优化心得体会微博营销策略

手机官方关键词优化推广排名

企业做网站设计的系统优化大师官方下载

规模以上工业企业主营业务收入宁波关键词优化平台

手机版传奇发布网站上海百度关键词搜索推广服务

网站首页布局修改分析影响网站排名的因素

写在前面

训练阶段概览

准备数据

预训练

sft_512

训练模型

测试模型

sft_1024

训练模型

测试模型

dpo

训练模型

相关文章：