当前位置: 首页 > wzjs >正文

阿里能帮做网站吗优化网络推广外包

阿里能帮做网站吗,优化网络推广外包,网页版微信文件传输助手,网站开发海报🎯 从零开始训练本地小语言模型:MiniGPT TinyStories(4090Ti) 🧭 项目背景 本项目旨在以学习为目的,从头构建一个完整的本地语言模型训练管线。目标是: ✅ 不依赖外部云计算✅ 完全本地运行…

🎯 从零开始训练本地小语言模型:MiniGPT + TinyStories(4090Ti)

🧭 项目背景

本项目旨在以学习为目的,从头构建一个完整的本地语言模型训练管线。目标是:

  • ✅ 不依赖外部云计算
  • ✅ 完全本地运行(RTX 4090Ti)
  • ✅ 从零构建数据加载、模型结构、训练与推理逻辑
  • ✅ 阶段性掌握 LLM 微调与部署的关键技能

🛠️ 开发环境

项目配置
操作系统Windows 10
GPUNVIDIA RTX 4090Ti
CUDA 驱动版本 12.1(cu121
Python 版本3.10
虚拟环境.venv310(指定 Python 3.10)

📦 项目结构

toy-transformer/
├── data_loader.py        # 加载 TinyStories 数据集
├── model.py              # MiniGPT 模型实现
├── train_resume.py       # 支持断点训练的主循环
├── generate.py           # 推理与生成函数
├── checkpoint_latest.pth # 自动保存的训练权重
├── .venv310/             # 虚拟环境

🧠 技术路线

1. 数据加载

  • 使用 HuggingFace datasets 加载 TinyStories
  • Tokenizer 使用 GPT-2 默认分词器
  • 启用 paddingtruncation,统一 max_length=128

2. 模型构建

  • 自定义实现 MiniGPT

    • 小型 Transformer(Embedding + 多层 Self-Attention + Linear head)
    • 使用 GPT-2 的 vocab
    • 无 pretraining,全从零学起

3. 模型训练

  • 使用 torch.nn.CrossEntropyLoss,忽略 pad_token_id
  • 优化器为 AdamW
  • 使用 PyTorch AMP (torch.amp.autocast) 启用混合精度
  • 使用 GradScaler 动态控制精度
  • 使用 tqdm 进度条显示训练状态
  • 支持自动保存断点(checkpoint_latest.pth

4. 推理逻辑

  • 自定义 generate_text() 实现逐 token 自回归生成
  • 使用 softmax + sampling,多轮测试发现 collapse 问题

✅ 成果展示

训练状态

  • 成功训练了 10000 steps,loss 降至 0.05 以下
  • 支持断点恢复训练,训练速度约 25 it/s

在这里插入图片描述

推理结果(初步)

在这里插入图片描述

Prompt: "Once upon a time"
Output: time time time time time time...

Prompt: "Deng Chao is"
Output: is is is is is is is is is...

🚨 模型已出现 token collapse 问题(复读)——为后续结构调整和防过拟合提供重要依据。


🚧 存在问题与后续优化

问题原因计划
文本输出高度重复模型 collapse,过拟合高频 token使用 dropout,top-k sampling,减少训练步数
模型容量不足结构太小,表达力差增加 embedding 和层数;或微调现成模型
学不到语义没有预训练语料带来的 inductive bias尝试 distilgpt2 + TinyStories 微调

📅 今日工作小结

  • ✅ 成功建立 GPU 环境并启用 CUDA(Python 3.10 + PyTorch cu121)
  • ✅ 完整实现数据加载、tokenizer、模型结构与训练管线
  • ✅ 训练了 10000 steps,保存了断点模型
  • ✅ 实现推理接口并测试多个 prompt
  • ✅ 发现模型陷入 token collapse,为后续优化积累经验

🚀 明日计划

  • 替换 softmax 采样为 top-k + temperature 采样,缓解 collapse
  • 加入 dropout / layernorm 防止模型坍缩
  • 尝试使用 distilgpt2 微调,比较从零训练 vs 微调效果
  • 训练可视化(tensorboard / wandb)

🧨 本地语言模型训练踩坑记录(2025.05)


🧱 环境搭建相关

❌ 坑 1:安装了 PyTorch,但无法使用 CUDA

  • 表现torch.cuda.is_available() 返回 False,训练跑在 CPU 上,GPU 利用率为 0%

  • 原因:初始环境为 Python 3.13,而 PyTorch GPU 版本不支持该版本

  • 解决方案

    1. 安装 Python 3.10(py -3.10

    2. 使用 python3.10 -m venv .venv310 创建虚拟环境

    3. 使用官方源安装支持 CUDA 的 PyTorch:

      pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
      

🧪 数据处理与训练相关

❌ 坑 2:模型在 GPU 上训练速度不升反降

  • 表现:CUDA 激活后训练反而更慢

  • 原因:虽然模型 to(device),但输入数据没有显式 .to(device)

  • 解决方案

    • 使用:

      input_ids = batch["input_ids"].to(device)
      

      而不是:

      batch["input_ids"].to(device)  # ⚠ 无效!
      

❌ 坑 3:tqdm 报错 IProgress not found

  • 表现:使用 from tqdm.notebook import tqdm 报错

  • 解决方案

    • 快速替换为:

      from tqdm import tqdm
      
    • 或安装依赖:

      pip install ipywidgets
      jupyter nbextension enable --py widgetsnbextension
      

📦 模型训练相关

❌ 坑 4:训练 loss 降不下来 or 降到 0.0000 太快

  • 表现:训练 1 个 epoch 后 loss ≈ 0,后续 epoch 训练跳过

  • 原因:训练步数被 step_count >= max_steps 提前终止,epoch 实际未执行

  • 解决方案

    • 使用 total_step 替代 step_count 并每轮累加
    • 或改为基于 max_epochs 控制训练轮数

❌ 坑 5:训练后模型生成“词语复读机”(collapse)

  • 表现:生成 output 全是 "time time time...""is is is..."

  • 原因

    • 模型太小,表达能力差
    • 学习率太大或步数太多导致过拟合高频 token
  • 解决方案

    • 启用 dropout 正则
    • 使用 top-k + temperature 控制采样策略
    • 更换为 distilgpt2 微调方案或扩大学习语料

🔐 安全性提示

❌ 坑 6:PyTorch 警告 torch.load() 存在安全隐患

  • 表现:加载 checkpoint 时出现 FutureWarning: weights_only=False

  • 解决方案(建议但非必须):

    • 明确添加参数:

      torch.load(checkpoint_path, weights_only=True)
      

http://www.dtcms.com/wzjs/343794.html

相关文章:

  • 网站建设算加工承揽合同吗短链接购买
  • 便宜做网站灵宝seo公司
  • 上海专业网站建电商培训机构排名
  • 做网站要属于无形资产吗百度首页入口
  • 网站模板功能怎样在百度上做广告推广
  • 有没有教做衣服的网站搜索关键词排名
  • 安居客网站是用什么程序做的网络营销和电子商务的区别
  • 与狗做网站军事新闻 今日关注
  • 大网络公司做网站深圳纯手工seo
  • 毕业设计做网站论文好写吗seo快速收录快速排名
  • 个人网站cms搜关键词网站
  • 公司网站建立网站制作的流程是什么
  • 个人网站如何做流量建网站一般多少钱
  • 做货代还有什么网站可以加人十大网站平台
  • 中国建设质量协会网站成都高新seo
  • 网站友好度企业培训课程
  • 深圳好的网站建设公司排名北京百度关键词推广
  • 做平面免费接单网站营销型网站建设应该考虑哪些因素
  • 微信朋友圈营销方案站内关键词排名优化软件
  • 网站建设多少钱一个月正规排名网站推广公司
  • 有哪些做微信小游戏的网站营销软件app
  • 注册服务公司流程和费用网站很卡如何优化
  • wap网站建设费用网站宣传文案范例
  • 成都设计院网站seo推广
  • 苏州网站开发公司鹅鹅鹅百度网络营销推广
  • 山东建设银行怎么招聘网站百度推广电话客服24小时
  • 长春老火车站seo服务销售招聘
  • 昆明网站多端小程序设计企业网站优化价格
  • 越秀区营销型网站建设店铺推广引流的方法
  • 内部优惠券网站怎么做简述网络营销的特点