当前位置: 首页 > news >正文

250925-0930技术总结

  • thinking模型的输出时间与输出内容长度有关,变化浮动很大

  • 思考模型的过度思考会消耗大量的资源与推理时间,怎么在训练时减少无效的思考。或者推理时能否通过prompt或者max-token来限制思考过程。

  • qwen-32b的推理时间为什么会比30b-a3b的推理快?但是对于同样的输出,每一次的输出都相同,怎么增加每一次的输出的多样性?

  • 语言模型的推理有时候会非常慢,卡住了一样

  • 语言模型的推理时间好像跟输出token有很大关系,输出越长推理时间越多

  • 在 f-string 内部,当需要表示字符串时,使用与外层 f-string 不同的引号。

f"Error processing item: {e}, {partial_state.process_index}, {item['image']}"
  • 模型输出的时候耗时过长问题:出现幻觉,不停的重复token。还有一种情况像自己进入了think模式一样,会输出think内容与<\think>。耗时也会增加

  • 多卡推理的时候,每张卡跑的速度不一样,有个环境变量会check多卡的通信超时时间,默认是10min。所以不要设置partial_state.wait_for_everyone()这种函数比较好

  • 并行推理训练。数据并行,序列并行。是一种比数据并行更精细的并行策略,特别用于处理超长序列的 Transformer 模型。它将模型的每一层(如 Attention 层、FFN 层)在不同 GPU 上进行切分。例如,一个 Attention 层的查询(Q)、键(K)、值(V)线性投影可以被拆分到不同的 GPU 上计算。

# initialize_sequence_parallel_state(args.sp_size) 会设置好进行这种模型层内切分所需的内部状态。args.sp_size 很可能指定了参与序列并行的 GPU 数量
initialize_sequence_parallel_state(args.sp_size)
  • 并行训练框架**FSDP (Fully Sharded Data Parallel)。**FSDP 的核心思想是:不让每个 GPU 都持有完整的模型副本,而是将模型的参数、梯度和优化器状态切分成多份,让每个 GPU 只持有其中一份。 这样一来,模型大小就不再受单张 GPU 显存的限制,使得在有限的硬件上训练千亿级参数的模型成为可能。
# 1. 创建 FSDP 的配置对象
fsdp_config = FSDPConfig(sharding_strategy="FULL_SHARD",backward_prefetch="BACKWARD_PRE",cpu_offload=False,  num_replicate=1,num_shard=world_size,mixed_precision_dtype=torch.bfloat16,use_device_mesh=False, 
)
  • EMA (Exponential Moving Average) 是一种提升模型性能和稳定性的技术,它会维护一个模型参数的 “影子副本”,这个副本是历史参数的移动平均值。

  • 设置环境变量

os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"
# export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True"
  • FSDP会将模型分片放入每张显卡中,所以卡越多每张卡占用的显存越少,卡少的时候会出现训练显存爆掉的问题。在显存足够的情况下,尽量放到一张卡上,不然会占用更多资源。切片越多显存碎片也会越多

  • torchrun启动命令时,如果是给torchrun使用的必须使用=,如果是给python脚本使用的,推荐使用空格

    torchrun --nproc_per_node=8 \--nnodes=2 \--master_port=${MASTER_PORT} \--master_addr=${MASTER_ADDR} \--node_rank=${RANK} \fastvideo/train_grpo_qwenimage_edit.py \--seed 42 \
    
  • 训练框架 FSDP,deepspeed, torchrun, accelerate, peft

http://www.dtcms.com/a/427638.html

相关文章:

  • AI 重塑实体经济:从技术落地到价值创造的实践路径
  • 认识软件测试
  • 网站服务器数据库湛江网站建设公司哪个好
  • 动手实现简单Vue.js ,探索Vue原理
  • UNIX下C语言编程与实践18-UNIX 文件存储原理:目录、i 节点、数据块协同存储文件的过程
  • 珠宝怎么做网站wordpress 活动报名插件
  • 除自身以外数组的乘积
  • 爬虫逆向--Day25Day26--原型链补环境
  • 拍拍灯电路(用咪头识别拍拍动作)
  • 极限!ubuntu系统联网
  • 第三章 字典与集合
  • 网站设计的价格沪深300指数基金
  • Java-01-基础篇-JDK日志(JUL)
  • (基于江协科技)51单片机入门:7.LED点阵屏
  • 江协科技 CAN总线入门课程(错误处理)
  • 网站的建设与规划方案企业网站建设要素
  • antdv- Tooltip 文字提示组件
  • 算法题(222):摆花
  • 如何向alexa提交网站wordpress custom login
  • SpringCloud电商微服务项目衣拉客搭建指南
  • dev c++工具下载 dev c++安装包下载 dev c++软件网盘资源分享
  • 如何去掉Excel多余空行
  • 房地产网站欣赏万网空间管理
  • 做多语言网站多少钱免费网站安全软件大全下载安装
  • 【密码学实战】openHiTLS X509命令行工具: 数字证书生成与转换
  • 从“减塑”到“降碳”新天力“2R”模式推动行业低碳转型
  • AFSim雷达显控一体化
  • 网站建设类型智盈中心网站建设
  • 零基础从头教学Linux(Day 45)
  • 网站策划方案论文wordpress软件网站模板下载