当前位置: 首页 > news >正文

用LLama factory时报类似Process 2504721 got signal: 1的解决方法

之前用nohup来远程跑LLama factory微调脚本,是没有问题的,但今天发现运行类似下面这个命令时,

nohup llamafactory-cli train examples/train_qlora/qwen_lora.yaml

只要一关闭ssh session,就会终止训练,报类似:

nohup torch.distributed.elastic.multiprocessing.api.SignalException: Process 2504721 got signal: 1

的错。解决方法其实也很简单,参考了一下下面这些网页:

nohup后台运行命令,关闭shell后进程会终止_nohup 退出服务器后进程消失-CSDN博客

llamafactory大模型微调单卡转多卡出现SignalException: Process 3232810 got signal: 1错误_torch.distributed.elastic.multiprocessing.api.sign-CSDN博客

针对我上面这个命令,解决方法是,首先输入:

nohup llamafactory-cli train examples/train_qlora/qwen_lora.yaml &

然后回车,再在终端里输入exit,然后再关闭ssh session即可。也有朋友说可以用tmux,但是我嫌麻烦就没有尝试:

nohup训练pytorch模型时的报错以及tmux的简单使用 - gy77 - 博客园

就简单总结这么多,主要是现在大模型微调太费事,如果跑了一半出现这种问题真的很让人崩溃。 

相关文章:

  • 基于javaweb的SpringBoot水果生鲜商城系统设计与实现(源码+文档+部署讲解)
  • 645.错误的集合
  • 扩散模型总结
  • resnet网络迁移到昇腾执行(OM上篇)
  • ERP、MES和CRM三大企业系统的详细介绍及对比分析
  • 生成树和VRRP实验
  • 【keil】单步调试
  • python学习笔记(3)——元组
  • 【云服务器】在Linux CentOS 7上快速搭建我的世界 Minecraft Fabric 服务器搭建,Fabric 模组详细搭建教程
  • 2. client.chat.completions.create 简单使用
  • 【C++标准IO库】文件的输入输出
  • 批量合并 PDF 文档,支持合并成单个文档,也支持按文件夹合并 PDF 文档
  • 测试模版12
  • springboot453-基于协同过滤推荐算法的食品推荐系统(源码+数据库+纯前后端分离+部署讲解等)
  • GAMES101-现代计算机图形学入门(Animation/simulation)
  • 16-字符串/贪心-相同的字符串
  • docker启动nacos+redis
  • 每日算法----2716. 最小化字符串长度----2025/03/28
  • Android 系统ContentProvider流程
  • 【Hysteria】部署+测试
  • 金砖国家外长会晤发表主席声明,强调南方国家合作
  • 首映|“凤凰传奇”曾毅:拍电影,我是认真的
  • 马上评丨又见酒店坐地起价,“老毛病”不能惯着
  • 五一假期如何躺赚利息?来看国债逆回购操作攻略
  • 法治日报调查直播间“杀熟”乱象:熟客越买越贵,举证难维权不易
  • 五一期间上海景观照明开启重大活动模式,外滩不展演光影秀