当前位置: 首页 > news >正文

【大语言模型_6】mindie启动模型错误整理

一、启动报 [hccl_runner.cpp:141] AllGatherHcclRunner:0 HcclCommInitRootInfo fa               il, error:2, rank:0, rankSize:2

背景:运行DeepSeek-R1-Distill-Qwen-14B模型,在2张300 P卡可以运行,单独一张启动报以上错误。

问题分析:hccl在创建通信域时,相应的卡需要分配大约300M的device内存,因此每张卡所在的通信域的数量越多,则额外需要的内存越多,因此会有内存不足的问题。 

参考链接:

分布式并行快问快答来咯!|昇思MindSpore分布式并行FAQ_hccl function error: hcclcomminitrootinfo(numranks-CSDN博客

相关文章:

  • 2025年【安全员-C证】新版试题及安全员-C证理论考试
  • Unity实现连连看连线效果
  • 【大模型系列篇】硅基智能开源数字人模型HeyGem.ai,开启数字人时刻
  • el-table的行向上移动向下移动,删除选定行
  • 网络编程(客户端间通信)
  • numpy学习笔记5:arr.T 是数组的转置属性详细解释
  • AI学习——卷积神经网络(CNN)入门
  • 计算机网络-网络接入技术
  • 【图像处理基石】什么是HDR图片?
  • Git 分支使用规范全解(多人协作开发适用)
  • 火星探测发展概述2025.3.20
  • JAVA序列化与反序列化URLDNS链CC1链
  • 【初学者】谈谈ChatGPT使用的算法?
  • IMX8MP Android 10系统编译SDK
  • LeetCode 30 —— 30.串联所有单词的子串
  • MobaXterm(远程终极工具箱) v25.1 Build 5288 汉化绿色版
  • Rust语言介绍和猜数字游戏的实现
  • Flink集群部署
  • 集装箱箱号OCR识别技术,在铁路物流场站集装箱装卸机械数字化系统中的应用
  • 高级java每日一道面试题-2025年3月05日-微服务篇[Eureka篇]-Eureka在微服务架构中的角色?
  • 古籍新书·2025年春季|中国土司制度史料集成
  • 第二艘国产大型邮轮爱达·花城号完成坞内起浮
  • 柴德赓、纪庸与叫歇碑
  • 103岁抗战老兵、抗美援朝老兵、医学专家张道中逝世
  • 偷拍拷贝某轨道车技术信息后撰写论文发表,工程师被判一年有期徒刑
  • 记录发生真相,南沙岛礁生态调查纪实片《归巢》发布