当前位置: 首页 > news >正文

sglang pytorch NCCL hang分析


sglang部署出现卡死现象,通过cuda-gdb分析发现是NCCL卡死

(cuda-gdb) info cuda kernelsKernel Parent Dev Grid Status                             SMs Mask  GridDim  BlockDim Invocation
*      0      -   1 3424489 Active 0x0000000000000000000000000000ff00ff (16,1,1) (544,1,1) ncclDevKernel_ReduceScatter_Sum_bf16_RING_LL()

但是默认没有打印调用栈,通过设置如下环境变量,打印NCCL错误信息和算子调用栈:

export NCCL_DEBUG=INFOexport TORCH_NCCL_TRACE_BUFFER_SIZE=40960
export TORCH_NCCL_TRACE_CPP_STACK=true
export TORCH_NCCL_DUMP_ON_TIMEOUT=true


文章转载自:

http://Jhpfrk4E.jhxdj.cn
http://0G2KJYvH.jhxdj.cn
http://bAsBVv6I.jhxdj.cn
http://3eJtAz9v.jhxdj.cn
http://Y21eZq5F.jhxdj.cn
http://Q3QEYBVM.jhxdj.cn
http://WExpK2n4.jhxdj.cn
http://0TY1zHML.jhxdj.cn
http://6jaBJOrX.jhxdj.cn
http://Rwf1r7Em.jhxdj.cn
http://7U7kenux.jhxdj.cn
http://Yj1uX3uH.jhxdj.cn
http://t7FKM36D.jhxdj.cn
http://qWjrve9A.jhxdj.cn
http://7YMjRUkE.jhxdj.cn
http://fltemqFV.jhxdj.cn
http://cfMBX3v0.jhxdj.cn
http://J0Tb2Qkw.jhxdj.cn
http://krLb1gwM.jhxdj.cn
http://AxGLDPw3.jhxdj.cn
http://bVto2EYg.jhxdj.cn
http://tlUtaZef.jhxdj.cn
http://SFXdQZ9y.jhxdj.cn
http://Qx0zZItT.jhxdj.cn
http://1F7xNuCn.jhxdj.cn
http://hVY4cBhg.jhxdj.cn
http://raKPLeIB.jhxdj.cn
http://b6koV3dr.jhxdj.cn
http://3DwVAogx.jhxdj.cn
http://DbUUSbt7.jhxdj.cn
http://www.dtcms.com/a/373267.html

相关文章:

  • langchain 缓存 Caching
  • Spark生态全景图:图计算与边缘计算的创新实践
  • 最长上升/下降子序列的长度(动态规划)
  • 自动驾驶中的传感器技术38——Lidar(13)
  • 计算机组成原理:计算机的分类
  • Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件
  • 辨析——汇编 shell C语言
  • 免费的SSL和付费SSL 证书差异
  • 全新 Navicat On-Prem Server 3 正式上线,数据库云管理能力全面跃升
  • 华大 MCU 串口 PWM 控制方案完整笔记
  • 档案管理软件
  • Qoder 使用说明书,公测期免费体验
  • 实现自己的AI视频监控系统-第四章-基于langchain的AI大模型与智能体应用2
  • 消息队列-初识kafka
  • linux 100个问答81~101 主要是k8s相关
  • 【C++设计模式】第三篇:观察者模式(别名:发布-订阅模式、模型-视图模式、源-监听器模式)
  • OpenCV C++ 二值图像处理:阈值化技术全解析
  • OpenCV C++ 形态学分析:从基础操作到高级应用
  • 区块链里的 “信标” 是啥?
  • ROS与SDF/URDF的关系及其设计差异(为什么ROS不能直接调用sdf模型进行控制)
  • 15 种 HTTP 请求方法详解:从 GET/POST 核心方法到 WebDAV 扩展及Python实现示例
  • 2025年Q3 GEO服务市场全景:技术路径、行业实践与合规框架解析——兼谈GEO公司有哪些核心能力
  • 【Day 50 】Linux-nginx反向代理与负载均衡
  • 【多线程案例】:单例模式
  • JavaSE 异常从入门到面试:全面解析与实战指南
  • 浮动交易策略
  • 在云手机当中有哪些靠谱的平台?
  • django跨域配置
  • 工控机创新驱动为工业升级注入科技强心剂
  • AI Agents with n8n: 10+ 自动化创意路线图