当前位置: 首页 > news >正文

【记录】并行运行olmocr把服务器跑崩

目录

  • 一、背景
  • 二、尝试
  • 三、后续

一、背景


之前有一篇博客讲的并行脚本来处理,但发现这个olmocr光多GPU运行不管用,因为只开了一个30024端口,这些8个GPU仍然要争抢一个端口,其实质上还是串行的,那修改的思路就是,我开8个端口,每个端口对应一张卡,那是不是就能够彻底地并行运行了。

二、尝试


对olmocr的源码进行了修改,原先源码中端口是一个全局变量在最开始初始化定义了30024的端口,现在把他给改成可以接受命令行传过来的参数。

在这里插入图片描述
从我们的执行命令中传过去一个端口参数
在这里插入图片描述
执行Python的系统脚本每个GPU的端口是30024+GPUID,同时开8个端口
刚跑起来,发现全部爆满,而且CPU也拉满了,MAX。各项指标都到MAX,感觉到不对劲了,这阵仗我第一次见
在这里插入图片描述
几秒之后就自己断开连接了
在这里插入图片描述
然后我去机房看了一眼,害怕会不会着火,跑的时候我已经闻到焦味了。好吧都是自己吓自己,不过到机房的时候,服务器确实卡死机了,我给他强制关机然后重新启动了。

三、后续

感觉是8个端口,CPU调度资源调不过来了,然后我就减少端口。8个卡两个端口,还是跑不成功
在这里插入图片描述

相关文章:

  • vmware虚拟机突然连不上网
  • EF Core 异步方法
  • 高性能 Android 自定义 View:数据渲染与事件分发的双重优化
  • @Resource 与 @Autowired:Spring 中的依赖注入注解大比拼
  • gz sim机器人SDF模型 [持续更新]
  • trino查询mysql报Unknown or incorrect time zone: ‘Asia/Shanghai‘
  • Maven插件学习(一)——生成可执行的 JAR 文件
  • Redis集群哨兵相关面试题
  • SSM驾校预约管理系统
  • 【开题报告+论文+源码】基于SpringBoot的智能安全与急救知识科普系统设计与实现
  • 字节跳动前端开发实习生面试总结
  • Pytorch学习笔记(一)Learn the Basics - Quickstart
  • 辉视智慧会所:一键“唤”醒高端服务,乐享智慧生活新“声”级!
  • 动态规划 力扣hot100热门面试算法题 面试基础 核心思路 背题
  • 2024Android高频精选面试题讲解,程序人生
  • 协作机械臂需要加安全墙吗? 安全墙 光栅 干涉区
  • docker安装hyperf环境,连接本机redis问题处理
  • 9.4分漏洞!Next.js Middleware鉴权绕过漏洞安全风险通告
  • 多Agent系统,其中用户可以 自由选择不同Agent
  • redis与数据库双写一致性解决方案
  • 武汉大学人民医院招聘/北仑seo排名优化技术
  • 做网站流量怎么赚钱吗/网站优化推广哪家好
  • 做网站商业欺骗赔多少/百度云网盘搜索引擎
  • 学做网站根学ps有前途吗/厦门网
  • 建设网站的基本步骤/成都最新消息今天
  • 西安网站建设专业/网站统计代码