当前位置: 首页 > news >正文

Colab——大规模数据集解压问题:Unzip解压不完整/时间过长/强制掉线

   本笔记用于解决Colab挂载Google Drive进行模型训练时,大规模数据集(如:COCO)解压问题——使用unzip命令解压不完整/时间过长/强制掉线:

问题描述

   在使用Google Colab挂载Drive进行模型训练之前,首先需要下载数据集,一般我们会使用wget命令直接从开源数据库下载压缩包,随后进行解压。

   但在Google Colab使用unzip对挂载的Drive当中的超大zip文件进行解压时,往往会出现时间过长而被强制掉线,进而导致各种解压不完整的问题。

解决方案

   之前有博主提出了使用mv命令进行文件传递的解决方案【colab】unzip数据集不完整/出错/时间过长,但是这种方法中使用到的mv命令也会出现时间过长而被强制掉线的情况。

   本博客打算使用文件备份cp命令和增量同步rsync命令,来替换mv命令。步骤如下:

# 将zip文件备份到content(实例的本地磁盘)下,这里unzip速度非常快
!cp /content/drive/MyDrive/example.zip /content

# 执行unzip命令
%cd /content
!unzip example.zip

# 安装增量同步rsync库
!apt-get install rsync -y

# 将解压后的文件夹增量同步至挂载的Google drive
!rsync -ah --progress /content/example/ /content/drive/MyDrive/path/

   此命令测试下来,没有出现被Google colab终止的情况。如果仍然出现被中止的情况的话,直接运行如下命令,将自动继续刚才的解压缩进程:

# 增量同步(跳过已存在且未修改的文件,继续刚才的解压缩进程)
!rsync -ah --progress --ignore-existing /content/example/ /content/drive/MyDrive/path/

相关文章:

  • 树莓派5的供电与启动
  • 测试基础入门
  • Selenium Web UI自动化测试:从入门到实战
  • 操作系统之进程控制
  • Linux | 安装 Samba将ubuntu 的存储空间指定为windows 上的一个磁盘
  • sin、cos、tan、arcsin、arccos、arctan图像
  • Redis的单线程模型与多线程优化
  • QT开发(6)--信号和槽
  • C++::多态
  • 安全守护:反光衣检测技术的革新之路
  • 【MySQL】数据库和表的操作
  • 宝塔平替!轻量级开源 Linux 管理面板 mdserver-web
  • AI代码编辑器:Cursor和Trae
  • Java设计模式
  • Spring6:6 单元测试-JUnit
  • CSS基础知识一览
  • 高级背景抠图工具(python)
  • 第2.3节 Android生成全量和增量报告
  • 2025 cs144 Lab Checkpoint 1小白超详细版
  • 【Linux线程】——线程概念线程接口
  • 钕铁硼永磁材料龙头瞄准人形机器人,正海磁材:已向下游客户完成小批量供货
  • 习近平向多哥新任领导人致贺电
  • 上海静安将发放七轮文旅消费券,住宿券最高满800元减250元
  • 加强战略矿产出口全链条管控将重点开展哪些工作?商务部答问
  • 在稳市场稳预期下,投资者教育给了散户更多底气
  • 上海145家博物馆、73家美术馆将减免费开放