当前位置: 首页 > news >正文

数据集很大的时候怎么办

首先,为了防止网络原因导致不断重新下载(网络问题暂停下载,然后需要重新下载),可以考虑断点续传机制

curl -C - --retry 100 --retry-delay 30 --retry-max-time 0 --max-time 0 -O "你的完整下载链接"
  • ✅ 命令已启动:curl 正在工作

  • ✅ 断点续传已启用-C - 参数

  • ✅ 无限重试--retry 100 + --retry-max-time 0

  • ✅ 30秒自动重连--retry-delay 30

技术原理:

1. HTTP Range 请求(核心机制)

当curl使用 -C - 参数时,它会向服务器发送这样的请求:

text

GET /video_part_aa
Range: bytes=1024000-

意思是:"请从 1,024,000 字节开始发送文件剩余部分"

2. 服务器支持断点续传

Google Cloud Storage 支持 Range 请求,会响应:

text

HTTP/1.1 206 Partial Content
Content-Range: bytes 1024000-20480000/20480000

然后只发送从断点开始的数据

3. 本地文件记录进度

curl 在下载时:

  • ✅ 检查本地文件大小ls -l video_part_aa 显示已下载多少

  • ✅ 计算剩余字节:文件总大小 - 已下载大小

  • ✅ 从正确位置继续:不会重复下载已存在的部分

其次,主包今天遇到的问题是有一个500+GB的数据集,好心人把它分成了4份,让我分别下载然后cat part* > total.tar.gz" and then unzip the file.

但是主包网速max也只有10+MBps,且存储堪忧,打算下载其中一卷。

由于d卷(最后一卷)最小,主包下载了最后一卷。

but

由图可知,整个文件夹其实是包含一些文件元数据等和文件本身的(也可以由操作系统课程所得)

只下载part d,无法获得文件头部信息,

所以在下载2h的d之后,主包不得不重新花费4h下载part a


The end. Have a nice day.

http://www.dtcms.com/a/594075.html

相关文章:

  • 探索仓颉编程语言:从Hello World到性能实战
  • 潍坊网站制作建设h5网站建设模板下载
  • 【负载均衡】LVS原理与配置
  • 基于SpringBoot+Vue2的美食菜谱美食分享平台
  • 宿州建设公司网站wordpress虚拟模板
  • 算法-哈希表和相关练习-java
  • 新上线的网站怎么做优化asp网站默认后台
  • CSS浮动样式
  • 华能集团网站建设方案项目分析网络优化公司哪家好
  • 做网站有哪些主题wordpress cms
  • k8s中的StatefulSet 控制器
  • web开发,在线%餐饮自动化管理%系统,基于idea,html,css,jquery,jsp,java,jdk,maven,ssm,mysql。
  • 西安网站排名公司门户网站自查报告
  • 网站设计配色案列青岛网站seo推广
  • 蓝牙钥匙 第78次 蓝牙与区块链技术融合:构建去中心化物联网安全新范式
  • Ubuntu Desktop Linux 文件和文件夹操作命令详解
  • 兰州市建设工程招标投标中心网站廊坊网站建设公司费用
  • 【论文调研】NASA任务负荷指数(NASA-TLX)V1.0 总结
  • Spark 中 distribute by、sort by、cluster by 深度解析
  • 外贸网站平台都有哪些平台wordpress安装博客
  • 长春网站建设企业wordpress 取消评论
  • 电商网站设计制作网站建设与设计实习报告
  • C++ 设计模式《业务模块的调度室》
  • 南京电商网站开发网业上有错误怎么解决
  • MongoDB 操作命令
  • python和mongodb交互
  • 网站建设就业前景学校网站建设栏目设置
  • 文心一言5.0 Preview模型能力观察:基于LMArena排名的文本任务实测
  • 2-物理层
  • 数据入仓和数据ETL(七)