当前位置：首页 > news >正文

数据集很大的时候怎么办

news 2025/11/11 11:55:21

首先，为了防止网络原因导致不断重新下载（网络问题暂停下载，然后需要重新下载），可以考虑断点续传机制

curl -C - --retry 100 --retry-delay 30 --retry-max-time 0 --max-time 0 -O "你的完整下载链接"

✅ 命令已启动：curl 正在工作
✅ 断点续传已启用：-C - 参数
✅ 无限重试：--retry 100 + --retry-max-time 0
✅ 30秒自动重连：--retry-delay 30

技术原理：
1. HTTP Range 请求（核心机制）
当curl使用 -C - 参数时，它会向服务器发送这样的请求：
text
GET /video_part_aa
Range: bytes=1024000-
意思是："请从 1,024,000 字节开始发送文件剩余部分"
2. 服务器支持断点续传
Google Cloud Storage 支持 Range 请求，会响应：
text
HTTP/1.1 206 Partial Content
Content-Range: bytes 1024000-20480000/20480000
然后只发送从断点开始的数据
3. 本地文件记录进度
curl 在下载时：
✅ 检查本地文件大小：ls -l video_part_aa 显示已下载多少
✅ 计算剩余字节：文件总大小 - 已下载大小
✅ 从正确位置继续：不会重复下载已存在的部分

其次，主包今天遇到的问题是有一个500+GB的数据集，好心人把它分成了4份，让我分别下载然后cat part* > total.tar.gz" and then unzip the file.

但是主包网速max也只有10+MBps，且存储堪忧，打算下载其中一卷。

由于d卷（最后一卷）最小，主包下载了最后一卷。

but

由图可知，整个文件夹其实是包含一些文件元数据等和文件本身的（也可以由操作系统课程所得）

只下载part d，无法获得文件头部信息，

所以在下载2h的d之后，主包不得不重新花费4h下载part a

The end. Have a nice day.

http://www.dtcms.com/a/594075.html

相关文章：

探索仓颉编程语言：从Hello World到性能实战

潍坊网站制作建设h5网站建设模板下载

【负载均衡】LVS原理与配置

基于SpringBoot+Vue2的美食菜谱美食分享平台

宿州建设公司网站wordpress虚拟模板

算法-哈希表和相关练习-java

新上线的网站怎么做优化asp网站默认后台

CSS浮动样式

华能集团网站建设方案项目分析网络优化公司哪家好

做网站有哪些主题wordpress cms

k8s中的StatefulSet 控制器

web开发，在线%餐饮自动化管理%系统，基于idea,html,css,jquery,jsp,java,jdk,maven,ssm,mysql。

西安网站排名公司门户网站自查报告

网站设计配色案列青岛网站seo推广

蓝牙钥匙第78次蓝牙与区块链技术融合：构建去中心化物联网安全新范式

Ubuntu Desktop Linux 文件和文件夹操作命令详解

兰州市建设工程招标投标中心网站廊坊网站建设公司费用

【论文调研】NASA任务负荷指数（NASA-TLX）V1.0 总结

Spark 中 distribute by、sort by、cluster by 深度解析

外贸网站平台都有哪些平台wordpress安装博客

长春网站建设企业wordpress 取消评论

电商网站设计制作网站建设与设计实习报告

C++ 设计模式《业务模块的调度室》

南京电商网站开发网业上有错误怎么解决

MongoDB 操作命令

python和mongodb交互

网站建设就业前景学校网站建设栏目设置

文心一言5.0 Preview模型能力观察：基于LMArena排名的文本任务实测

2-物理层

数据入仓和数据ETL（七）