当前位置: 首页 > news >正文

【huggingface 数据下载】ssh / https 不同的下载流程,hf 镜像下载注意事项

ssh 下载流程

  1. 在 linux 服务器上生成 ssh key
  2. 将 pub key 放入 huggingface 的 setting 中
  3. 通过 git lfs install 然后 git clone git@hf.co … 来下载数据

遇到的问题

一直卡在 Updating files 后
在这里插入图片描述

卡住的可能原因:

  1. 系统当前限制了允许监视的最大文件数

    cat /proc/sys/fs/inotify/max_user_watches
    

    这会显示系统当前允许监视的最大文件数

  2. 解决方案

    • 增加系统限制:编辑 /etc/sysctl.conf 文件,添加:
      fs.inotify.max_user_watches=524288
      
      然后运行 sudo sysctl -p 使更改生效

https 下载

  1. git lfs install 后 git clone https://huggingface.co/datasets/xxx
  2. 如果用镜像网站的话,先 export HF_ENDPOINT=https://hf-mirror.com
    • git clone https://hf-mirror.com/datasets/xxx
    • 🔥如果 git clone 特别慢的话,可以用 huggingface-cli download --repo-type dataset username/dataset_name --local-dir ./dataset_local
  3. 镜像网站的话,需要注意:
    • 得是 public 的 dataset 才能通过镜像网站下载。
    • 选用的 condition 也需要开放,不能要求登陆或者 share contact information,不然无法通过镜像网站下载。 在这里插入图片描述

相关文章:

  • ⼆、Kafka客户端消息流转流程
  • Ubuntu环境安装
  • 【网安面经合集】42 道高频 Web 安全面试题全解析(附原理+防御+思路)
  • Java基础-25-继承-方法重写-子类构造器的特点-构造器this的调用
  • 基于langchain实现GraphRAG:基于图结构的检索增强生成系统
  • Linux(24)——系统调优
  • MySQL数据库和表的操作之数据库表操作
  • Day3 蓝桥杯省赛冲刺精炼刷题 —— 排序算法与贪心思维
  • 静态路由与BFD联动实验配置
  • TCP、HTTP、HTTPS、DNS的原理
  • 科技潮流出行新体验 方程豹全新车型钛3正式开启预售
  • linux服务器专题1------redis的安装及简单配置
  • 【跑步计划,日期推算】
  • 我的世界模组进阶开发教程——地形生成(2)
  • C语言基础数据类型
  • RAG 调优指南:Spring AI Alibaba 模块化 RAG 原理与使用
  • Linux进程间通信:【目的】【管道】【匿名管道】【命名管道】【System V 共享内存】
  • 自动驾驶浪潮下,HMI 设计如何保障安全与便捷?
  • PyTorch中知识蒸馏浅讲
  • 文件压缩与解压(zip4j)
  • 破题“省会担当”,南京如何走好自己的路?
  • 不止是生态优势,“浙江绿谷”丽水有活力
  • 国家发改委:系统谋划7方面53项配套举措,推动民营经济促进法落地见效
  • 美联储官员:美国经济增速可能放缓,现行关税政策仍将导致物价上涨
  • 澎湃与七猫联合启动百万奖金征文,赋能非虚构与现实题材创作
  • 消息人士称俄方反对美国代表参加俄乌直接会谈