当前位置: 首页 > news >正文

下载huggingface中数据集/模型

整理从huggingface下载数据/模型的方法,以及解决国内访问huggingface慢的问题

一、下载模型/权重

1 使用transformers 的 from_pretrained

适合模型、分词器,会自动缓存到 cache_dir

from transformers import AutoModelForCausalLM, AutoTokenizertok = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct",torch_dtype="auto"
)

2 使用 huggingface_hub 的 snapshot_download 下载

适合只取特定文件、或把整个仓库快照拉到自定义目录。

huggingface_hub.snapshot_download

from huggingface_hub import snapshot_download
snapshot_download(repo_id="openai/gsm8k", repo_type="dataset", # {'dataset', 'model'}local_dir="/mnt/i/zhangyulin/dataset/gsm8k",  # 指定本地路径local_dir_use_symlinks=False, resume_download=True,token='xxxx',						# token获取地址:https://huggingface.co/settings/tokensendpoint='https://hf-mirror.com'  # 如果不能翻墙,可以添加这个参数,从而在hf-mirror上下载(不需要翻墙,默认huggingface需要外网)
)

3 命令行 huggingface-cli download

4 git lfs clone


二、下载数据集

1 使用 datasets 的 load_dataset

2 使用 huggingface_hub 的 snapshot_download 下载

同上

3 命令行 huggingface-cli download

同上

4 git lfs clone

同上


三、鉴权、代理、缓存与离线

待补充……

http://www.dtcms.com/a/398664.html

相关文章:

  • vue事件循环机制
  • 分布式专题——19 Zookeeper分布式一致性协议ZAB源码剖析
  • 前端核心框架vue之(组件篇2/5)
  • 【分布式】分布式事务方案:两阶段、TCC、SEATA
  • Kafka介绍
  • Netty 解码器 DelimiterBasedFrameDecoder
  • 位运算 常见方法总结 算法练习 C++
  • 电子商务平台网站源码国外炫网站
  • PTZ相机的知识体系
  • Nginx反向代理配置全流程实战:从环境搭建到HTTPS部署
  • HTTPS 能抓包吗?实战答案与逐步可行方案(HTTPS 抓包原理、证书Pinning双向认证应对、工具对比)
  • 对网站建设的讲话wordpress 自定义面板
  • 【23】C++实战篇——C++报错:LNK2001:无法解析的外部符号 ,LNK2019: 无法解析的外部符号,原因分析及解决方法
  • 东莞建设银行官方网站礼品网站制作
  • TiDB Cloud 可观测性最佳实践
  • python+springboot毕业季旅游一站式定制服务系统
  • docker 启用容器端口被占用报错500
  • 无人机台风天通信技术要点
  • ParaZero-无人机降落伞领先开发商:SafeAir降落伞系统、DropAir精确空投系统、DefendAir反无人机系统
  • 手机怎样创建网站网站内容保护
  • 电路基础与PCB设计(一)电路
  • YOLO入门教程(四):搭建YOLOv1网络
  • k8s中的Gateway API 和istio
  • K8S (使用步骤)
  • k8s 跟 nacos 关于服务注册以及服务发现
  • 专业的家居网站建设深圳高端网站建设公司
  • Ubuntu vscode软件的安装和使用
  • [Maven 基础课程]10_Maven 私服
  • Python11-集成学习
  • 代做网站灰色关键词青州网站搭建