当前位置：首页 > news >正文

下载huggingface中数据集/模型

news 2025/9/24 8:18:23

整理从huggingface下载数据/模型的方法，以及解决国内访问huggingface慢的问题

一、下载模型/权重

1 使用transformers 的 from_pretrained

适合模型、分词器，会自动缓存到 cache_dir。

from transformers import AutoModelForCausalLM, AutoTokenizertok = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct",torch_dtype="auto"
)

2 使用 huggingface_hub 的 snapshot_download 下载

适合只取特定文件、或把整个仓库快照拉到自定义目录。

huggingface_hub.snapshot_download

from huggingface_hub import snapshot_download
snapshot_download(repo_id="openai/gsm8k", repo_type="dataset", # {'dataset', 'model'}local_dir="/mnt/i/zhangyulin/dataset/gsm8k",  # 指定本地路径local_dir_use_symlinks=False, resume_download=True,token='xxxx',						# token获取地址：https://huggingface.co/settings/tokensendpoint='https://hf-mirror.com'  # 如果不能翻墙，可以添加这个参数，从而在hf-mirror上下载（不需要翻墙，默认huggingface需要外网）
)

3 命令行 huggingface-cli download

4 git lfs clone

二、下载数据集

1 使用 datasets 的 load_dataset

2 使用 huggingface_hub 的 snapshot_download 下载

同上

3 命令行 huggingface-cli download

同上

4 git lfs clone

同上

三、鉴权、代理、缓存与离线

待补充……

http://www.dtcms.com/a/398664.html

相关文章：

vue事件循环机制

分布式专题——19 Zookeeper分布式一致性协议ZAB源码剖析

前端核心框架vue之（组件篇2/5）

【分布式】分布式事务方案：两阶段、TCC、SEATA

Kafka介绍

Netty 解码器 DelimiterBasedFrameDecoder

位运算常见方法总结算法练习 C++

电子商务平台网站源码国外炫网站

PTZ相机的知识体系

Nginx反向代理配置全流程实战：从环境搭建到HTTPS部署

HTTPS 能抓包吗？实战答案与逐步可行方案（HTTPS 抓包原理、证书Pinning双向认证应对、工具对比）

对网站建设的讲话wordpress 自定义面板

【23】C++实战篇——C++报错：LNK2001：无法解析的外部符号，LNK2019: 无法解析的外部符号，原因分析及解决方法

东莞建设银行官方网站礼品网站制作

TiDB Cloud 可观测性最佳实践

python+springboot毕业季旅游一站式定制服务系统

docker 启用容器端口被占用报错500

无人机台风天通信技术要点

ParaZero-无人机降落伞领先开发商：SafeAir降落伞系统、DropAir精确空投系统、DefendAir反无人机系统

手机怎样创建网站网站内容保护

电路基础与PCB设计（一）电路

YOLO入门教程（四）：搭建YOLOv1网络

k8s中的Gateway API 和istio

K8S （使用步骤）

k8s 跟 nacos 关于服务注册以及服务发现

专业的家居网站建设深圳高端网站建设公司

Ubuntu vscode软件的安装和使用

[Maven 基础课程]10_Maven 私服

Python11-集成学习

代做网站灰色关键词青州网站搭建