下载huggingface中数据集/模型
整理从huggingface下载数据/模型的方法,以及解决国内访问huggingface慢的问题
一、下载模型/权重
1 使用transformers 的 from_pretrained
适合模型、分词器,会自动缓存到 cache_dir
。
from transformers import AutoModelForCausalLM, AutoTokenizertok = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct",torch_dtype="auto"
)
2 使用 huggingface_hub 的 snapshot_download 下载
适合只取特定文件、或把整个仓库快照拉到自定义目录。
huggingface_hub.snapshot_download
from huggingface_hub import snapshot_download
snapshot_download(repo_id="openai/gsm8k", repo_type="dataset", # {'dataset', 'model'}local_dir="/mnt/i/zhangyulin/dataset/gsm8k", # 指定本地路径local_dir_use_symlinks=False, resume_download=True,token='xxxx', # token获取地址:https://huggingface.co/settings/tokensendpoint='https://hf-mirror.com' # 如果不能翻墙,可以添加这个参数,从而在hf-mirror上下载(不需要翻墙,默认huggingface需要外网)
)
3 命令行 huggingface-cli download
4 git lfs clone
二、下载数据集
1 使用 datasets 的 load_dataset
2 使用 huggingface_hub 的 snapshot_download 下载
同上
3 命令行 huggingface-cli download
同上
4 git lfs clone
同上
三、鉴权、代理、缓存与离线
待补充……