当前位置: 首页 > news >正文

一文了解开源大语言模型文件结构,以 Hugging Face DeepSeek-V3.1 模型仓库为例

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


文章目录

  • 一、前言
  • 二、DeepSeek-V3.1 模型文件结构


一、前言

在当前 AI 技术讨论中经常提及 “大语言模型(Large Language Model,LLM)开源”,但它到底 “开” 出来什么?一个开源 LLM 究竟包含哪些核心组成部分?本文将介绍 DeepSeek-V3.1 模型文件由哪些部分组成,有助于理解大语言模型开源的具体内容和运行流程。

下图展示了知名大模型厂商 DeepSeek 公司在 Hugging Face 平台的主页,Hugging Face 实为当前全球最大的开源机器学习模型社区。Hugging Face 对于 AI 模型领域而言,可类比为面向人工智能领域的 GitHub。

在这里插入图片描述

我们以 DeepSeek-V3.1 的模型仓库作为观察示例,网址为:https://huggingface.co/deepseek-ai/DeepSeek-V3.1

Model Card 页面展示了模型的基本信息,具体内容如下:

在这里插入图片描述

注意,真正的核心内容在 Files and versions 选项卡里:https://huggingface.co/deepseek-ai/DeepSeek-V3.1/tree/main


二、DeepSeek-V3.1 模型文件结构

.safetensors 格式的模型权重文件数量最多且体积最大,因其包含模型中所有层的参数。为便于并行加载,模型权重通常被切分为许多 .safetensors 文件。在实际部署过程中,model.safetensors.index.json 索引文件负责记录模型层与对应权重文件之间的映射关系,从而确定各权重在具体文件中的存储位置。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

config.json 定义了模型的结构参数,相当于该大语言模型的 “身份证”,其内容包括 model_type、architectures、hidden_size、num_hidden_layers、vocab_size 等参数,以及 DeepSeek-V3.1 中所使用的混合专家(Mixture-of-Experts,MoE)配置。

在这里插入图片描述

config.json 文件以 JSON 格式存储模型参数,而这些参数由 configuration_deepseek.py 代码负责解析并转化为模型配置对象。因此,这两个文件构成了配置文件解析与模型配置初始化的核心组件。

在这里插入图片描述

modeling_deepseek.py 则负责实现模型架构与具体计算逻辑。

在这里插入图片描述

此外,诸如 DeepSeek 这类大语言模型并不直接处理原始文本,而是依赖分词器将输入文本转换为模型可处理的数字表示,其中 tokenizer.json 包含了分词规则映射与词汇表数据。例如,在词表中查询词汇 “good”,可获取其对应的 Token ID 为 25109。

在这里插入图片描述

tokenizer_config.json 用于配置文本处理方式、特殊 token、model_max_length 和 chat_template 等参数。总体而言,分词器的主要功能是将输入文本转换为模型可处理的 Token ID 序列;在解码过程中,则将模型输出的 Token ID 序列重新转换为自然语言文本。

在这里插入图片描述

generation_config.json 用于配置使用 transformers 库加载并推理 DeepSeek-V3.1 模型时的生成策略相关参数,例如 do_sample、temperature 和 top_p 等。

在这里插入图片描述

其他:

  • assets/ - 辅助资源目录

  • .gitattributes - Git 属性配置

  • LICENSE - 特定开源许可证,DeepSeek-V3.1 实际用的 MIT License

  • README.md - 模型说明文档


📚️ 有关链接:

  • bilibili 视频 | 【LLM】10 分钟带你看懂一个大模型的完整文件结构

  • DeepSeek-V3.1 Files and versions

  • DeepSeek - 探索未至之境

  • DeepSeek-V3 Technical Report

http://www.dtcms.com/a/524016.html

相关文章:

  • 艾体宝洞察 | CRA 合规冲刺指南:艾体宝 ONEKEY 独家报告首发,洞察全球企业合规进度!
  • 网站设计方法常州网站制作维护
  • iOS 26 App 开发阶段性能优化 从多工具协作到数据驱动的实战体系
  • Nginx 配置解析与性能优化
  • vLLM 性能优化实战:批处理、量化与缓存配置方案
  • 【前端】前端浏览器性能优化的小方法
  • google广告联盟网站服务平台型网站
  • Android GPU的RenderThread Texture upload上传Bitmap优化prepareToDraw
  • 10.1 网络规划与设计——结构化布线系统
  • 国产麒麟、uos在线编辑数据库中的文件
  • 从零开始的C++学习生活 15:哈希表的使用和封装unordered_map/set
  • 【图像处理基石】通过立体视觉重建建筑高度:原理、实操与代码实现
  • 金融培训网站源码国内可以做的国外兼职网站
  • 东莞网站设计制作网站个人网页设计需求分析
  • 率先发布!浙人医基于KingbaseES构建多院区异构多活容灾新架构
  • CSS 样式用法大全
  • Chrome旧版本下载
  • 浙江省建设网站首页html网站源代码
  • 厦门行业网站建设怎样建立自己的销售网站
  • 网站建设丿选择金手指排名15企业网站的制作公司
  • 结合MAML算法元强化学习
  • 重组蛋白表达的几种类型介绍
  • STM32之TM1638数码管及键盘驱动
  • Windows 10 安装 Docker Desktop
  • 数据的存储
  • GJOI 10.20/10.22 题解
  • Linux:权限(完结)|权限管理|修改权限chmod chown charp|文件类型|拓展
  • (一)仓库创建与配置 - .git 目录的结构与作用
  • Office 2010 64位 补丁 officesp2010-kb2687455 安装步骤详解(附安装包)
  • 建免费网站建设银行网站能不能注销卡