当前位置: 首页 > news >正文

QWEN2.5_0.5 微调生成文件目录

QWEN2.5_0.5 微调生成文件目录

在这里插入图片描述

一、通用文件(checkpoint-6 和 final_model 中共有的文件)

  1. config.json

    • 存储模型的架构配置信息,包括模型层数、隐藏层大小、注意力头数等参数,用于复现模型结构。
  2. generation_config.json

    • 记录模型生成文本时的默认参数(如最大生成长度、温度系数、top-p 等),定义推理阶段的生成策略。
  3. model.safetensors

    • 存储模型的权重参数,是一种安全的权重存储格式,包含训练后更新的模型参数,用于加载模型进行推理或继续训练
  4. training_args.bin

http://www.dtcms.com/a/61675.html

相关文章:

  • 重构及封装
  • 【高并发】高速将图片提交到flask、fastapi等主流服务框架
  • 【学习笔记】【AI医生】2-4 项目详细分析及DeepSeek适用场景
  • QT系列教程(18) MVC结构之QItemSelectionModel模型介绍
  • 使用 MyBatis-Plus 实现数据库的多租户管理
  • NineData 社区版正式上线,支持一键本地化部署
  • Git前言(版本控制)
  • 深度学习系列79:Text2sql调研
  • LiveCommunicationKit OC 实现
  • Java开发者如何接入并使用DeepSeek
  • 【设计模式】掌握建造者模式:如何优雅地解决复杂对象创建难题?
  • 【JavaWeb学习Day23】
  • 网络-五大拓扑结构
  • 设计模式之建造者模式:原理、实现与应用
  • P8683 [蓝桥杯 2019 省 B] 后缀表达式
  • 鸿蒙应用开发—数据持久化之SQLite
  • 数据库SQL的配置和练习题
  • 科技的成就(六十七)
  • 从 MongoDB 到 TDengine,沃太能源实现 18 倍写入性能提升
  • socket描述符的本质,它可以和服务器建立连接?一个服务器和一个客户端的通信中,三个操作符的作用分别是什么?
  • 【基于C#实现Bartender多条码打印的示例】
  • uniapp开通开屏广告后动态开启或关闭开屏广告
  • Spring Boot项目打包第三方Jar包
  • 【JavaEE】多线程进阶(2)
  • 网络安全工具nc(NetCat)
  • 【Linux跬步积累】—— 网络编程套接字
  • Python毕业设计选题:基于django+vue的疫情数据可视化分析系统
  • java-算法基础优化
  • FreeSWITCH 之 chat
  • 脏读、不可重复读,幻读的区别 mvcc及四种隔离级别