当前位置: 首页 > news >正文

大模型之微调篇——指令微调数据集准备

写在前面

高质量数据的准备是微调大模型的重中之重,一些高质量的数据集可能远比模型性能更佳重要。

我是根据自己的数据照着B站up code花园LLaMA Factory 微调教程:如何构建高质量数据集?_哔哩哔哩_bilibili做的。

数据集格式

在LLaMA Factory中,支持Alpaca 格式和 ShareGPT 两种格式,详细可以自行去查查,下面是两个格式的示例。

Alpaca 数据格式

  ShareGPT 数据格式

采用Easy Dataset制作数据集

Easy Dataset是一个专门创建大型语言模型数据集的程序。它能将行业领域的语料库转换为结构化的数据集。

安装

安装教程见官方文档https://docs.easy-dataset.com/

Easy Dataset工具使用

打开程序,然后创建项目

进入模型配置,这里我旋转qwen模型(主要是阿里大气,学生认证免费送300代金卷),注意需要配置对应平台的api key。

任务配置可以更具需求设置

提示词配置可以不做,如果生成的有问题在调整提示词。

文献处理,这里先选择模型,再选择需要处理的文献,然后就可以开始处理文献了,

可以查看右方的GA对,GA对可以参考https://zhuanlan.zhihu.com/p/1916488453228561713。主要意思就是针对不同群里设置的不同深度语气格式的数据集。

查看分割和领域分析数据是否生成合理,如果不合理需要人工干预

一切就绪之后开始提取问题

右上方有任务进行进度,整个过程都是并发运行,可以切换到其他界面操作。一些就绪之后进入问题管理界面查看问题,然后切换模型到推理效果好的deepseek-R1模型,就可以生成答案了.

然后等待生成。幸好deepseek便宜,一个小时才花5块钱,而且硅基流动也有学生认证,认证送50代金卷。

还能用数据蒸馏增加数据集,这个步骤等待时间较长,生成的数据集也多。

等数据生成结束之后,进入数据集管理界面,导出数据,这里可以导出在LLaMA Factory中使用,会得到一个配置文件。

进入这个文件路径,打开dataset_info文件发现就是LLaMA Factory要求的格式。

在LLaMA Factory直接将数据路径粘贴到数据集路径那里

最后配置好LLaMA Factory的参数就可以开始训练了。

相关文章:

  • Codeforces Round 1028 (Div. 2) A-C
  • Kafka 与其他 MQ 的对比分析:RabbitMQ/RocketMQ 选型指南(二)
  • Future异步与Promise
  • shell脚本--条件
  • 【边缘计算】引论基础
  • Python实例题:基于边缘计算的智能物联网系统
  • 吴恩达:从斯坦福到 Coursera,他的深度学习布道之路
  • 【开源项目】当大模型推理遇上“性能刺客”:LMCache 实测手记
  • 分布式锁的四种实现方式:从原理到实践
  • IntelllJ IDEA 打开别人项目没有自动配置导致运行按钮不能亮
  • 【基础算法】二分(二分查找 + 二分答案)
  • MySQL性能脉搏:核心指标深度解析与高可用实战
  • XML SimpleXML
  • 外部表(EXTERNAL TABLE)详解
  • 机器学习15-XGBoost
  • MolyCamCCD复古胶片相机:复古质感,时尚出片
  • CentOS7 挂载磁盘出错mount: /dev/sdb is write-protected, mounting
  • ECS 任务 / Lambda / Fargate / Athena / Glue
  • STM32F103C8T6 学习笔记摘要(三)
  • 深度剖析 PACK_SESSIONID 实现原理与安全突破机制
  • 宁夏百度网站怎么做/河南疫情最新情况
  • 建立网站培训讲义/百度seo排名优化
  • 网站建设公司伟置/长沙seo排名收费
  • 网站域名改版怎么做/网站测试报告
  • 寻找杭州做网站软件人/线上营销推广方案模板
  • 做钓鱼网站论坛/营销战略有哪些内容