当前位置: 首页 > wzjs >正文

仿牌网站流量网站制作厂家有哪些

仿牌网站流量,网站制作厂家有哪些,免费咨询律师在线,爱站网关键词长尾挖掘工具写在前面 高质量数据的准备是微调大模型的重中之重,一些高质量的数据集可能远比模型性能更佳重要。 我是根据自己的数据照着B站up code花园LLaMA Factory 微调教程:如何构建高质量数据集?_哔哩哔哩_bilibili做的。 数据集格式 在LLaMA Fa…

写在前面

高质量数据的准备是微调大模型的重中之重,一些高质量的数据集可能远比模型性能更佳重要。

我是根据自己的数据照着B站up code花园LLaMA Factory 微调教程:如何构建高质量数据集?_哔哩哔哩_bilibili做的。

数据集格式

在LLaMA Factory中,支持Alpaca 格式和 ShareGPT 两种格式,详细可以自行去查查,下面是两个格式的示例。

Alpaca 数据格式

  ShareGPT 数据格式

采用Easy Dataset制作数据集

Easy Dataset是一个专门创建大型语言模型数据集的程序。它能将行业领域的语料库转换为结构化的数据集。

安装

安装教程见官方文档https://docs.easy-dataset.com/

Easy Dataset工具使用

打开程序,然后创建项目

进入模型配置,这里我旋转qwen模型(主要是阿里大气,学生认证免费送300代金卷),注意需要配置对应平台的api key。

任务配置可以更具需求设置

提示词配置可以不做,如果生成的有问题在调整提示词。

文献处理,这里先选择模型,再选择需要处理的文献,然后就可以开始处理文献了,

可以查看右方的GA对,GA对可以参考https://zhuanlan.zhihu.com/p/1916488453228561713。主要意思就是针对不同群里设置的不同深度语气格式的数据集。

查看分割和领域分析数据是否生成合理,如果不合理需要人工干预

一切就绪之后开始提取问题

右上方有任务进行进度,整个过程都是并发运行,可以切换到其他界面操作。一些就绪之后进入问题管理界面查看问题,然后切换模型到推理效果好的deepseek-R1模型,就可以生成答案了.

然后等待生成。幸好deepseek便宜,一个小时才花5块钱,而且硅基流动也有学生认证,认证送50代金卷。

还能用数据蒸馏增加数据集,这个步骤等待时间较长,生成的数据集也多。

等数据生成结束之后,进入数据集管理界面,导出数据,这里可以导出在LLaMA Factory中使用,会得到一个配置文件。

进入这个文件路径,打开dataset_info文件发现就是LLaMA Factory要求的格式。

在LLaMA Factory直接将数据路径粘贴到数据集路径那里

最后配置好LLaMA Factory的参数就可以开始训练了。

http://www.dtcms.com/wzjs/188105.html

相关文章:

  • 杭州百度网站建设高级seo
  • 网页图片不显示seo主要优化哪些
  • 做网站的主营业务国际网络销售平台有哪些
  • 网站推广策划方案模板谷歌paypal官网登录入口
  • 简单的网页设计代码记事本网站的优化从哪里进行
  • 怎么做幼儿园网站介绍ppt宁波seo高级方法
  • 怎么样建立自己的视频网站网络营销实施方案
  • 医药行业网站建设如何在百度提交网站
  • 2010年青海省建设厅网站今日头条新闻10条简短
  • 周口做网站哪家好石家庄邮电职业技术学院
  • 西藏建设注册中心官方网站seo短视频保密路线
  • 深圳市宝安网站建设h5制作
  • 网站添加关键字seo推广思路
  • 微信网站图片链接怎么做网络服务器的功能
  • 常平哪里有招计算机网站开发的外贸网站推广平台
  • wordpress4 sqlitewin7系统优化工具
  • 网站开发功能确认单b站推广网站入口
  • 厦门酒店网站建设新闻稿件
  • 网站开发 模版绑定顶级域名搜索引擎有哪些软件
  • 网站制作中心网站建设公司苏州
  • 静态网站设计方案搜索引擎优化的含义和目标
  • 福州网站设计哪里好云搜索引擎入口
  • 网站做弹窗推广网站源码
  • 西城广州网站建设超链接友情外链查询
  • 怎么做网站投放广告百度快照在哪里找
  • 青岛比较知名的网站建设公司完整企业网站模板
  • 网站建设类型有哪些官方百度
  • 莱西网站建设哪家好国内搜索引擎大全
  • 画册什么网站做方便曹操博客seo
  • java做网站pdf企业网站推广的方法有