当前位置: 首页 > wzjs >正文

仿牌网站流量无锡百度推广公司哪家好

仿牌网站流量,无锡百度推广公司哪家好,用ps怎样做网站文字logo,怎么建设网站规划写在前面 高质量数据的准备是微调大模型的重中之重,一些高质量的数据集可能远比模型性能更佳重要。 我是根据自己的数据照着B站up code花园LLaMA Factory 微调教程:如何构建高质量数据集?_哔哩哔哩_bilibili做的。 数据集格式 在LLaMA Fa…

写在前面

高质量数据的准备是微调大模型的重中之重,一些高质量的数据集可能远比模型性能更佳重要。

我是根据自己的数据照着B站up code花园LLaMA Factory 微调教程:如何构建高质量数据集?_哔哩哔哩_bilibili做的。

数据集格式

在LLaMA Factory中,支持Alpaca 格式和 ShareGPT 两种格式,详细可以自行去查查,下面是两个格式的示例。

Alpaca 数据格式

  ShareGPT 数据格式

采用Easy Dataset制作数据集

Easy Dataset是一个专门创建大型语言模型数据集的程序。它能将行业领域的语料库转换为结构化的数据集。

安装

安装教程见官方文档https://docs.easy-dataset.com/

Easy Dataset工具使用

打开程序,然后创建项目

进入模型配置,这里我旋转qwen模型(主要是阿里大气,学生认证免费送300代金卷),注意需要配置对应平台的api key。

任务配置可以更具需求设置

提示词配置可以不做,如果生成的有问题在调整提示词。

文献处理,这里先选择模型,再选择需要处理的文献,然后就可以开始处理文献了,

可以查看右方的GA对,GA对可以参考https://zhuanlan.zhihu.com/p/1916488453228561713。主要意思就是针对不同群里设置的不同深度语气格式的数据集。

查看分割和领域分析数据是否生成合理,如果不合理需要人工干预

一切就绪之后开始提取问题

右上方有任务进行进度,整个过程都是并发运行,可以切换到其他界面操作。一些就绪之后进入问题管理界面查看问题,然后切换模型到推理效果好的deepseek-R1模型,就可以生成答案了.

然后等待生成。幸好deepseek便宜,一个小时才花5块钱,而且硅基流动也有学生认证,认证送50代金卷。

还能用数据蒸馏增加数据集,这个步骤等待时间较长,生成的数据集也多。

等数据生成结束之后,进入数据集管理界面,导出数据,这里可以导出在LLaMA Factory中使用,会得到一个配置文件。

进入这个文件路径,打开dataset_info文件发现就是LLaMA Factory要求的格式。

在LLaMA Factory直接将数据路径粘贴到数据集路径那里

最后配置好LLaMA Factory的参数就可以开始训练了。

http://www.dtcms.com/wzjs/228579.html

相关文章:

  • 自己网站做访问统计代码拉新十大推广app平台
  • wordpress站长地图百度seo刷排名工具
  • wordpress bliss廊坊首页霸屏排名优化
  • 网站如何做移动网站最佳磁力吧ciliba
  • 可以做长页海报的网站网址域名大全
  • 长沙 网站建设实时疫情最新消息数据
  • 男人女人做那个网站百度关键词优化推广
  • 24 手表网站百度指数热度榜
  • 资产管理公司网站建设费用怎么入账软文怎么写比较吸引人
  • 新网站怎么让百度收录销售外包公司
  • 故宫网站建设武汉seo顾问
  • 福田做网站报价常用的关键词挖掘工具
  • 做logo找灵感的网站营销型企业网站诊断
  • 品牌公关具体要做些什么陕西seo主管
  • 个人网站建设设计网站seo设计
  • 国外网站建设banner人工智能的关键词
  • 重庆慕尚网站建设广告信息发布平台
  • 国家政府网站建设内容国内看不到的中文新闻网站
  • 怎么找网站建设百度搜索竞价推广
  • 惠州网站建设方案托管重庆网站优化
  • 濮阳住房建设厅网站如何自己建立一个网站
  • 上海网站备案企业培训视频
  • 加强网站建设和信息公开做网站哪个公司最好
  • 网站建设商城网站网络营销相关工作岗位
  • 网站搭建协议云浮网站设计
  • 网站模板怎么做的网络营销课程总结与心得体会
  • 2018什么做网站产品软文案例
  • 免费代码大全网站国际足联世界排名
  • 北京网约车池州网站seo
  • 做网站视频用哪个视频编辑软件网络平台建站