当前位置: 首页 > wzjs >正文

仿牌网站容易被攻击吗2024很有可能再次封城吗

仿牌网站容易被攻击吗,2024很有可能再次封城吗,阿里云网站建设方案书,襄阳做网站价格写在前面 高质量数据的准备是微调大模型的重中之重,一些高质量的数据集可能远比模型性能更佳重要。 我是根据自己的数据照着B站up code花园LLaMA Factory 微调教程:如何构建高质量数据集?_哔哩哔哩_bilibili做的。 数据集格式 在LLaMA Fa…

写在前面

高质量数据的准备是微调大模型的重中之重,一些高质量的数据集可能远比模型性能更佳重要。

我是根据自己的数据照着B站up code花园LLaMA Factory 微调教程:如何构建高质量数据集?_哔哩哔哩_bilibili做的。

数据集格式

在LLaMA Factory中,支持Alpaca 格式和 ShareGPT 两种格式,详细可以自行去查查,下面是两个格式的示例。

Alpaca 数据格式

  ShareGPT 数据格式

采用Easy Dataset制作数据集

Easy Dataset是一个专门创建大型语言模型数据集的程序。它能将行业领域的语料库转换为结构化的数据集。

安装

安装教程见官方文档https://docs.easy-dataset.com/

Easy Dataset工具使用

打开程序,然后创建项目

进入模型配置,这里我旋转qwen模型(主要是阿里大气,学生认证免费送300代金卷),注意需要配置对应平台的api key。

任务配置可以更具需求设置

提示词配置可以不做,如果生成的有问题在调整提示词。

文献处理,这里先选择模型,再选择需要处理的文献,然后就可以开始处理文献了,

可以查看右方的GA对,GA对可以参考https://zhuanlan.zhihu.com/p/1916488453228561713。主要意思就是针对不同群里设置的不同深度语气格式的数据集。

查看分割和领域分析数据是否生成合理,如果不合理需要人工干预

一切就绪之后开始提取问题

右上方有任务进行进度,整个过程都是并发运行,可以切换到其他界面操作。一些就绪之后进入问题管理界面查看问题,然后切换模型到推理效果好的deepseek-R1模型,就可以生成答案了.

然后等待生成。幸好deepseek便宜,一个小时才花5块钱,而且硅基流动也有学生认证,认证送50代金卷。

还能用数据蒸馏增加数据集,这个步骤等待时间较长,生成的数据集也多。

等数据生成结束之后,进入数据集管理界面,导出数据,这里可以导出在LLaMA Factory中使用,会得到一个配置文件。

进入这个文件路径,打开dataset_info文件发现就是LLaMA Factory要求的格式。

在LLaMA Factory直接将数据路径粘贴到数据集路径那里

最后配置好LLaMA Factory的参数就可以开始训练了。

http://www.dtcms.com/wzjs/177689.html

相关文章:

  • 关于单位网站建设的报告搭建网站基本步骤
  • 山西太原做企业网站建设的公司网站推广是干嘛的
  • 网站备案号官网南京疫情最新情况
  • 3d动画制作视频教程免费seo工具汇总
  • 九江网站建设张旭四川网络推广推广机构
  • 微网站是自己做可以不网络营销的手段包括
  • 网站开发是否属于无形资产seo的培训网站哪里好
  • 老外做的汉语网站谷歌收录提交入口
  • 七台河新闻联播最新重庆seo优
  • 上海web网站开发百度竞价排名多少钱
  • 站群 网站如何做房地产新闻最新消息
  • 国家对网站建设的要求平台营销策略
  • 响应式 html5 css3 网站模板百度关键词搜索量查询
  • 电商网站建设规划书上海品牌推广公司
  • 平面设计用什么软件最好广州谷歌seo公司
  • .com网站制作google seo怎么做
  • 至高建设集团 网站无锡seo优化
  • 动态网站欣赏免费发广告的平台
  • 政府的网站应该怎么做域名注册新网
  • 网站建设 成本分析长沙谷歌优化
  • 腾讯有服务器如何做网站北京网站营销seo方案
  • 发卡网站建设网络seo是什么意思
  • 临沂网站建设哪家最好留号码的广告网站不需要验证码
  • 网站上怎么做动画广告甘肃seo技术
  • 西安信息网站建设搜索引擎seo外包
  • 大庆公司做网站百度软文
  • 百度给公司做网站效果咋样搜索引擎收录提交入口
  • 做交友类网站适合什么cms品牌推广方案包括哪些
  • 企业建设营销网站的目的是什么登录百度app
  • 做面包的公司网站今日新闻内容摘抄