当前位置: 首页 > news >正文

大模型微调数据集怎么搞?基于easydataset实现文档转换问答对json数据集!

微调的难点之一在与数据集。本文介绍一种将文档转换为问答数据集的方法,超级快!

上图左侧是我的原文档,右侧是我基于文档生成的数据集。

原理是通过将文档片段发送给ollama本地模型,然后本地模型生成有关问题,并基于文档片段回答问题。需要用到的工具有ollama,easy-dataset: https://github.com/ConardLi/easy-dataset

ollama安装就不赘述了,easy-dataset是一个前端项目,只需要有nodejs就能运行起来了。

进入easydataset的运行界面,新建项目,会被要求添加模型。如果ollama在运行,easydataset能检测到已安装的模型。

首先需要将文档拆分成md格式,MinerU 可以很好做到这一点。

然后将md文件上传到easydataset,easydataset会将其拆分成若干个片段,并针对每个片段生成若干个问题,最后再对每个问题进行回答,问答对就完成了。

按照需要的格式导出,就能直接作为数据集文件了。

相关文章:

  • Scala day4(tuple, set and map)
  • echarts 图表
  • 【阶次跟踪】变转速阶次包络谱
  • 海洋垃圾分割数据集labelme格式3110张8类别
  • 从案例看建设工程领域居间合同的法律效力
  • 洛谷P8749 [蓝桥杯 2021 省 B] 杨辉三角形
  • 关于无线网络安全的基础知识,涵盖常见威胁、防护措施和实用建议
  • 简单记录一下Android四大组件
  • MySQL部分总结
  • 07.unity 游戏开发-粒子系统
  • 结构化需求分析:功能、数据与行为的全景建模
  • Tauri 2.3.1+Leptos 0.7.8开发桌面应用--Sqlite数据库的写入、展示和选择删除
  • 安卓设备使用网线连接电脑lan口
  • 从存储到智能:AI NAS的技术路径与未来演进
  • Android游戏辅助工具开发详解
  • 使用OpenSceneGraph (osg)实现一个星系漫游
  • asm汇编源代码之-字库转换程序
  • Mybatis-缓存详解
  • 因泰立科技激光雷达:点亮煤矿厂自动装车的智慧之光
  • 音视频学习(三十四):H264中的宏块
  • 康子兴评《文明的追求》|野人脚印:鲁滨逊的恐惧与文明焦虑
  • 中国以优化营商环境为支点,为全球企业提供可预期市场环境
  • 少年中国之少年的形塑
  • 公积金利率降至历史最低!多项房地产利好政策落地,购房者置业成本又降了
  • 阿曼宣布美国与胡塞武装达成停火协议
  • 湖北十堰市委副秘书长管聪履新丹江口市代市长