当前位置: 首页 > news >正文

大模型微调数据集怎么搞?基于easydataset实现文档转换问答对json数据集!

微调的难点之一在与数据集。本文介绍一种将文档转换为问答数据集的方法,超级快!

上图左侧是我的原文档,右侧是我基于文档生成的数据集。

原理是通过将文档片段发送给ollama本地模型,然后本地模型生成有关问题,并基于文档片段回答问题。需要用到的工具有ollama,easy-dataset: https://github.com/ConardLi/easy-dataset

ollama安装就不赘述了,easy-dataset是一个前端项目,只需要有nodejs就能运行起来了。

进入easydataset的运行界面,新建项目,会被要求添加模型。如果ollama在运行,easydataset能检测到已安装的模型。

首先需要将文档拆分成md格式,MinerU 可以很好做到这一点。

然后将md文件上传到easydataset,easydataset会将其拆分成若干个片段,并针对每个片段生成若干个问题,最后再对每个问题进行回答,问答对就完成了。

按照需要的格式导出,就能直接作为数据集文件了。

http://www.dtcms.com/a/131115.html

相关文章:

  • Scala day4(tuple, set and map)
  • echarts 图表
  • 【阶次跟踪】变转速阶次包络谱
  • 海洋垃圾分割数据集labelme格式3110张8类别
  • 从案例看建设工程领域居间合同的法律效力
  • 洛谷P8749 [蓝桥杯 2021 省 B] 杨辉三角形
  • 关于无线网络安全的基础知识,涵盖常见威胁、防护措施和实用建议
  • 简单记录一下Android四大组件
  • MySQL部分总结
  • 07.unity 游戏开发-粒子系统
  • 结构化需求分析:功能、数据与行为的全景建模
  • Tauri 2.3.1+Leptos 0.7.8开发桌面应用--Sqlite数据库的写入、展示和选择删除
  • 安卓设备使用网线连接电脑lan口
  • 从存储到智能:AI NAS的技术路径与未来演进
  • Android游戏辅助工具开发详解
  • 使用OpenSceneGraph (osg)实现一个星系漫游
  • asm汇编源代码之-字库转换程序
  • Mybatis-缓存详解
  • 因泰立科技激光雷达:点亮煤矿厂自动装车的智慧之光
  • 音视频学习(三十四):H264中的宏块
  • thymeleaf配套Security6
  • 如何将excel数据快速导入数据库
  • 【时频谱分析】快速谱峭度
  • 每日算法-250413
  • deskflow使用教程:一个可以让两台电脑鼠标键盘截图剪贴板共同使用的开源项目
  • 【开发工具】科研开发中的主流AI工具整理及如何使用GPT润色英文论文
  • 【苹果cms 1】本地影视资源站搭建
  • [文献阅读] chinese-roberta Pre-Training With Whole Word Masking for Chinese BERT
  • 真实企业级K8S故障案例:ETCD集群断电恢复与数据保障实践
  • QML ListView 与 C++ 模型交互