当前位置: 首页 > news >正文

数据集制作--easy-dataset

一、概述

Easy Dataset 是一个专为创建大型语言模型(LLM)微调数据集而设计的应用程序。它提供了直观的界面,用于上传特定领域的文件,智能分割内容,生成问题,并为模型微调生成高质量的训练数据。
通过 Easy Dataset,您可以将领域知识转化为结构化数据集,兼容所有遵循 OpenAI 格式的 LLM API,使微调过程变得简单高效。 

二、安装

2.1、Docker安装

1、克隆仓库
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
2、构建Docker镜像
docker build -t easy-dataset .
3、运行容器
docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset
4、打开浏览器,访问 http://localhost:1717

2.2、使用 NPM 安装

1. 克隆仓库:
   git clone https://github.com/ConardLi/easy-dataset.git
   cd easy-dataset
2. 安装依赖:
   npm install
3. 启动开发服务器:
   npm run build
   npm run start
4. 打开浏览器并访问 http://localhost:1717

三、使用方法

3.1、创建项目

1. 在首页点击"创建项目"按钮;
2. 输入项目名称和描述;
3. 添加模型,测试模型

3.2、处理文档

1. 右上角选择模型
2. 在"文献处理"页面上传您的文件(支持 PDF、Markdwon、txt、DOCX);
3. 查看和调整自动分割的文本片段;
4. 查看和调整全局领域树

3.3、生成问题

1. 基于文本块“批量生成问题”;
2. 查看并编辑生成的问题;
3. 使用标签树组织问题

3.4、创建数据集

1. 基于问题“批量构造数据集”;
2. 使用配置的 LLM 生成答案;
3. 查看、编辑并优化生成的答案

3.5、导出数据集

1. 在数据集管理页面,勾选问题,"导出数据集"按钮;
2. 选择您喜欢的格式(Alpaca 或 ShareGPT);
3. 选择文件格式(JSON 或 JSONL);
4. 根据需要添加自定义系统提示;
5. 导出您的数据集

四、参考

easy-dataset/README.zh-CN.md at main · ConardLi/easy-dataset

⁠‌‌‬‌⁠‌⁠‬‌⁠‬‍‌⁠‌‬⁠⁠⁠‬⁠⁠‌‌‌‌Easy Dataset × LLaMA Factory: 让大模型高效学习领域知识 - 飞书云文档

【2025最新】从0打造大模型 微调数据集,一键将领域知识转化为结构化数据集,使数据集构造过程变得简单高效!超详细讲解,原理详解+项目实战!_哔哩哔哩_bilibili

http://www.dtcms.com/a/419184.html

相关文章:

  • 学校网站管理方案做网站需要哪些手续
  • 大连建设工程网站惠州建设集团公司网站
  • 中国城市市政公用设施水平数据(1990-2022年)
  • 【算法笔记】二叉树递归解题套路及其应用
  • 洋气的传媒公司名字永州seo快速排名
  • 充电桩智能升级方案之微波雷达模块WT4101A-C04
  • 1、Lombok入门与环境配置:理解Lombok作用、配置IDE与构建工具
  • 【PostgreSQL内核学习:哈希聚合(HashAgg)执行流程与函数调用关系分析】
  • 选择邯郸网站建设电商网站如何备案
  • 易旅游网站建设东莞有哪些做推广的网站
  • [算法练习]第三天:定长滑动窗口
  • 山海织锦·时序成画——连云港城市旅游宣传片的策划、拍摄与制作全流程解构
  • Mariadb服务器
  • 现代Web存储技术(三):配额监控与自动化清理机制
  • 高并发系统的海量数据处理架构
  • 苹果群控系统游戏运营如何实现自动执行任务
  • NXP - 在MCUXpresso IDE中查看编译日志文件的方法
  • 荣耀官方网站郑州粒米seo外包
  • UI自动化框架之Selenium(一)
  • AI编程:自动化代码生成的实践
  • 网站免费建站ppa企业网站托管和网站建设服务商
  • LSTM自然语言处理情感分析项目(二)加载数据集
  • 自定义渲染管线 Custom Render Pipeline
  • 【循环神经网络3】门控循环单元GRU详解
  • 邯郸网站设计做网站的动态图片
  • 建网站要花钱吗网络建设推广
  • 【Java并发】揭秘Lock体系 -- 深入理解AbstractQueuedSynchronizer(AQS)
  • 3.8 数据链路层设备 (答案见原书 P122)
  • 轻松修复 WordPress 的“缺少临时文件夹”错误
  • PHP智能开发工具PhpStorm v2025.2全新上线——支持PHPUnit 12等