当前位置：首页 > news >正文

数据集制作--easy-dataset

news 2025/11/14 19:46:10

一、概述

Easy Dataset 是一个专为创建大型语言模型（LLM）微调数据集而设计的应用程序。它提供了直观的界面，用于上传特定领域的文件，智能分割内容，生成问题，并为模型微调生成高质量的训练数据。

通过 Easy Dataset，您可以将领域知识转化为结构化数据集，兼容所有遵循 OpenAI 格式的 LLM API，使微调过程变得简单高效。

二、安装

2.1、Docker安装

1、克隆仓库

git clone https://github.com/ConardLi/easy-dataset.git

cd easy-dataset

2、构建Docker镜像

docker build -t easy-dataset .

3、运行容器

docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset

4、打开浏览器，访问 http://localhost:1717

2.2、使用 NPM 安装

1. 克隆仓库：

git clone https://github.com/ConardLi/easy-dataset.git

cd easy-dataset

2. 安装依赖：

npm install

3. 启动开发服务器：

npm run build

npm run start

4. 打开浏览器并访问 http://localhost:1717

三、使用方法

3.1、创建项目

1. 在首页点击"创建项目"按钮；

2. 输入项目名称和描述；

3. 添加模型，测试模型

3.2、处理文档

1. 右上角选择模型

2. 在"文献处理"页面上传您的文件（支持 PDF、Markdwon、txt、DOCX）；

3. 查看和调整自动分割的文本片段；

4. 查看和调整全局领域树

3.3、生成问题

1. 基于文本块“批量生成问题”；

2. 查看并编辑生成的问题；

3. 使用标签树组织问题

3.4、创建数据集

1. 基于问题“批量构造数据集”；

2. 使用配置的 LLM 生成答案；

3. 查看、编辑并优化生成的答案

3.5、导出数据集

1. 在数据集管理页面，勾选问题，"导出数据集"按钮；

2. 选择您喜欢的格式（Alpaca 或 ShareGPT）；

3. 选择文件格式（JSON 或 JSONL）；

4. 根据需要添加自定义系统提示；

5. 导出您的数据集

四、参考

easy-dataset/README.zh-CN.md at main · ConardLi/easy-dataset

⁠‌‌‬‌⁠‌⁠‬‌⁠‬‍‌⁠‌‬⁠⁠⁠‬⁠⁠‌‌‌‌Easy Dataset × LLaMA Factory: 让大模型高效学习领域知识 - 飞书云文档

【2025最新】从0打造大模型微调数据集，一键将领域知识转化为结构化数据集，使数据集构造过程变得简单高效！超详细讲解，原理详解+项目实战！_哔哩哔哩_bilibili

查看全文

http://www.dtcms.com/a/419184.html

学校网站管理方案做网站需要哪些手续

大连建设工程网站惠州建设集团公司网站

中国城市市政公用设施水平数据（1990-2022年）

【算法笔记】二叉树递归解题套路及其应用

洋气的传媒公司名字永州seo快速排名

充电桩智能升级方案之微波雷达模块WT4101A-C04

1、Lombok入门与环境配置：理解Lombok作用、配置IDE与构建工具

【PostgreSQL内核学习：哈希聚合（HashAgg）执行流程与函数调用关系分析】

选择邯郸网站建设电商网站如何备案

易旅游网站建设东莞有哪些做推广的网站

[算法练习]第三天：定长滑动窗口

山海织锦·时序成画——连云港城市旅游宣传片的策划、拍摄与制作全流程解构

Mariadb服务器

现代Web存储技术（三）：配额监控与自动化清理机制

高并发系统的海量数据处理架构

苹果群控系统游戏运营如何实现自动执行任务

NXP - 在MCUXpresso IDE中查看编译日志文件的方法

荣耀官方网站郑州粒米seo外包

UI自动化框架之Selenium（一）

AI编程：自动化代码生成的实践

网站免费建站ppa企业网站托管和网站建设服务商

LSTM自然语言处理情感分析项目(二)加载数据集

自定义渲染管线 Custom Render Pipeline

【循环神经网络3】门控循环单元GRU详解

邯郸网站设计做网站的动态图片

建网站要花钱吗网络建设推广

【Java并发】揭秘Lock体系 -- 深入理解AbstractQueuedSynchronizer（AQS）

3.8 数据链路层设备 (答案见原书 P122)

轻松修复 WordPress 的“缺少临时文件夹”错误

PHP智能开发工具PhpStorm v2025.2全新上线——支持PHPUnit 12等