综合介绍
Easy Dataset 是一个专门为大模型(LLM)微调设计的开源工具,托管在 GitHub 上。它提供了一个简单易用的界面,让用户可以上传文件、自动分割内容、生成问题和答案,最终输出适合微调的结构化数据集。开发者 Conard Li 创建这个工具,目的是帮助用户将领域知识转化为高质量训练数据。它支持多种导出格式,比如 JSON 和 Alpaca,并且兼容所有遵循 OpenAI 格式的 LLM API。不管你是技术专家还是普通用户,这个工具都能让你轻松上手,快速完成数据集制作。
功能列表
- 智能文档处理:上传 Markdown 文件后,工具会自动将其分割成小块内容。
- 问题生成:根据分割后的文本,自动生成相关问题。
- 答案生成:调用 LLM API 为每个问题生成详细答案。
- 灵活编辑:支持在任何阶段修改问题、答案或数据集内容。
- 多种导出格式:可以将数据集导出为 JSON、JSONL 或 Alpaca 等格式。
- 广泛模型支持:兼容所有遵循 OpenAI 格式的 LLM API。
- 用户友好界面:设计直观,适合技术人员和非技术人员使用。
- 自定义提示:允许用户添加系统提示,引导模型生成特定风格的答案。
使用帮助
安装流程
Easy Dataset 提供了两种主要使用方式:通过 Docker 部署或本地源码运行。以下是详细步骤:
通过 Docker 安装
- 安装 Docker
如果你的电脑还没有 Docker,下载并安装 Docker Desktop。安装完成后,打开终端检查是否成功:
docker --version
如果显示版本号,说明安装好了。
- 拉取镜像并运行
在终端输入以下命令,拉取官方镜像并启动服务:
docker run -d -p 3000:3000 -v {你的本地路径}:/app/local-db --name easy-dataset conardli17/easy-dataset:latest
{你的本地路径}
需要替换成你电脑上用来存储数据的文件夹路径,比如C:\data
(Windows)或/home/user/data
(Linux/Mac)。-p 3000:3000
表示将容器内的 3000 端口映射到本地的 3000 端口。-v
是为了保存数据,避免容器重启后丢失。
- 访问界面
启动成功后,打开浏览器,输入http://localhost:3000
。你会看到 Easy Dataset 的主页,点击“Create Project”按钮就可以开始使用。
通过源码本地运行
- 准备环境
- 确保你的电脑安装了 Node.js(版本 18.x 或更高)和 npm。
- 检查方式:在终端输入
node -v
和npm -v
,看到版本号即可。
- 克隆仓库
在终端输入:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
- 安装依赖
在项目文件夹内运行:
npm install
- 启动服务
输入以下命令编译并运行:
npm run build
npm run start
完成后,打开浏览器访问 http://localhost:3000
,即可进入工具界面。
主要功能操作流程
创建项目
- 进入主页后,点击“Create Project”按钮。
- 输入项目名称,比如“我的数据集”。
- 点击“确认”,系统会为你创建一个新的项目空间。
上传和处理文档
- 在项目页面,找到“Text Split”或“文本分割”选项。
- 点击“上传文件”,选择本地的 Markdown 文件(比如
example.md
)。 - 上传后,工具会自动将文件内容分割成小段。每段都会显示在界面上,你可以手动调整分割结果。
生成问题和答案
- 进入“Questions”或“问题管理”页面。
- 点击“Generate Questions”按钮,工具会根据每段文本生成相关问题。
- 检查生成的问题,如果不满意,可以点击问题旁边的编辑按钮修改。
- 点击“Generate Answers”,选择一个 LLM API(需要提前配置 API 密钥),工具会为每个问题生成答案。
- 答案生成后,你可以手动编辑,确保内容符合需求。
导出数据集
- 进入“Datasets”或“数据集管理”页面。
- 点击“Export”按钮,选择导出格式(比如 JSON 或 Alpaca)。
- 系统会生成一个文件,点击下载,保存到本地。
特色功能操作
配置 LLM API
- 在“Settings”或“设置”页面,找到“模型配置”。
- 输入你的 LLM API 密钥(比如 OpenAI 的 API Key)。
- 选择模型类型(支持多种常见模型),保存配置。
- 配置完成后,生成答案时会调用这个模型。
自定义系统提示
- 在“Settings”页面,找到“Prompts”或“提示模板”。
- 输入自定义提示,比如“请用简洁的语言回答问题”。
- 保存后,生成答案时会按照你的提示调整风格。
数据集优化
- 在“Datasets”页面,点击“Optimize”按钮。
- 系统会分析数据集,删除重复内容或优化格式。
- 优化后的数据集更适合直接用于模型微调。
注意事项
- 如果用 Docker 部署,别忘了定期备份
{你的本地路径}
里的数据。 - 本地运行时,确保网络畅通,因为生成答案需要联网调用 API。
- 如果遇到错误,可以查看 GitHub 上的“Releases”页面,下载最新版本修复问题。
应用场景
- 模型开发者微调 LLM
开发者可以用 Easy Dataset 处理技术文档,生成问答对,快速制作训练集,提升模型在特定领域的表现。 - 教育工作者制作学习资料
老师可以上传课程讲义,生成问题和答案,用于学生复习或在线课程内容制作。 - 研究人员整理领域知识
研究人员可以将论文或报告上传,提取关键问题和解答,整理成结构化数据用于分析。
QA
- Easy Dataset 支持哪些文件格式?
目前主要支持 Markdown 文件(.md
),未来可能会增加其他格式支持。 - 需要自己提供 LLM API 吗?
是的,工具本身不提供 LLM 服务,需要用户配置自己的 API 密钥,比如 OpenAI 或其他兼容的模型。 - 导出的数据集可以用在哪些模型上?
只要模型支持 OpenAI 格式(比如 LLaMA、GPT 等),都可以直接使用导出的数据集。