AI个人学习
和实操指南
豆包Marscode1

Easy Dataset:创建大模型微调数据集的简易工具

综合介绍

Easy Dataset 是一个专门为大模型(LLM)微调设计的开源工具,托管在 GitHub 上。它提供了一个简单易用的界面,让用户可以上传文件、自动分割内容、生成问题和答案,最终输出适合微调的结构化数据集。开发者 Conard Li 创建这个工具,目的是帮助用户将领域知识转化为高质量训练数据。它支持多种导出格式,比如 JSON 和 Alpaca,并且兼容所有遵循 OpenAI 格式的 LLM API。不管你是技术专家还是普通用户,这个工具都能让你轻松上手,快速完成数据集制作。

Easy Dataset:创建大模型微调数据集的简易工具-1


 

功能列表

  • 智能文档处理:上传 Markdown 文件后,工具会自动将其分割成小块内容。
  • 问题生成:根据分割后的文本,自动生成相关问题。
  • 答案生成:调用 LLM API 为每个问题生成详细答案。
  • 灵活编辑:支持在任何阶段修改问题、答案或数据集内容。
  • 多种导出格式:可以将数据集导出为 JSON、JSONL 或 Alpaca 等格式。
  • 广泛模型支持:兼容所有遵循 OpenAI 格式的 LLM API。
  • 用户友好界面:设计直观,适合技术人员和非技术人员使用。
  • 自定义提示:允许用户添加系统提示,引导模型生成特定风格的答案。

 

使用帮助

安装流程

Easy Dataset 提供了两种主要使用方式:通过 Docker 部署或本地源码运行。以下是详细步骤:

通过 Docker 安装

  1. 安装 Docker
    如果你的电脑还没有 Docker,下载并安装 Docker Desktop。安装完成后,打开终端检查是否成功:
docker --version

如果显示版本号,说明安装好了。

  1. 拉取镜像并运行
    在终端输入以下命令,拉取官方镜像并启动服务:
docker run -d -p 3000:3000 -v {你的本地路径}:/app/local-db --name easy-dataset conardli17/easy-dataset:latest
  • {你的本地路径} 需要替换成你电脑上用来存储数据的文件夹路径,比如 C:\data(Windows)或 /home/user/data(Linux/Mac)。
  • -p 3000:3000 表示将容器内的 3000 端口映射到本地的 3000 端口。
  • -v 是为了保存数据,避免容器重启后丢失。
  1. 访问界面
    启动成功后,打开浏览器,输入 http://localhost:3000。你会看到 Easy Dataset 的主页,点击“Create Project”按钮就可以开始使用。

通过源码本地运行

  1. 准备环境
  • 确保你的电脑安装了 Node.js(版本 18.x 或更高)和 npm。
  • 检查方式:在终端输入 node -v 和 npm -v,看到版本号即可。
  1. 克隆仓库
    在终端输入:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
  1. 安装依赖
    在项目文件夹内运行:
npm install
  1. 启动服务
    输入以下命令编译并运行:
npm run build
npm run start

完成后,打开浏览器访问 http://localhost:3000,即可进入工具界面。

主要功能操作流程

创建项目

  1. 进入主页后,点击“Create Project”按钮。
  2. 输入项目名称,比如“我的数据集”。
  3. 点击“确认”,系统会为你创建一个新的项目空间。

上传和处理文档

  1. 在项目页面,找到“Text Split”或“文本分割”选项。
  2. 点击“上传文件”,选择本地的 Markdown 文件(比如 example.md)。
  3. 上传后,工具会自动将文件内容分割成小段。每段都会显示在界面上,你可以手动调整分割结果。

生成问题和答案

  1. 进入“Questions”或“问题管理”页面。
  2. 点击“Generate Questions”按钮,工具会根据每段文本生成相关问题。
  3. 检查生成的问题,如果不满意,可以点击问题旁边的编辑按钮修改。
  4. 点击“Generate Answers”,选择一个 LLM API(需要提前配置 API 密钥),工具会为每个问题生成答案。
  5. 答案生成后,你可以手动编辑,确保内容符合需求。

导出数据集

  1. 进入“Datasets”或“数据集管理”页面。
  2. 点击“Export”按钮,选择导出格式(比如 JSON 或 Alpaca)。
  3. 系统会生成一个文件,点击下载,保存到本地。

特色功能操作

配置 LLM API

  1. 在“Settings”或“设置”页面,找到“模型配置”。
  2. 输入你的 LLM API 密钥(比如 OpenAI 的 API Key)。
  3. 选择模型类型(支持多种常见模型),保存配置。
  4. 配置完成后,生成答案时会调用这个模型。

自定义系统提示

  1. 在“Settings”页面,找到“Prompts”或“提示模板”。
  2. 输入自定义提示,比如“请用简洁的语言回答问题”。
  3. 保存后,生成答案时会按照你的提示调整风格。

数据集优化

  1. 在“Datasets”页面,点击“Optimize”按钮。
  2. 系统会分析数据集,删除重复内容或优化格式。
  3. 优化后的数据集更适合直接用于模型微调。

注意事项

  • 如果用 Docker 部署,别忘了定期备份 {你的本地路径} 里的数据。
  • 本地运行时,确保网络畅通,因为生成答案需要联网调用 API。
  • 如果遇到错误,可以查看 GitHub 上的“Releases”页面,下载最新版本修复问题。

 

应用场景

  1. 模型开发者微调 LLM
    开发者可以用 Easy Dataset 处理技术文档,生成问答对,快速制作训练集,提升模型在特定领域的表现。
  2. 教育工作者制作学习资料
    老师可以上传课程讲义,生成问题和答案,用于学生复习或在线课程内容制作。
  3. 研究人员整理领域知识
    研究人员可以将论文或报告上传,提取关键问题和解答,整理成结构化数据用于分析。

 

QA

  1. Easy Dataset 支持哪些文件格式?
    目前主要支持 Markdown 文件(.md),未来可能会增加其他格式支持。
  2. 需要自己提供 LLM API 吗?
    是的,工具本身不提供 LLM 服务,需要用户配置自己的 API 密钥,比如 OpenAI 或其他兼容的模型。
  3. 导出的数据集可以用在哪些模型上?
    只要模型支持 OpenAI 格式(比如 LLaMA、GPT 等),都可以直接使用导出的数据集。
未经允许不得转载:首席AI分享圈 » Easy Dataset:创建大模型微调数据集的简易工具
zh_CN简体中文