综合介绍
SFT-data-builder 是一个开源项目,旨在利用免费的大模型API结合用户的私域数据生成高质量的SFT训练数据。该工具支持多种AI模型格式,并提供一键生成、批量生成、灵活编辑和本地存储等功能,帮助用户快速生成适用于预训练、微调、功能调用等场景的训练数据。
功能列表
- 一键生成训练数据:支持众多OpenAI格式调用的本地或云端模型。
- 批量生成:一次生成多条不同角度的训练数据,支持批量URL文章自动生成数据。
- 灵活编辑:所有生成的数据都可以随时编辑和调整。
- 本地存储:自动保存所有数据到本地。
- 导出简单:一键导出标准格式JSON文件。
- 多模型支持:支持多种主流AI模型,可自定义模型。
- 多格式支持:支持PDF、Word、TXT等多种文件格式。
使用帮助
安装流程
- 安装依赖:在项目目录下运行
npm install
。 - 启动项目:运行
npm run start
启动项目。
使用指南
- 配置API:
- 点击“打开配置”按钮。
- 设置API地址和密钥。
- 选择或自定义AI模型。
- 设置每次生成的数据条数。
- 输入内容:
- 上传文件(支持PDF、DOCX、TXT)。
- 或直接输入文本内容。
- 生成数据:
- 点击“生成AI响应”按钮。
- 在多个生成结果中切换,根据需要编辑生成的内容。
- 管理数据:
- 添加到数据列表。
- 预览所有生成的数据。
- 删除不需要的数据。
- 导出为JSON文件。
功能操作流程
- 一键生成训练数据:
- 选择或自定义AI模型。
- 输入或上传文本内容。
- 点击“生成AI响应”按钮,系统会自动生成训练数据。
- 批量生成:
- 在配置页面设置批量生成参数。
- 上传包含多个URL的文件或输入多个URL。
- 点击“批量生成”按钮,系统会自动生成多条训练数据。
- 灵活编辑:
- 在生成结果页面,点击需要编辑的数据条目。
- 在编辑器中修改内容,保存更改。
- 本地存储和导出:
- 所有生成的数据会自动保存到本地存储。
- 在数据管理页面,选择需要导出的数据,点击“导出为JSON”按钮。