Easy Dataset: простой инструмент для создания больших модельных наборов данных с точной настройкой
Общее введение
Easy Dataset - это инструмент с открытым исходным кодом, разработанный специально для тонкой настройки больших моделей (LLM) и размещенный на GitHub. Он предоставляет простой в использовании интерфейс, позволяющий пользователям загружать файлы, автоматически сегментировать контент, генерировать вопросы и ответы и в итоге выдавать структурированные наборы данных, пригодные для тонкой настройки. Разработчик Конард Ли создал этот инструмент, чтобы помочь пользователям преобразовать знания о предметной области в высококачественные обучающие данные. Он поддерживает множество форматов экспорта, таких как JSON и Alpaca, и совместим со всеми API LLM, которые следуют формату OpenAI, что позволяет легко начать работу и быстро создавать наборы данных, независимо от того, являетесь ли вы техническим экспертом или случайным пользователем.

Список функций
- Интеллектуальная обработка документов: Когда вы загружаете файл в формате Markdown, инструмент автоматически разбивает его на более мелкие фрагменты.
- Поколение вопросов: Автоматическое генерирование релевантных вопросов на основе сегментированного текста.
- Поколение ответов: Вызовите LLM API, чтобы сгенерировать подробные ответы на каждый вопрос.
- Гибкое редактирование: Поддержка изменения вопросов, ответов или содержимого набора данных на любом этапе.
- Несколько форматов экспортаНаборы данных можно экспортировать в форматы JSON, JSONL или Alpaca.
- Широкая поддержка моделей: Совместим со всеми API LLM, которые следуют формату OpenAI.
- удобный интерфейс: Дизайн интуитивно понятен и подходит как для технических, так и для нетехнических пользователей.
- Пользовательские советы: Позволяет пользователю добавлять системные подсказки, которые направляют модель на создание определенного стиля ответа.
Использование помощи
Процесс установки
Easy Dataset предлагает два основных способа использования: развертывание через Docker или запуск из локальных источников. Ниже приведены подробные шаги:
Установка через Docker
- Установка Docker
Если на вашем компьютере еще нет Docker, загрузите и установите Docker Desktop. После завершения установки откройте терминал, чтобы проверить успешность установки:
docker --version
Если отображается номер версии, это означает, что программа установлена.
- Извлеките изображение и запустите
Введите следующую команду в терминале, чтобы извлечь официальный образ и запустить службу:
docker run -d -p 3000:3000 -v {你的本地路径}:/app/local-db --name easy-dataset conardli17/easy-dataset:latest
{你的本地路径}
Замените его на путь к папке на вашем компьютере, в которой хранятся данные, напримерC:\data
(Windows) или/home/user/data
(Linux/Mac).-p 3000:3000
Указывает, что порт 3000 в контейнере сопоставлен с портом 3000 локально.-v
Это позволяет сохранить данные от потери после перезапуска контейнера.
- интерфейс доступа
После успешного запуска откройте браузер и введитеhttp://localhost:3000
Вы увидите домашнюю страницу Easy Dataset. Вы увидите домашнюю страницу Easy Dataset, нажмите кнопку "Создать проект", чтобы начать работу.
Локальный запуск через исходный код
- Подготовка среды
- Убедитесь, что на вашем компьютере установлены Node.js (версия 18.x или выше) и npm.
- Метод проверки: введите в терминале
node -v
ответить пениемnpm -v
Просто посмотрите номер версии.
- склад клонов
Введите его в терминал:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
- Установка зависимостей
Запускается внутри папки проекта:
npm install
- Начальные услуги
Введите следующую команду для компиляции и запуска:
npm run build
npm run start
После этого откройте браузер и зайдите на сайт http://localhost:3000
Вы можете открыть экран Инструменты.
Основные функции
Создать проект
- Оказавшись на главной странице, нажмите на кнопку "Создать проект".
- Введите название проекта, например "My Dataset".
- Нажмите "Подтвердить", и система создаст для вас новое проектное пространство.
Загрузка и обработка документов
- На странице проекта найдите опцию "Разделение текста" или "Разделение текста".
- Нажмите "Загрузить файл" и выберите локальный файл Markdown (например.
example.md
). - После загрузки инструмент автоматически разделит содержимое файла на небольшие сегменты. Каждый сегмент отображается в интерфейсе, и вы можете вручную настроить результат разбиения.
Создавайте вопросы и ответы
- Перейдите на экран "Вопросы" или "Управление вопросами".
- Нажмите на кнопку "Сгенерировать вопросы", и инструмент сгенерирует вопросы на основе каждого текста.
- Проверьте сгенерированный вопрос и, если он вас не устраивает, измените его, нажав на кнопку Edit рядом с вопросом.
- Нажмите "Генерировать ответы", выберите LLM API (необходимо заранее настроить ключ API), и инструмент сгенерирует ответы на каждый вопрос.
- После того как ответы будут созданы, вы можете вручную отредактировать их, чтобы убедиться, что содержание соответствует требованиям.
Экспорт набора данных
- Перейдите на экран Datasets или Dataset Management.
- Нажмите на кнопку "Экспорт" и выберите формат экспорта (например, JSON или Alpaca).
- Система сгенерирует файл, нажмите кнопку "Загрузить" и сохраните его локально.
Функциональное управление
Настройка API LLM
- На странице Настройки найдите пункт Конфигурация модели.
- Введите свой ключ API LLM (например, ключ API OpenAI).
- Выберите тип модели (поддерживается множество распространенных моделей) и сохраните конфигурацию.
- После настройки эта модель будет вызываться при генерации ответов.
Индивидуальные системные оповещения
- На странице "Настройки" найдите "Подсказки" или "Шаблоны подсказок".
- Введите пользовательские подсказки, например "Пожалуйста, ответьте на вопрос простым языком".
- После сохранения ответы будут сгенерированы, а их стиль будет скорректирован в соответствии с вашими подсказками.
Оптимизация набора данных
- На экране "Наборы данных" нажмите кнопку Оптимизировать.
- Система анализирует набор данных, удаляет дубликаты или оптимизирует формат.
- Оптимизированный набор данных больше подходит для непосредственного использования при точной настройке модели.
предостережение
- Если вы развертываете систему с помощью Docker, не забывайте регулярно создавать резервные копии!
{你的本地路径}
Данные в нем. - При локальном запуске убедитесь, что сеть открыта, поскольку генерация ответов требует подключения к интернету для вызова API.
- Если вы столкнулись с ошибкой, вы можете проверить страницу "Релизы" на GitHub, чтобы загрузить последнюю версию для устранения проблемы.
сценарий применения
- Разработчики модели дорабатывают LLM
Разработчики могут использовать Easy Dataset для обработки технической документации, создания пар вопросов и ответов, быстрого создания обучающих наборов и повышения эффективности моделей в конкретных областях. - Подготовка учебных материалов преподавателями
Преподаватели могут загружать раздаточные материалы курса и генерировать вопросы и ответы для просмотра студентами или создания контента онлайн-курса. - Исследователи собирают знания о предметной области
Исследователи могут загружать документы или отчеты, извлекать ключевые вопросы и ответы и организовывать их в структурированные данные для анализа.
QA
- Какие форматы файлов поддерживает Easy Dataset?
В настоящее время в основном поддерживаются файлы в формате Markdown (.md
), в будущем может быть добавлена поддержка других форматов. - Нужно ли мне предоставлять свой собственный LLM API?
Да, сам инструмент не предоставляет услуги LLM и требует от пользователя настройки собственного ключа API, например, OpenAI или других совместимых моделей. - Для каких моделей можно использовать экспортированный набор данных?
Если модель поддерживает форматы OpenAI (например, LLaMA, GPT и т. д.), экспортированный набор данных можно использовать напрямую.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...