Easy Dataset: простой инструмент для создания больших модельных наборов данных с точной настройкой

Последние ресурсы по искусственному интеллектуОпубликовано 9 месяцев назад Круг обмена ИИ

45.2K 00

Общее введение

Easy Dataset - это инструмент с открытым исходным кодом, разработанный специально для тонкой настройки больших моделей (LLM) и размещенный на GitHub. Он предоставляет простой в использовании интерфейс, позволяющий пользователям загружать файлы, автоматически сегментировать контент, генерировать вопросы и ответы и в итоге выдавать структурированные наборы данных, пригодные для тонкой настройки. Разработчик Конард Ли создал этот инструмент, чтобы помочь пользователям преобразовать знания о предметной области в высококачественные обучающие данные. Он поддерживает множество форматов экспорта, таких как JSON и Alpaca, и совместим со всеми API LLM, которые следуют формату OpenAI, что позволяет легко начать работу и быстро создавать наборы данных, независимо от того, являетесь ли вы техническим экспертом или случайным пользователем.

Список функций

Интеллектуальная обработка документов: Когда вы загружаете файл в формате Markdown, инструмент автоматически разбивает его на более мелкие фрагменты.
Поколение вопросов: Автоматическое генерирование релевантных вопросов на основе сегментированного текста.
Поколение ответов: Вызовите LLM API, чтобы сгенерировать подробные ответы на каждый вопрос.
Гибкое редактирование: Поддержка изменения вопросов, ответов или содержимого набора данных на любом этапе.
Несколько форматов экспортаНаборы данных можно экспортировать в форматы JSON, JSONL или Alpaca.
Широкая поддержка моделей: Совместим со всеми API LLM, которые следуют формату OpenAI.
удобный интерфейс: Дизайн интуитивно понятен и подходит как для технических, так и для нетехнических пользователей.
Пользовательские советы: Позволяет пользователю добавлять системные подсказки, которые направляют модель на создание определенного стиля ответа.

Использование помощи

Процесс установки

Easy Dataset предлагает два основных способа использования: развертывание через Docker или запуск из локальных источников. Ниже приведены подробные шаги:

Установка через Docker

Установка Docker
Если на вашем компьютере еще нет Docker, загрузите и установите Docker Desktop. После завершения установки откройте терминал, чтобы проверить успешность установки:

docker --version

Если отображается номер версии, это означает, что программа установлена.

Извлеките изображение и запустите
Введите следующую команду в терминале, чтобы извлечь официальный образ и запустить службу:

docker run -d -p 3000:3000 -v {你的本地路径}:/app/local-db --name easy-dataset conardli17/easy-dataset:latest

{你的本地路径} Замените его на путь к папке на вашем компьютере, в которой хранятся данные, например C:\data(Windows) или /home/user/data(Linux/Mac).
-p 3000:3000 Указывает, что порт 3000 в контейнере сопоставлен с портом 3000 локально.
-v Это позволяет сохранить данные от потери после перезапуска контейнера.

интерфейс доступа
После успешного запуска откройте браузер и введите http://localhost:3000Вы увидите домашнюю страницу Easy Dataset. Вы увидите домашнюю страницу Easy Dataset, нажмите кнопку "Создать проект", чтобы начать работу.

Локальный запуск через исходный код

Подготовка среды

Убедитесь, что на вашем компьютере установлены Node.js (версия 18.x или выше) и npm.
Метод проверки: введите в терминале node -v ответить пением npm -vПросто посмотрите номер версии.

склад клонов
Введите его в терминал:

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

Установка зависимостей
Запускается внутри папки проекта:

npm install

Начальные услуги
Введите следующую команду для компиляции и запуска:

npm run build
npm run start

После этого откройте браузер и зайдите на сайт http://localhost:3000Вы можете открыть экран Инструменты.

Основные функции

Создать проект

Оказавшись на главной странице, нажмите на кнопку "Создать проект".
Введите название проекта, например "My Dataset".
Нажмите "Подтвердить", и система создаст для вас новое проектное пространство.

Загрузка и обработка документов

На странице проекта найдите опцию "Разделение текста" или "Разделение текста".
Нажмите "Загрузить файл" и выберите локальный файл Markdown (например. example.md).
После загрузки инструмент автоматически разделит содержимое файла на небольшие сегменты. Каждый сегмент отображается в интерфейсе, и вы можете вручную настроить результат разбиения.

Создавайте вопросы и ответы

Перейдите на экран "Вопросы" или "Управление вопросами".
Нажмите на кнопку "Сгенерировать вопросы", и инструмент сгенерирует вопросы на основе каждого текста.
Проверьте сгенерированный вопрос и, если он вас не устраивает, измените его, нажав на кнопку Edit рядом с вопросом.
Нажмите "Генерировать ответы", выберите LLM API (необходимо заранее настроить ключ API), и инструмент сгенерирует ответы на каждый вопрос.
После того как ответы будут созданы, вы можете вручную отредактировать их, чтобы убедиться, что содержание соответствует требованиям.

Экспорт набора данных

Перейдите на экран Datasets или Dataset Management.
Нажмите на кнопку "Экспорт" и выберите формат экспорта (например, JSON или Alpaca).
Система сгенерирует файл, нажмите кнопку "Загрузить" и сохраните его локально.

Функциональное управление

Настройка API LLM

На странице Настройки найдите пункт Конфигурация модели.
Введите свой ключ API LLM (например, ключ API OpenAI).
Выберите тип модели (поддерживается множество распространенных моделей) и сохраните конфигурацию.
После настройки эта модель будет вызываться при генерации ответов.

Индивидуальные системные оповещения

На странице "Настройки" найдите "Подсказки" или "Шаблоны подсказок".
Введите пользовательские подсказки, например "Пожалуйста, ответьте на вопрос простым языком".
После сохранения ответы будут сгенерированы, а их стиль будет скорректирован в соответствии с вашими подсказками.

Оптимизация набора данных

На экране "Наборы данных" нажмите кнопку Оптимизировать.
Система анализирует набор данных, удаляет дубликаты или оптимизирует формат.
Оптимизированный набор данных больше подходит для непосредственного использования при точной настройке модели.

предостережение

Если вы развертываете систему с помощью Docker, не забывайте регулярно создавать резервные копии! {你的本地路径} Данные в нем.
При локальном запуске убедитесь, что сеть открыта, поскольку генерация ответов требует подключения к интернету для вызова API.
Если вы столкнулись с ошибкой, вы можете проверить страницу "Релизы" на GitHub, чтобы загрузить последнюю версию для устранения проблемы.

сценарий применения

Разработчики модели дорабатывают LLM
Разработчики могут использовать Easy Dataset для обработки технической документации, создания пар вопросов и ответов, быстрого создания обучающих наборов и повышения эффективности моделей в конкретных областях.
Подготовка учебных материалов преподавателями
Преподаватели могут загружать раздаточные материалы курса и генерировать вопросы и ответы для просмотра студентами или создания контента онлайн-курса.
Исследователи собирают знания о предметной области
Исследователи могут загружать документы или отчеты, извлекать ключевые вопросы и ответы и организовывать их в структурированные данные для анализа.

QA

Какие форматы файлов поддерживает Easy Dataset?
В настоящее время в основном поддерживаются файлы в формате Markdown (.md), в будущем может быть добавлена поддержка других форматов.
Нужно ли мне предоставлять свой собственный LLM API?
Да, сам инструмент не предоставляет услуги LLM и требует от пользователя настройки собственного ключа API, например, OpenAI или других совместимых моделей.
Для каких моделей можно использовать экспортированный набор данных?
Если модель поддерживает форматы OpenAI (например, LLaMA, GPT и т. д.), экспортированный набор данных можно использовать напрямую.