Easy Dataset : un outil facile à utiliser pour créer de grands ensembles de données finement réglées.

Dernières ressources sur l'IAPosté il y a 6 mois Cercle de partage de l'IA

21.1K 00

Introduction générale

Easy Dataset est un outil open source conçu spécifiquement pour la mise au point de grands modèles (LLM), hébergé sur GitHub. Il fournit une interface facile à utiliser qui permet aux utilisateurs de télécharger des fichiers, de segmenter automatiquement le contenu, de générer des questions et des réponses et, enfin, de produire des ensembles de données structurés adaptés à la mise au point. Le développeur Conard Li a créé cet outil pour aider les utilisateurs à transformer les connaissances du domaine en données de formation de haute qualité. Il prend en charge plusieurs formats d'exportation, tels que JSON et Alpaca, et est compatible avec toutes les API LLM qui suivent le format OpenAI, ce qui facilite la prise en main et la création rapide d'ensembles de données, que vous soyez un expert technique ou un utilisateur occasionnel.

Liste des fonctions

Traitement intelligent des documentsLorsque vous téléchargez un fichier Markdown, l'outil le divise automatiquement en morceaux plus petits.
Génération de questionsLes questions : Générer automatiquement des questions pertinentes sur la base du texte segmenté.
Génération de réponsesLes réponses détaillées à chaque question sont générées à partir de l'API LLM.
Édition flexibleLes questions, les réponses et le contenu des ensembles de données peuvent être modifiés à n'importe quel stade de la procédure.
Formats d'exportation multiplesLes ensembles de données peuvent être exportés aux formats JSON, JSONL ou Alpaca.
Prise en charge étendue des modèlesCompatible avec toutes les API LLM qui suivent le format OpenAI.
interface convivialeLa conception est intuitive et convient à la fois aux utilisateurs techniques et non techniques.
Conseils personnalisésLes messages d'aide : permettent à l'utilisateur d'ajouter des messages d'aide au système qui orientent le modèle vers un style de réponse particulier.

Utiliser l'aide

Processus d'installation

Easy Dataset offre deux façons principales de l'utiliser : le déployer via Docker ou l'exécuter à partir de sources locales. Voici les étapes détaillées :

Installation via Docker

Installation de Docker
Si votre ordinateur n'est pas encore équipé de Docker, téléchargez et installez Docker Desktop. Une fois l'installation terminée, ouvrez un terminal pour vérifier le succès de l'opération :

docker --version

Si le numéro de version est affiché, cela signifie qu'il est installé.

Tirer l'image et exécuter
Entrez la commande suivante dans le terminal pour extraire l'image officielle et démarrer le service :

docker run -d -p 3000:3000 -v {你的本地路径}:/app/local-db --name easy-dataset conardli17/easy-dataset:latest

{你的本地路径} Vous devez le remplacer par le chemin d'accès au dossier de votre ordinateur que vous utilisez pour stocker les données, par ex. C:\data(Windows) ou /home/user/data(Linux/Mac).
-p 3000:3000 Indique que le port 3000 dans le conteneur est mappé au port 3000 localement.
-v Il s'agit d'éviter que les données ne soient perdues après le redémarrage du conteneur.

interface d'accès
Une fois le lancement réussi, ouvrez votre navigateur et tapez http://localhost:3000La page d'accueil d'Easy Dataset s'affiche. La page d'accueil d'Easy Dataset s'affiche. Cliquez sur le bouton "Créer un projet" pour commencer.

Exécution locale du code source

Préparation de l'environnement

Assurez-vous que Node.js (version 18.x ou supérieure) et npm sont installés sur votre ordinateur.
Méthode de vérification : Entrer dans le terminal node -v répondre en chantant npm -vIl suffit de voir le numéro de version.

entrepôt de clones
Saisissez-le dans le terminal :

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

Installation des dépendances
S'exécute dans le dossier du projet :

npm install

Démarrage des services
Saisissez la commande suivante pour compiler et exécuter :

npm run build
npm run start

Une fois cela fait, ouvrez votre navigateur et visitez http://localhost:3000Vous pouvez accéder à l'écran Outils.

Principales fonctions

Créer un projet

Une fois sur la page d'accueil, cliquez sur le bouton "Créer un projet".
Saisissez le nom du projet, par exemple "My Dataset".
Cliquez sur "Confirmer" et le système créera un nouvel espace de projet pour vous.

Téléchargement et traitement des documents

Sur la page du projet, trouvez l'option "Fractionnement de texte" ou "Fractionnement de texte".
Cliquez sur "Upload file" et sélectionnez un fichier Markdown local (par ex. example.md).
Après le téléchargement, l'outil divise automatiquement le contenu du fichier en petits segments. Chaque segment est affiché sur l'interface et vous pouvez ajuster manuellement le résultat de la division.

Générer des questions et des réponses

Accédez à la page "Questions" ou "Gestion des questions".
Cliquez sur le bouton "Générer des questions" et l'outil générera des questions basées sur chaque texte.
Vérifiez la question générée et si vous n'êtes pas satisfait, vous pouvez la modifier en cliquant sur le bouton Modifier à côté de la question.
Cliquez sur "Générer des réponses", sélectionnez une API LLM (vous devez configurer la clé API à l'avance) et l'outil générera des réponses pour chaque question.
Une fois les réponses générées, vous pouvez les modifier manuellement pour vous assurer que le contenu répond aux exigences.

Exportation d'un ensemble de données

Accédez à l'écran Datasets ou Dataset Management.
Cliquez sur le bouton "Exporter" et sélectionnez le format d'exportation (par exemple JSON ou Alpaca).
Le système génère un fichier, cliquez sur Télécharger et enregistrez-le localement.

Fonction en vedette Fonctionnement

Configuration de l'API LLM

Sur la page Paramètres, recherchez Configuration du modèle.
Saisissez votre clé API LLM (par exemple, la clé API d'OpenAI).
Sélectionnez le type de modèle (de nombreux modèles courants sont pris en charge) et enregistrez la configuration.
Une fois configuré, ce modèle sera appelé lors de la génération des réponses.

Alertes personnalisées

Sur la page Paramètres, recherchez Invites ou Modèles d'invites.
Saisir des invites personnalisées, telles que "Veuillez répondre à la question dans un langage simple".
Une fois sauvegardées, les réponses seront générées avec un style adapté à vos questions.

Optimisation de l'ensemble des données

Dans l'écran Datasets, cliquez sur le bouton Optimiser.
Le système analyse l'ensemble des données et supprime les doublons ou optimise le format.
L'ensemble de données optimisé est plus approprié pour une utilisation directe dans l'affinement du modèle.

mise en garde

Si vous déployez avec Docker, n'oubliez pas de faire des sauvegardes régulières ! {你的本地路径} Les données qu'il contient.
En cas d'exécution locale, assurez-vous que le réseau est ouvert, car la génération de réponses nécessite une connexion internet pour appeler l'API.
Si vous rencontrez une erreur, vous pouvez consulter la page "Releases" sur GitHub pour télécharger la dernière version qui corrigera le problème.

scénario d'application

Les développeurs de modèles peaufinent le LLM
Les développeurs peuvent utiliser Easy Dataset pour traiter des documents techniques, générer des paires de questions-réponses, produire rapidement des ensembles de formation et améliorer les performances des modèles dans des domaines spécifiques.
Production de matériel pédagogique par les éducateurs
Les enseignants peuvent télécharger des documents de cours et générer des questions et des réponses pour la révision par les étudiants ou la création de contenu de cours en ligne.
Les chercheurs rassemblent les connaissances du domaine
Les chercheurs peuvent télécharger des documents ou des rapports, en extraire les questions et les réponses clés et les organiser en données structurées à des fins d'analyse.

QA

Quels sont les formats de fichiers pris en charge par Easy Dataset ?
Actuellement, la prise en charge principale est celle des fichiers Markdown (.md), d'autres formats pourront être ajoutés à l'avenir.
Dois-je fournir ma propre API LLM ?
Oui, l'outil lui-même ne fournit pas de services LLM et demande à l'utilisateur de configurer ses propres clés API, comme OpenAI ou d'autres modèles compatibles.
Pour quels modèles le jeu de données exporté peut-il être utilisé ?
Tant que le modèle prend en charge les formats OpenAI (par exemple LLaMA, GPT, etc.), le jeu de données exporté peut être utilisé directement.