Maestro : un outil pour simplifier le processus de mise au point des modèles des principaux langages visuels open source

Introduction générale

Maestro est un outil développé par Roboflow pour simplifier et accélérer le processus de réglage fin des modèles multimodaux afin que chacun puisse entraîner ses propres grands modèles visuels. Il fournit des recettes prêtes à l'emploi pour affiner les modèles visuels de langage (VLM) populaires tels que Florence-2, PaliGemma 2 et Qwen2.5-VL. Maestro permet aux utilisateurs d'affiner les modèles plus efficacement en encapsulant les meilleures pratiques dans les modules de base qui traitent de la configuration, du chargement des données, de la reproductibilité et des paramètres de la boucle d'entraînement.

Maestro:简化主流开源视觉语言模型微调过程的工具

 

Liste des fonctions

  • gestion de la configurationLe fichier de configuration du modèle est traité automatiquement, ce qui simplifie le processus d'installation.
  • Chargement des donnéesLes données peuvent être traitées dans plusieurs formats, le prétraitement et le chargement des données sont automatisés.
  • Configuration du cycle d'entraînementLes cycles de formation standardisés garantissent la reproductibilité du processus de formation.
  • formule toute faiteLe système de gestion des modèles : fournit une variété de recettes de mise au point pour les modèles que les utilisateurs peuvent utiliser directement.
  • Interface de ligne de commande (CLI)Le processus de réglage fin est lancé par une simple instruction de ligne de commande.
  • API PythonLe système de gestion de l'information est un outil de gestion de l'information qui permet d'améliorer l'efficacité de la gestion de l'information et de la communication.
  • Livres de cuisineLes utilisateurs ont accès à des tutoriels et des exemples détaillés pour les aider à démarrer rapidement.

 

Utiliser l'aide

Processus d'installation

  1. Créer un environnement virtuelLes modèles peuvent avoir des dépendances conflictuelles, il est donc recommandé de créer un environnement Python dédié à chaque modèle.
   python -m venv maestro_env
source maestro_env/bin/activate
  1. Installation des dépendancesInstallation des dépendances spécifiques au modèle, le cas échéant.
   pip install "maestro[paligemma_2]"

Utilisation de l'interface de ligne de commande (CLI)

  1. l'amorçage et la mise au pointLancement du processus de mise au point à l'aide de l'interface de ligne de commande, en spécifiant des paramètres clés tels que l'emplacement du jeu de données, le nombre de cycles d'entraînement, la taille du lot, la stratégie d'optimisation et les mesures d'évaluation.
   maestro paligemma_2 train \
--dataset "dataset/location" \
--epochs 10 \
--batch-size 4 \
--optimization_strategy "qlora" \
--metrics "edit_distance"

Utiliser l'API Python

  1. Importation de fonctions de formationImportation de la fonction d'apprentissage à partir du module correspondant et définition de la configuration dans le dictionnaire.
   from maestro.trainer.models.paligemma_2.core import train
config = {
"dataset": "dataset/location",
"epochs": 10,
"batch_size": 4,
"optimization_strategy": "qlora",
"metrics": ["edit_distance"]
}
train(config)

Utilisation de livres de cuisine

Maestro fournit des livres de recettes détaillés pour aider les utilisateurs à apprendre comment régler avec précision les différents VLM sur une variété de tâches visuelles. par exemple :

  • Réglage fin de Florence-2 pour la détection de cibles avec LoRA
  • Optimisation de PaliGemma 2 pour l'extraction de données JSON avec LoRA
  • Mise au point avec QLoRA Qwen2.5-VL Effectuer l'extraction des données JSON
© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...