Ultravox : un macromodèle audio multimodal pour un dialogue vocal en temps réel de bout en bout, une implémentation open source de l'interaction vocale GPT-4o

Introduction générale

Ultravox est un modèle multimodal innovant de grand langage (LLM) conçu pour le traitement de la parole en temps réel. Contrairement aux systèmes de reconnaissance vocale traditionnels, Ultravox élimine le besoin d'une étape distincte de reconnaissance de la parole audio (ASR) et est capable de convertir directement l'audio en texte dans un espace de haute dimension. Cette caractéristique confère à Ultravox un avantage significatif en termes de réactivité et d'efficacité de traitement. Entraîné sur des modèles tels que Llama 3, Mistral et Gemma, Ultravox est capable de comprendre à la fois le texte et la parole humaine et, à l'avenir, sera capable de comprendre nativement les indices temporels et émotionnels dans la parole. La version actuelle d'Ultravox prend environ 150 millisecondes pour générer du texte pour la première fois lors du traitement d'un contenu audio, générant environ 60 tokens par seconde.

Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

 

Liste des fonctions

  • Traitement de la parole en temps réel : convertit l'audio directement en texte sans passer par une étape ASR séparée.
  • Support multimodal : capable de comprendre le texte et la parole, et à l'avenir de prendre en charge les indices émotionnels et temporels.
  • Réponse efficace : le temps de génération du premier texte est d'environ 150 ms, ce qui permet de générer environ 60 balises par seconde.
  • Compatible avec de nombreux modèles : formation basée sur des modèles tels que Llama 3, Mistral et Gemma.
  • Projet open source : le code et les poids des modèles sont disponibles sur GitHub et Hugging Face.
  • Démonstration et API : fournir une démonstration de Gradio et une API hébergée pour que les utilisateurs puissent démarrer rapidement.

 

Utiliser l'aide

Processus d'installation

  1. Paramètres environnementaux: :
    • Pour les utilisateurs de Mac, il est recommandé d'installer Homebrew. Exécutez la commande suivante pour installer Homebrew :
     /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
    
    • Mettre à jour Homebrew et installer les outils nécessaires :
     brew update
    brew install just
    
  2. projet de clonage: :
    • Utilisez la commande suivante pour cloner le projet Ultravox :
     git clone https://github.com/fixie-ai/ultravox.git
    cd ultravox
    
  3. Installation des dépendances: :
    • Utilisez la commande suivante pour installer les dépendances du projet : bash
      pip install -r requirements.txt

Processus d'utilisation

  1. Démonstration en cours: :
    • Ultravox fournit une démo Gradio, les utilisateurs peuvent lancer une démo locale avec la commande suivante :
     gradio --voice_mode=True
    
    • Visitez l'URL locale fournie pour découvrir le traitement de la voix en temps réel d'Ultravox.
  2. Utiliser l'API: :
    • Ultravox fournit un ensemble d'API hébergées auxquelles les utilisateurs peuvent accéder en suivant les étapes ci-dessous :
      • Visitez la page API d'Ultravox pour vous inscrire et obtenir votre clé API.
      • Appelez le service de traitement de la voix en temps réel d'Ultravox à l'aide d'une clé API.
  3. Formation de modèles personnalisés: :
    • Les utilisateurs peuvent former leurs propres modèles Ultravox si nécessaire. Les étapes détaillées de l'entraînement et les fichiers de configuration se trouvent dans le fichier README du projet.

Principales fonctions

  • Traitement de la parole en temps réel: :
    • Enregistrez ou téléchargez un fichier audio et Ultravox convertira automatiquement l'audio en texte.
    • Le traitement en continu est pris en charge et les utilisateurs peuvent visualiser les résultats de la conversion en temps réel.
  • soutien multimodal: :
    • Saisissez du texte ou de la parole, et Ultravox est capable de comprendre et de traiter plusieurs formes d'entrée.
    • Les versions futures permettront une compréhension native des indices émotionnels et temporels.
  • Une réponse efficace: :
    • Ultravox traite le contenu audio en environ 150 millisecondes pour la première génération de texte et génère environ 60 marqueurs par seconde, ce qui garantit une réponse efficace en temps réel.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...