AI Personal Learning
und praktische Anleitung
讯飞绘镜

Ultravox: ein multimodales Audiomakromodell für einen End-to-End-Sprachdialog in Echtzeit, eine Open-Source-Implementierung der GPT-4o-Sprachinteraktion

Allgemeine Einführung

Ultravox ist ein innovatives multimodales Large Language Model (LLM), das für die Sprachverarbeitung in Echtzeit entwickelt wurde. Im Gegensatz zu herkömmlichen Spracherkennungssystemen macht Ultravox eine separate Audio-Spracherkennungsstufe (ASR) überflüssig und ist in der Lage, Audio direkt in Text im hochdimensionalen Raum umzuwandeln. Ultravox wurde auf der Grundlage von Modellen wie Llama 3, Mistral und Gemma trainiert und ist in der Lage, sowohl Text als auch menschliche Sprache zu verstehen. In Zukunft wird Ultravox auch in der Lage sein, zeitliche und emotionale Hinweise in Sprache zu erkennen. Die aktuelle Version von Ultravox benötigt etwa 150 Millisekunden, um bei der Verarbeitung von Audioinhalten zum ersten Mal Text zu generieren, wobei etwa 60 Token pro Sekunde erzeugt werden.

Ultravox:实时语音处理的快速多模态LLM-1


 

Funktionsliste

  • Echtzeit-Sprachverarbeitung: Wandelt Audio direkt in Text um, ohne eine separate ASR-Stufe.
  • Multimodale Unterstützung: kann Text und Sprache verstehen und wird in Zukunft auch emotionale und zeitliche Hinweise unterstützen.
  • Effiziente Reaktion: Die erste Textgenerierung dauert etwa 150 ms, wobei etwa 60 Tags pro Sekunde erzeugt werden.
  • Kompatibel mit mehreren Modellen: Training auf der Grundlage von Modellen wie Llama 3, Mistral und Gemma.
  • Open-Source-Projekt: Code und Modellgewichte sind auf GitHub und Hugging Face verfügbar.
  • Demo und API: Stellen Sie eine Gradio-Demo und eine gehostete API zur Verfügung, damit Benutzer schnell loslegen können.

 

Hilfe verwenden

Einbauverfahren

  1. Umgebungseinstellungen::
    • Für Mac-Benutzer wird Homebrew zur Installation empfohlen. Führen Sie den folgenden Befehl aus, um Homebrew zu installieren:
     /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
    
    • Aktualisieren Sie Homebrew und installieren Sie die erforderlichen Tools:
     brew update
    brew install just
    
  2. Klonprojekt::
    • Verwenden Sie den folgenden Befehl, um das Ultravox-Projekt zu klonen:
     git clone https://github.com/fixie-ai/ultravox.git
    cd ultravox
    
  3. Installation von Abhängigkeiten::
    • Verwenden Sie den folgenden Befehl, um die Projektabhängigkeiten zu installieren: bash
      pip install -r requirements.txt

Verwendungsprozess

  1. Laufende Demo::
    • Ultravox stellt eine Gradio-Demo zur Verfügung. Benutzer können mit dem folgenden Befehl eine lokale Demo starten:
     gradio --voice_mode=True
    
    • Besuchen Sie die angegebene lokale URL, um die Echtzeit-Sprachverarbeitung von Ultravox zu erleben.
  2. Verwendung der API::
    • Ultravox stellt eine Reihe von gehosteten APIs zur Verfügung, auf die Benutzer mit den folgenden Schritten Zugriff erhalten können:
      • Besuchen Sie die API-Seite von Ultravox, um sich zu registrieren und Ihren API-Schlüssel zu erhalten.
      • Rufen Sie den Echtzeit-Sprachverarbeitungsdienst von Ultravox mit einem API-Schlüssel auf.
  3. Training benutzerdefinierter Modelle::
    • Benutzer können ihre eigenen Ultravox-Modelle nach Bedarf trainieren. Detaillierte Trainingsschritte und Konfigurationsdateien sind in der README-Datei des Projekts zu finden.

Hauptfunktionen

  • Sprachverarbeitung in Echtzeit::
    • Nehmen Sie eine Audiodatei auf oder laden Sie sie hoch, und Ultravox wandelt den Ton automatisch in Text um.
    • Die Streaming-Verarbeitung wird unterstützt, und die Benutzer können die Konvertierungsergebnisse in Echtzeit anzeigen.
  • multimodale Unterstützung::
    • Geben Sie Text oder Sprache ein, und Ultravox ist in der Lage, mehrere Formen der Eingabe zu verstehen und zu verarbeiten.
    • Zukünftige Versionen werden das native Verständnis von emotionalen und zeitlichen Hinweisen unterstützen.
  • Effiziente Reaktion::
    • Ultravox verarbeitet Audioinhalte in ca. 150 Millisekunden für die erste Textgeneration und generiert ca. 60 Marker pro Sekunde, was eine effiziente Reaktion in Echtzeit gewährleistet.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Ultravox: ein multimodales Audiomakromodell für einen End-to-End-Sprachdialog in Echtzeit, eine Open-Source-Implementierung der GPT-4o-Sprachinteraktion
de_DEDeutsch