Allgemeine Einführung
Ultravox ist ein innovatives multimodales Large Language Model (LLM), das für die Sprachverarbeitung in Echtzeit entwickelt wurde. Im Gegensatz zu herkömmlichen Spracherkennungssystemen macht Ultravox eine separate Audio-Spracherkennungsstufe (ASR) überflüssig und ist in der Lage, Audio direkt in Text im hochdimensionalen Raum umzuwandeln. Ultravox wurde auf der Grundlage von Modellen wie Llama 3, Mistral und Gemma trainiert und ist in der Lage, sowohl Text als auch menschliche Sprache zu verstehen. In Zukunft wird Ultravox auch in der Lage sein, zeitliche und emotionale Hinweise in Sprache zu erkennen. Die aktuelle Version von Ultravox benötigt etwa 150 Millisekunden, um bei der Verarbeitung von Audioinhalten zum ersten Mal Text zu erzeugen, wobei etwa 60 Token pro Sekunde generiert werden.
Funktionsliste
- Echtzeit-Sprachverarbeitung: Wandelt Audio direkt in Text um, ohne eine separate ASR-Stufe.
- Multimodale Unterstützung: kann Text und Sprache verstehen und wird in Zukunft auch emotionale und zeitliche Hinweise unterstützen.
- Effiziente Reaktion: Die erste Textgenerierung dauert etwa 150 ms, wobei etwa 60 Tags pro Sekunde erzeugt werden.
- Kompatibel mit mehreren Modellen: Training auf der Grundlage von Modellen wie Llama 3, Mistral und Gemma.
- Open-Source-Projekt: Code und Modellgewichte sind auf GitHub und Hugging Face verfügbar.
- Demo und API: Stellen Sie eine Gradio-Demo und eine gehostete API zur Verfügung, damit Benutzer schnell loslegen können.
Hilfe verwenden
Ablauf der Installation
- Umgebungseinstellungen::
- Für Mac-Benutzer wird Homebrew zur Installation empfohlen. Führen Sie den folgenden Befehl aus, um Homebrew zu installieren:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- Aktualisieren Sie Homebrew und installieren Sie die erforderlichen Tools:
brew update brew install einfach
- Klonprojekt::
- Verwenden Sie den folgenden Befehl, um das Ultravox-Projekt zu klonen:
git clone https://github.com/fixie-ai/ultravox.git cd ultravox
- Installation von Abhängigkeiten::
- Verwenden Sie den folgenden Befehl, um die Projektabhängigkeiten zu installieren:
bash
pip install -r anforderungen.txt
- Verwenden Sie den folgenden Befehl, um die Projektabhängigkeiten zu installieren:
Verwendung Prozess
- Laufende Demo::
- Ultravox stellt eine Gradio-Demo zur Verfügung. Benutzer können mit dem folgenden Befehl eine lokale Demo starten:
gradio --voice_mode=True
- Besuchen Sie die angegebene lokale URL, um die Echtzeit-Sprachverarbeitung von Ultravox zu erleben.
- Verwendung der API::
- Ultravox stellt eine Reihe von gehosteten APIs zur Verfügung, auf die Benutzer mit den folgenden Schritten Zugriff erhalten können:
- Besuchen Sie die API-Seite von Ultravox, um sich zu registrieren und Ihren API-Schlüssel zu erhalten.
- Rufen Sie den Echtzeit-Sprachverarbeitungsdienst von Ultravox mit einem API-Schlüssel auf.
- Ultravox stellt eine Reihe von gehosteten APIs zur Verfügung, auf die Benutzer mit den folgenden Schritten Zugriff erhalten können:
- Training benutzerdefinierter Modelle::
- Benutzer können ihre eigenen Ultravox-Modelle nach Bedarf trainieren. Detaillierte Trainingsschritte und Konfigurationsdateien sind in der README-Datei des Projekts zu finden.
Hauptfunktionen
- Echtzeit-Sprachverarbeitung::
- Nehmen Sie eine Audiodatei auf oder laden Sie sie hoch, und Ultravox wandelt den Ton automatisch in Text um.
- Die Streaming-Verarbeitung wird unterstützt, und die Benutzer können die Konvertierungsergebnisse in Echtzeit anzeigen.
- multimodale Unterstützung::
- Geben Sie Text oder Sprache ein, und Ultravox ist in der Lage, mehrere Formen der Eingabe zu verstehen und zu verarbeiten.
- Zukünftige Versionen werden das native Verständnis von emotionalen und zeitlichen Hinweisen unterstützen.
- Effiziente Reaktion::
- Ultravox verarbeitet Audioinhalte in ca. 150 Millisekunden für die erste Textgenerierung und generiert ca. 60 Token pro Sekunde, was eine effiziente Echtzeitantwort gewährleistet.