Allgemeine Einführung
Ichigo ist ein quelloffenes Echtzeit-Sprach-KI-Projekt, das darauf abzielt, textbasierte Sprachmodelle um native "Hör"-Fähigkeiten zu erweitern. Das Projekt nutzt frühe Fusionstechniken, die von Metas Chameleon-Papier inspiriert sind, und Ichigo soll ein quelloffener, offen gewichteter Sprachassistent für native Geräte werden, ähnlich wie Siri. Das Projekt ist offen für Partner, die sich am Crowdsourcing von Sprachdatensätzen beteiligen möchten.
Funktionsliste
- Spracherkennung in EchtzeitDie Fähigkeit, die Spracheingaben des Benutzers in Echtzeit zu verarbeiten und zu verstehen.
- Fähigkeit zum Dialog über mehrere RundenUnterstützt mehrere Dialogrunden und ist in der Lage, den Kontext des Dialogs beizubehalten.
- LärmmanagementDie Fähigkeit, die Verarbeitung von nicht-sprachlichen Audioeingaben durch Training abzulehnen, verbessert die Benutzererfahrung.
- Quelloffen und skalierbarDer Projektcode und die Modellgewichte sind vollständig quelloffen und können von den Nutzern frei heruntergeladen und erweitert werden.
- lokaler EinsatzUnterstützt die Bereitstellung auf lokalen Geräten, um die Privatsphäre der Benutzer zu schützen.
Hilfe verwenden
Ablauf der Installation
- Vorbereitung der Umwelt ::
- Stellen Sie sicher, dass Python 3.8 oder höher installiert ist.
- Installieren Sie die erforderlichen Abhängigkeits-Bibliotheken:
pip install -r anforderungen.txt
.
- Modelle herunterladen ::
- Verwenden Sie den folgenden Befehl, um das Ichigo-Modell herunterzuladen:
git klonen. https://github.com/homebrewltd/ichigo.git cd ichigo pip install -e .
- Verwenden Sie den folgenden Befehl, um das Ichigo-Modell herunterzuladen:
- Konfigurieren des Datensatzes ::
- Laden Sie den gewünschten Datensatz von HuggingFace herunter und legen Sie den Pfad zum Datensatz in der Konfigurationsdatei fest.
- Demo starten ::
- Starten Sie die lokale Gradio-Demo mit dem folgenden Befehl:
python demo.py --verwendet-4bit --verwendet-8bit
- Starten Sie die lokale Gradio-Demo mit dem folgenden Befehl:
Verwendung Prozess
- Neue Dienste ::
- Nachdem Sie den obigen Befehl ausgeführt haben, rufen Sie die lokal angegebene URL auf, um auf die Web-UI-Oberfläche von Ichigo zuzugreifen.
- Spracheingabe ::
- Klicken Sie auf der Web-UI-Oberfläche auf das Mikrofonsymbol, um die Aufnahme zu starten. Das System verarbeitet die Spracherkennungsergebnisse und zeigt sie in Echtzeit an.
- vielschichtiger Dialog ::
- Das System unterstützt mehrere Dialogrunden, bei denen der Benutzer kontinuierlich Spracheingaben machen kann und das System den Kontext versteht und darauf reagiert.
- Lärmmanagement ::
- Das System ist darauf trainiert, nicht-sprachliche Audioeingaben zu erkennen und nicht zu verarbeiten, um die Genauigkeit der Erkennungsergebnisse zu gewährleisten.
- Benutzerdefinierte Erweiterungen ::
- Die Benutzer können den Code und das Modell nach Bedarf ändern, um neue Funktionen hinzuzufügen oder bestehende zu verbessern.
Detaillierte Vorgehensweise
- Herunterladen und Installieren ::
- Besuchen Sie die GitHub-Seite von Ichigo und folgen Sie dem Installationsprozess, um die erforderlichen Abhängigkeiten und Modelle herunterzuladen und zu installieren.
- Konfiguration und Inbetriebnahme ::
- Legen Sie gemäß der vom Projekt bereitgestellten Konfigurationsdatei den Datensatzpfad und die Modellparameter fest, um den lokalen Dienst zu starten.
- Verwendung der Web-UI ::
- Erleben Sie Ichigos Echtzeit-Spracherkennung und Mehrrunden-Dialogfunktionen durch Spracheingabe und Interaktion über die Web-UI-Schnittstelle.
- Erweiterung und Anpassung ::
- Verstehen der Architektur und Funktionsweise des Systems anhand der Projektdokumentation und der Codekommentare für benutzerdefinierte Erweiterungen.