Allgemeine Einführung
Ichigo ist ein quelloffenes Echtzeit-Sprach-KI-Projekt, das darauf abzielt, textbasierte Sprachmodelle um native "Zuhör"-Fähigkeiten zu erweitern. Das Projekt verwendet frühe Fusionstechniken, die von Metas Chameleon-Papier inspiriert sind. Ichigo soll ein Open-Source-Daten-, Open-Source-gewichteter Sprachassistent für native Geräte sein, ähnlich wie Siri. Das Projekt ist offen und Partner sind willkommen, sich an den Crowdsourcing-Bemühungen zur Weiterentwicklung des Sprachdatensatzes zu beteiligen.
Funktionsliste
- Spracherkennung in EchtzeitDie Fähigkeit, die Spracheingaben des Benutzers in Echtzeit zu verarbeiten und zu verstehen.
- Fähigkeit zum Dialog über mehrere RundenUnterstützung für mehrere Dialogrunden, die Fähigkeit, den Kontext in einem Dialog zu erhalten.
- LärmmanagementDie Fähigkeit, die Verarbeitung von nicht-sprachlichen Audioeingaben durch Training zu verweigern, verbessert die Benutzererfahrung.
- Quelloffen und skalierbarDer Projektcode und die Modellgewichte sind vollständig quelloffen und können von den Nutzern frei heruntergeladen und erweitert werden.
- lokaler EinsatzUnterstützt die Bereitstellung auf lokalen Geräten, um die Privatsphäre der Benutzer zu schützen.
Hilfe verwenden
Einbauverfahren
- Vorbereitung der Umwelt ::
- Stellen Sie sicher, dass Python 3.8 oder höher installiert ist.
- Installieren Sie die erforderlichen Abhängigkeits-Bibliotheken:
pip install -r requirements.txt
.
- Modelle herunterladen ::
- Verwenden Sie den folgenden Befehl, um das Ichigo-Modell herunterzuladen:
git clone https://github.com/homebrewltd/ichigo.git cd ichigo pip install -e .
- Verwenden Sie den folgenden Befehl, um das Ichigo-Modell herunterzuladen:
- Konfigurieren des Datensatzes ::
- Laden Sie den gewünschten Datensatz von HuggingFace herunter und legen Sie den Pfad zum Datensatz in der Konfigurationsdatei fest.
- Demo starten ::
- Starten Sie die lokale Gradio-Demo mit dem folgenden Befehl:
python demo.py --use-4bit --use-8bit
- Starten Sie die lokale Gradio-Demo mit dem folgenden Befehl:
Verwendungsprozess
- Neue Dienste ::
- Nachdem Sie den obigen Befehl ausgeführt haben, rufen Sie die lokal angegebene URL auf, um auf die Web-UI-Oberfläche von Ichigo zuzugreifen.
- Spracheingabe ::
- Klicken Sie auf der Web-UI-Oberfläche auf das Mikrofonsymbol, um die Aufnahme zu starten. Das System verarbeitet die Spracherkennungsergebnisse und zeigt sie in Echtzeit an.
- vielschichtiger Dialog ::
- Das System unterstützt mehrere Dialogrunden, in denen der Benutzer kontinuierlich Spracheingaben machen kann und das System den Kontext versteht und darauf reagiert.
- Lärmmanagement ::
- Das System ist darauf trainiert, nicht-sprachliche Audioeingaben zu erkennen und nicht zu verarbeiten, um die Genauigkeit der Erkennungsergebnisse zu gewährleisten.
- Benutzerdefinierte Erweiterungen ::
- Die Benutzer können den Code und das Modell nach Bedarf ändern, um neue Funktionen hinzuzufügen oder bestehende zu verbessern.
Detaillierte Vorgehensweise
- Herunterladen und Installieren ::
- Besuchen Sie die GitHub-Seite von Ichigo und folgen Sie dem Installationsprozess, um die erforderlichen Abhängigkeiten und Modelle herunterzuladen und zu installieren.
- Konfiguration und Inbetriebnahme ::
- Legen Sie gemäß der vom Projekt bereitgestellten Konfigurationsdatei den Datensatzpfad und die Modellparameter fest, um den lokalen Dienst zu starten.
- Verwendung der Web-UI ::
- Erleben Sie Ichigos Echtzeit-Spracherkennung und Multi-Runden-Dialogfunktionen durch Spracheingabe und Interaktion über die Web-UI-Schnittstelle.
- Erweiterung und Anpassung ::
- Verstehen der Architektur und Funktionsweise des Systems anhand der Projektdokumentation und der Codekommentare für benutzerdefinierte Erweiterungen.