Ichigo (llama3-s): lokaler Echtzeit-Sprachassistent, Open-Source-Version von Siri

Neueste AI-RessourcenAktualisiert vor 8 Monaten AI-Austauschkreis

19.1K 00

Allgemeine Einführung

Ichigo ist ein quelloffenes Echtzeit-Sprach-KI-Projekt, das darauf abzielt, textbasierte Sprachmodelle um native "Zuhör"-Fähigkeiten zu erweitern. Das Projekt verwendet frühe Fusionstechniken, die von Metas Chameleon-Papier inspiriert sind. Ichigo soll ein Open-Source-Daten-, Open-Source-gewichteter Sprachassistent für native Geräte sein, ähnlich wie Siri. Das Projekt ist offen und Partner sind willkommen, sich an den Crowdsourcing-Bemühungen zur Weiterentwicklung des Sprachdatensatzes zu beteiligen.

Funktionsliste

Spracherkennung in EchtzeitDie Fähigkeit, die Spracheingaben des Benutzers in Echtzeit zu verarbeiten und zu verstehen.
Fähigkeit zum Dialog über mehrere RundenUnterstützung für mehrere Dialogrunden, die Fähigkeit, den Kontext in einem Dialog zu erhalten.
LärmmanagementDie Fähigkeit, die Verarbeitung von nicht-sprachlichen Audioeingaben durch Training zu verweigern, verbessert die Benutzererfahrung.
Quelloffen und skalierbarDer Projektcode und die Modellgewichte sind vollständig quelloffen und können von den Nutzern frei heruntergeladen und erweitert werden.
lokaler EinsatzUnterstützt die Bereitstellung auf lokalen Geräten, um die Privatsphäre der Benutzer zu schützen.

Hilfe verwenden

Einbauverfahren

Vorbereitung der Umwelt ::
- Stellen Sie sicher, dass Python 3.8 oder höher installiert ist.
- Installieren Sie die erforderlichen Abhängigkeits-Bibliotheken:pip install -r requirements.txt.
Modelle herunterladen ::
- Verwenden Sie den folgenden Befehl, um das Ichigo-Modell herunterzuladen:
```
git clone https://github.com/homebrewltd/ichigo.git
cd ichigo
pip install -e .
```
Konfigurieren des Datensatzes ::
- Laden Sie den gewünschten Datensatz von HuggingFace herunter und legen Sie den Pfad zum Datensatz in der Konfigurationsdatei fest.
Demo starten ::
- Starten Sie die lokale Gradio-Demo mit dem folgenden Befehl:
```
python demo.py --use-4bit --use-8bit
```

Verwendungsprozess

Neue Dienste ::
- Nachdem Sie den obigen Befehl ausgeführt haben, rufen Sie die lokal angegebene URL auf, um auf die Web-UI-Oberfläche von Ichigo zuzugreifen.
Spracheingabe ::
- Klicken Sie auf der Web-UI-Oberfläche auf das Mikrofonsymbol, um die Aufnahme zu starten. Das System verarbeitet die Spracherkennungsergebnisse und zeigt sie in Echtzeit an.
vielschichtiger Dialog ::
- Das System unterstützt mehrere Dialogrunden, in denen der Benutzer kontinuierlich Spracheingaben machen kann und das System den Kontext versteht und darauf reagiert.
Lärmmanagement ::
- Das System ist darauf trainiert, nicht-sprachliche Audioeingaben zu erkennen und nicht zu verarbeiten, um die Genauigkeit der Erkennungsergebnisse zu gewährleisten.
Benutzerdefinierte Erweiterungen ::
- Die Benutzer können den Code und das Modell nach Bedarf ändern, um neue Funktionen hinzuzufügen oder bestehende zu verbessern.

Detaillierte Vorgehensweise

Herunterladen und Installieren ::
- Besuchen Sie die GitHub-Seite von Ichigo und folgen Sie dem Installationsprozess, um die erforderlichen Abhängigkeiten und Modelle herunterzuladen und zu installieren.
Konfiguration und Inbetriebnahme ::
- Legen Sie gemäß der vom Projekt bereitgestellten Konfigurationsdatei den Datensatzpfad und die Modellparameter fest, um den lokalen Dienst zu starten.
Verwendung der Web-UI ::
- Erleben Sie Ichigos Echtzeit-Spracherkennung und Multi-Runden-Dialogfunktionen durch Spracheingabe und Interaktion über die Web-UI-Schnittstelle.
Erweiterung und Anpassung ::
- Verstehen der Architektur und Funktionsweise des Systems anhand der Projektdokumentation und der Codekommentare für benutzerdefinierte Erweiterungen.