AI Personal Learning
und praktische Anleitung
豆包Marscode1

Ichigo (llama3-s): lokaler Echtzeit-Sprachassistent, Open-Source-Version von Siri

Allgemeine Einführung

Ichigo ist ein quelloffenes Echtzeit-Sprach-KI-Projekt, das darauf abzielt, textbasierte Sprachmodelle um native "Zuhör"-Fähigkeiten zu erweitern. Das Projekt verwendet frühe Fusionstechniken, die von Metas Chameleon-Papier inspiriert sind. Ichigo soll ein Open-Source-Daten-, Open-Source-gewichteter Sprachassistent für native Geräte sein, ähnlich wie Siri. Das Projekt ist offen und Partner sind willkommen, sich an den Crowdsourcing-Bemühungen zur Weiterentwicklung des Sprachdatensatzes zu beteiligen.

Ichigo(llama3-s):本地实时语音AI助手,开源版Siri-1


 

Funktionsliste

  • Spracherkennung in EchtzeitDie Fähigkeit, die Spracheingaben des Benutzers in Echtzeit zu verarbeiten und zu verstehen.
  • Fähigkeit zum Dialog über mehrere RundenUnterstützung für mehrere Dialogrunden, die Fähigkeit, den Kontext in einem Dialog zu erhalten.
  • LärmmanagementDie Fähigkeit, die Verarbeitung von nicht-sprachlichen Audioeingaben durch Training zu verweigern, verbessert die Benutzererfahrung.
  • Quelloffen und skalierbarDer Projektcode und die Modellgewichte sind vollständig quelloffen und können von den Nutzern frei heruntergeladen und erweitert werden.
  • lokaler EinsatzUnterstützt die Bereitstellung auf lokalen Geräten, um die Privatsphäre der Benutzer zu schützen.

 

Hilfe verwenden

Einbauverfahren

  1. Vorbereitung der Umwelt ::
    • Stellen Sie sicher, dass Python 3.8 oder höher installiert ist.
    • Installieren Sie die erforderlichen Abhängigkeits-Bibliotheken:pip install -r requirements.txt.
  2. Modelle herunterladen ::
    • Verwenden Sie den folgenden Befehl, um das Ichigo-Modell herunterzuladen:
      git clone https://github.com/homebrewltd/ichigo.git
      cd ichigo
      pip install -e .
      
  3. Konfigurieren des Datensatzes ::
    • Laden Sie den gewünschten Datensatz von HuggingFace herunter und legen Sie den Pfad zum Datensatz in der Konfigurationsdatei fest.
  4. Demo starten ::
    • Starten Sie die lokale Gradio-Demo mit dem folgenden Befehl:
      python demo.py --use-4bit --use-8bit
      

Verwendungsprozess

  1. Neue Dienste ::
    • Nachdem Sie den obigen Befehl ausgeführt haben, rufen Sie die lokal angegebene URL auf, um auf die Web-UI-Oberfläche von Ichigo zuzugreifen.
  2. Spracheingabe ::
    • Klicken Sie auf der Web-UI-Oberfläche auf das Mikrofonsymbol, um die Aufnahme zu starten. Das System verarbeitet die Spracherkennungsergebnisse und zeigt sie in Echtzeit an.
  3. vielschichtiger Dialog ::
    • Das System unterstützt mehrere Dialogrunden, in denen der Benutzer kontinuierlich Spracheingaben machen kann und das System den Kontext versteht und darauf reagiert.
  4. Lärmmanagement ::
    • Das System ist darauf trainiert, nicht-sprachliche Audioeingaben zu erkennen und nicht zu verarbeiten, um die Genauigkeit der Erkennungsergebnisse zu gewährleisten.
  5. Benutzerdefinierte Erweiterungen ::
    • Die Benutzer können den Code und das Modell nach Bedarf ändern, um neue Funktionen hinzuzufügen oder bestehende zu verbessern.

Detaillierte Vorgehensweise

  1. Herunterladen und Installieren ::
    • Besuchen Sie die GitHub-Seite von Ichigo und folgen Sie dem Installationsprozess, um die erforderlichen Abhängigkeiten und Modelle herunterzuladen und zu installieren.
  2. Konfiguration und Inbetriebnahme ::
    • Legen Sie gemäß der vom Projekt bereitgestellten Konfigurationsdatei den Datensatzpfad und die Modellparameter fest, um den lokalen Dienst zu starten.
  3. Verwendung der Web-UI ::
    • Erleben Sie Ichigos Echtzeit-Spracherkennung und Multi-Runden-Dialogfunktionen durch Spracheingabe und Interaktion über die Web-UI-Schnittstelle.
  4. Erweiterung und Anpassung ::
    • Verstehen der Architektur und Funktionsweise des Systems anhand der Projektdokumentation und der Codekommentare für benutzerdefinierte Erweiterungen.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Ichigo (llama3-s): lokaler Echtzeit-Sprachassistent, Open-Source-Version von Siri
de_DEDeutsch