AI Personal Learning
und praktische Anleitung

Ichigo (llama3-s): lokaler Echtzeit-Sprachassistent, Open-Source-Version von Siri

Allgemeine Einführung

Ichigo ist ein quelloffenes Echtzeit-Sprach-KI-Projekt, das darauf abzielt, textbasierte Sprachmodelle um native "Hör"-Fähigkeiten zu erweitern. Das Projekt nutzt frühe Fusionstechniken, die von Metas Chameleon-Papier inspiriert sind, und Ichigo soll ein quelloffener, offen gewichteter Sprachassistent für native Geräte werden, ähnlich wie Siri. Das Projekt ist offen für Partner, die sich am Crowdsourcing von Sprachdatensätzen beteiligen möchten.

Ichigo (llama3-s): lokaler Echtzeit-Sprachassistent, Open-Source-Version von Siri-1


 

Funktionsliste

  • Spracherkennung in EchtzeitDie Fähigkeit, die Spracheingaben des Benutzers in Echtzeit zu verarbeiten und zu verstehen.
  • Fähigkeit zum Dialog über mehrere RundenUnterstützt mehrere Dialogrunden und ist in der Lage, den Kontext des Dialogs beizubehalten.
  • LärmmanagementDie Fähigkeit, die Verarbeitung von nicht-sprachlichen Audioeingaben durch Training abzulehnen, verbessert die Benutzererfahrung.
  • Quelloffen und skalierbarDer Projektcode und die Modellgewichte sind vollständig quelloffen und können von den Nutzern frei heruntergeladen und erweitert werden.
  • lokaler EinsatzUnterstützt die Bereitstellung auf lokalen Geräten, um die Privatsphäre der Benutzer zu schützen.

 

Hilfe verwenden

Ablauf der Installation

  1. Vorbereitung der Umwelt ::
    • Stellen Sie sicher, dass Python 3.8 oder höher installiert ist.
    • Installieren Sie die erforderlichen Abhängigkeits-Bibliotheken:pip install -r anforderungen.txt.
  2. Modelle herunterladen ::
    • Verwenden Sie den folgenden Befehl, um das Ichigo-Modell herunterzuladen:
      git klonen. https://github.com/homebrewltd/ichigo.git
      cd ichigo
      pip install -e .
      
  3. Konfigurieren des Datensatzes ::
    • Laden Sie den gewünschten Datensatz von HuggingFace herunter und legen Sie den Pfad zum Datensatz in der Konfigurationsdatei fest.
  4. Demo starten ::
    • Starten Sie die lokale Gradio-Demo mit dem folgenden Befehl:
      python demo.py --verwendet-4bit --verwendet-8bit
      

Verwendung Prozess

  1. Neue Dienste ::
    • Nachdem Sie den obigen Befehl ausgeführt haben, rufen Sie die lokal angegebene URL auf, um auf die Web-UI-Oberfläche von Ichigo zuzugreifen.
  2. Spracheingabe ::
    • Klicken Sie auf der Web-UI-Oberfläche auf das Mikrofonsymbol, um die Aufnahme zu starten. Das System verarbeitet die Spracherkennungsergebnisse und zeigt sie in Echtzeit an.
  3. vielschichtiger Dialog ::
    • Das System unterstützt mehrere Dialogrunden, bei denen der Benutzer kontinuierlich Spracheingaben machen kann und das System den Kontext versteht und darauf reagiert.
  4. Lärmmanagement ::
    • Das System ist darauf trainiert, nicht-sprachliche Audioeingaben zu erkennen und nicht zu verarbeiten, um die Genauigkeit der Erkennungsergebnisse zu gewährleisten.
  5. Benutzerdefinierte Erweiterungen ::
    • Die Benutzer können den Code und das Modell nach Bedarf ändern, um neue Funktionen hinzuzufügen oder bestehende zu verbessern.

Detaillierte Vorgehensweise

  1. Herunterladen und Installieren ::
    • Besuchen Sie die GitHub-Seite von Ichigo und folgen Sie dem Installationsprozess, um die erforderlichen Abhängigkeiten und Modelle herunterzuladen und zu installieren.
  2. Konfiguration und Inbetriebnahme ::
    • Legen Sie gemäß der vom Projekt bereitgestellten Konfigurationsdatei den Datensatzpfad und die Modellparameter fest, um den lokalen Dienst zu starten.
  3. Verwendung der Web-UI ::
    • Erleben Sie Ichigos Echtzeit-Spracherkennung und Mehrrunden-Dialogfunktionen durch Spracheingabe und Interaktion über die Web-UI-Schnittstelle.
  4. Erweiterung und Anpassung ::
    • Verstehen der Architektur und Funktionsweise des Systems anhand der Projektdokumentation und der Codekommentare für benutzerdefinierte Erweiterungen.
AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Ichigo (llama3-s): lokaler Echtzeit-Sprachassistent, Open-Source-Version von Siri

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)