Allgemeine Einführung
Xiaozhi AI Chatbot ist ein Open-Source-Projekt, das auf dem ESP32-Entwicklungsboard basiert und Benutzern helfen soll, ihren eigenen KI-Chat-Begleiter zu bauen. Das Projekt wurde von Shrimp entwickelt und wird hauptsächlich zu Lehrzwecken verwendet, um mehr Menschen den Einstieg in die Entwicklung von KI-Hardware zu erleichtern und zu verstehen, wie man das große Sprachmodell auf tatsächliche Hardware-Geräte anwendet. Das Projekt unterstützt Spracherkennung und Dialogfunktionen in mehreren Sprachen, darunter Mandarin, Kantonesisch, Englisch, Japanisch und Koreanisch. Benutzer können lernen, wie man mit ESP-IDF entwickelt und die verschiedenen Funktionen von KI-Chatbots durch dieses Projekt erleben.
Funktionsliste
- Wi-Fi / ML307 Kat.1 4GUnterstützt Wi-Fi-Konnektivität und 4G-Kommunikation.
- mit einer Stimme aufwachenUnterstützt die Offline-Sprachaufwachfunktion.
- mehrsprachige ErkennungUnterstützt die Spracherkennung in fünf Sprachen: Mandarin, Kantonesisch, Englisch, Japanisch und Koreanisch.
- SpracherkennungIdentifizieren Sie, wer den Namen von AI ruft.
- Großes Modell TTSUnterstützt die Text-to-Speech-Funktion von Volcano Engine oder CosyVoice.
- Großes Modell LLMQwen 2.5: Unterstützt Qwen 2.5 72B oder das große Sprachmodell der Beanbag API.
- Benutzerdefinierte RollenKonfigurierbare Signale und Töne zur Erstellung individueller Rollen.
- KurzzeitgedächtnisSelbstzusammenfassungen nach jeder Dialogrunde.
- AnzeigebildschirmUnterstützt OLED- oder LCD-Displays zur Anzeige der Signalstärke oder von Dialoginhalten.
- Hardware-UnterstützungUnterstützt eine breite Palette von Hardware wie Litronix-Realistic ESP32-S3 Entwicklungsboard, Loxin ESP32-S3-BOX3, M5Stack CoreS3, und mehr.
Hilfe verwenden
Ablauf der Installation
- Vorbereitung HardwareVergewissern Sie sich, dass Sie die notwendige Hardware wie das ESP32-Entwicklungsboard, das Mikrofonmodul, das Lautsprechermodul und das Display haben.
- Firmware herunterladen: Besuchen Sie die GitHub-Seite des Projekts, um die neueste Firmware-Version herunterzuladen.
- Firmware brennenVerwenden Sie das Flash-Tool, um die Firmware auf das ESP32-Entwicklungsboard zu brennen. Die einzelnen Schritte sind wie folgt:
- Schließen Sie das ESP32-Entwicklungsboard an den Computer an.
- Öffnen Sie das Flash-Tool und wählen Sie die heruntergeladene Firmware-Datei aus.
- Klicken Sie auf die Schaltfläche "Brennen" und warten Sie, bis der Brennvorgang abgeschlossen ist.
- Konfigurieren des NetzesNach Abschluss des Brennvorgangs drücken Sie die BOOT-Taste auf der Entwicklungsplatine, um den Netzwerkkonfigurationsmodus aufzurufen und eine Verbindung zu einem Wi-Fi- oder 4G-Netzwerk herzustellen.
- Installation von AbhängigkeitenInstallieren Sie die notwendigen Software-Abhängigkeiten, wie z.B. die ESP-IDF-Entwicklungsumgebung, gemäß der Projektdokumentation.
- Laufende ProjekteNachdem Sie die oben genannten Schritte ausgeführt haben, starten Sie das Projekt und erleben Sie die KI-Chat-Funktion.
Anweisungen für den Gebrauch
- mit einer Stimme aufwachenSprechen Sie das Weckwort in das Mikrofon, um den KI-Chatbot aufzuwecken.
- SprachdialogNach dem Aufwachen können Sie einen Sprachdialog direkt mit der KI führen, der mehrere Sprachen unterstützt.
- Benutzerdefinierte RollenEinrichten von benutzerdefinierten Zeichencodes und Tönen über Konfigurationsdateien.
- Anzeige FunktionDialoginhalte und Signalstärke auf dem OLED- oder LCD-Display anzeigen.
- Spracherkennung: Die KI kann erkennen, wer ihren Namen ruft, und eine persönliche Antwort geben.
- KurzzeitgedächtnisNach jeder Dialogrunde führt die KI eine Selbsteinschätzung durch, um das Dialogerlebnis zu verbessern.
Detaillierte Vorgehensweise
- Weckruf und Dialog::
- Stellen Sie sicher, dass das Gerät mit dem Netzwerk verbunden ist.
- Sprechen Sie ein Weckwort in das Mikrofon, z. B. "Xiaozhi", und das Gerät wechselt in den Standby-Modus.
- Sprechen Sie Ihre Frage oder Ihren Befehl, und die KI führt eine Spracherkennung durch und antwortet.
- Benutzerdefinierte Rolleneinstellung::
- Öffnen Sie die Konfigurationsdatei und suchen Sie den Abschnitt Rolleneinstellungen.
- Geben Sie benutzerdefinierte Cues und Klangparameter ein und speichern Sie die Datei.
- Starten Sie das Gerät neu, und die neuen Rolleneinstellungen werden wirksam.
- Verwendung anzeigen::
- Wenn das Gerät aktiviert ist, zeigt das Display die aktuelle Netzsignalstärke an.
- Während des Dialogs wird der Inhalt des Dialogs auf dem Display angezeigt, damit Sie ihn leicht erkennen können.
- Spracherkennungsfunktion::
- Legen Sie in der Konfigurationsdatei die Parameter für die Spracherkennung fest.
- Wenn das Gerät aktiviert wird, erkennt es automatisch den Stimmabdruck des Sprechers und gibt eine personalisierte Antwort.
- Funktion des Kurzzeitgedächtnisses::
- Nach jeder Gesprächsrunde fasst die KI das Gesprächserlebnis automatisch zusammen und verbessert es.
- Die Zusammenfassungsparameter können in der Konfigurationsdatei angepasst werden, um den Speichereffekt zu optimieren.