Allgemeine Einführung
Linly-Talker ist ein innovatives digitales Dialogsystem, das Large Language Models (LLMs) mit visuellen Modellen kombiniert, um einen neuen Ansatz für die Interaktion zwischen Mensch und Computer zu schaffen. Das System integriert mehrere Technologien wie Whisper, Linly, Microsoft Speech Services und SadTalker Linly-Talker unterstützt Benutzer beim Hochladen von Bildern für Dialoge und verbessert die Interaktivität und den Realismus durch ein Mehrrunden-Dialogsystem. Das Projekt wird von Kedreamix entwickelt und ist auf GitHub für Entwickler und Forscher zur Nutzung und Verbesserung freigegeben.
Funktionsliste
- Mehrrunden-DialogsystemUnterstützt kontextabhängige Dialoge mit mehreren Runden für mehr Interaktivität und Realismus.
- Dialog zum Hochladen von BildernNutzer können Bilder hochladen und mit digitalen Menschen in einen Dialog treten.
- Sprachsynthese und -erkennungIntegriert mit Microsoft TTS und FunASR, um mehrere Sprachtypen und eine schnelle Spracherkennung zu ermöglichen.
- Erzeugung von VideountertitelnUnterstützt die Erzeugung von Videountertiteln für verbesserte visuelle Effekte.
- SprachklonenMit dem Modell GPT-SoVITS können Stimmen mit einer Minute Sprachdaten geklont werden.
- Personalisierte CharaktererstellungUnterstützung der personalisierten Rollenerstellung mit mehreren Modellen und Optionen.
- Echtzeit-DialogIntegration mit MuseTalk für grundlegende Echtzeit-Dialogfunktionen.
Hilfe verwenden
Ablauf der Installation
- Klonprojekt: Führen Sie den folgenden Befehl im Terminal aus, um das Projekt zu klonen:
git clone https://github.com/Kedreamix/Linly-Talker.git
- Installation von Abhängigkeiten: Wechseln Sie in das Projektverzeichnis und installieren Sie die erforderlichen Abhängigkeiten:
cd Linly-Talker
pip install -r anforderungen_app.txt
pip install -r anforderungen_webui.txt
- Konfiguration der UmgebungKonfigurieren Sie die Umgebungsvariablen und Zertifikate nach Bedarf, um den ordnungsgemäßen Betrieb des Systems sicherzustellen.
Richtlinien für die Verwendung
- Starten der WebUIFühren Sie den folgenden Befehl aus, um die WebUI zu starten:
python webui.py
Öffnen Sie Ihren Browser, um auf http://localhost:7860
Wenn Sie auf die Weboberfläche von Linly-Talker zugreifen möchten, können Sie dies tun, indem Sie auf den folgenden Link klicken.
- Bilder für den Dialog hochladen::
- Klicken Sie in der WebUI-Oberfläche auf die Schaltfläche "Bild hochladen" und wählen Sie die hochzuladende Bilddatei aus.
- Sobald das Bild hochgeladen ist, generiert das System automatisch Dialoginhalte und der Nutzer kann mit der digitalen Person interagieren.
- Sprachsynthese und -erkennung::
- Geben Sie den Text in das Dialogfeld ein, wählen Sie den Sprachtyp aus, klicken Sie auf die Schaltfläche "Stimme erzeugen", das System synthetisiert die Stimme und spielt sie ab.
- Die Benutzer können auch ihre Stimme über das Mikrofon eingeben, und das System erkennt und generiert automatisch Text.
- Erzeugung von Videountertiteln::
- Laden Sie eine Videodatei hoch, das System generiert automatisch Untertitel und bettet sie in das Video ein, und die Benutzer können die Videodatei mit Untertiteln herunterladen.
- Sprachklonen::
- Laden Sie eine Stimmprobe der Zielperson hoch, und das System verwendet das GPT-SoVITS-Modell zum Klonen der Stimme, um eine der Zielperson ähnliche Stimme zu erzeugen.
- Personalisierte Charaktererstellung::
- Wählen Sie in der WebUI-Oberfläche die Option "Personalisierte Persona-Generierung", geben Sie die Persona-Informationen ein, und das System wird eine personalisierte Persona generieren.
- Echtzeit-Dialog::
- Wenn Sie das MuseTalk-Modul auswählen, schaltet das System die Echtzeit-Dialogfunktion ein, die es dem Benutzer ermöglicht, mit der digitalen Person in Echtzeit zu interagieren.