SpeechGPT 2.0-Vorschau: ein durchgängiges anthropomorphes Sprachdialog-Makromodell für Echtzeit-Interaktion

🚀 Einladung zum Erleben: Chinas erste KI-IDE Intelligente Programmiersoftware Trae Chinesische Version downloadDer DeepSeek-R1 und Doubao-pro sind unbegrenzt verfügbar!

Allgemeine Einführung

SpeechGPT 2.0-preview ist das erste anthropomorphe Echtzeit-Interaktionssystem von OpenMOSS, das auf Millionen von Stunden an Sprachdaten trainiert wurde. SpeechGPT 2.0-preview ist das erste anthropomorphe Echtzeit-Interaktionssystem, das auf Millionen von Stunden an Sprachdaten basiert. Es ist mit einem anthropomorphen Sprachausdruck und einer niedrigen Latenzzeit von 100 ms ausgestattet und unterstützt natürliche und sanfte Echtzeit-Unterbrechungen. SpeechGPT 2.0-preview ist in der Lage, die beiden Modi von Sprache und Text aufeinander abzustimmen und die Fähigkeit zur präzisen Steuerung und intelligenten Umschaltung von mehreren Emotionen, mehreren Stilen und mehreren Tönen zu demonstrieren. Es kann nicht nur den Tonfall und den emotionalen Zustand verschiedener Charaktere simulieren, sondern verfügt auch über eine Vielzahl von Sprachtalenten wie Gedichtrezitation, Geschichtenerzählen und Dialektsprechen. Darüber hinaus unterstützt SpeechGPT 2.0-Preview auch den Aufruf von Tools, die Netzwerksuche und die Plug-in-Wissensdatenbank und bietet damit umfangreiche Sprach- und Textfunktionen.

SpeechGPT 2.0-Preview: ein durchgängiges anthropomorphes Sprachdialog-Makromodell für Echtzeit-Interaktion-1

Demo-Adresse: https://sp2.open-moss.com/

Funktionsliste

Anthropomorphe umgangssprachliche Ausdrücke
Hundert Millisekunden geringe Latenzzeit
Multi-Emotion, Multi-Style, Multi-Ton-Steuerung
rollenspielerische Fähigkeiten
Sprachbegabung wie das Vortragen von Gedichten, das Erzählen von Geschichten und das Sprechen in fremden Zungen
Unterstützung für Tool-Aufrufe, Netzsuche und Plug-in-Wissensbasis
Effizientes Sprachdaten-Crawling-System
Vielseitige und effiziente Pipeline zur Reinigung von Sprachdaten
Ein Vollspektrum-Multigranularitäts-Sprachdaten-Annotationssystem
Gemeinsame semantisch-akustische Modellierung von Streaming-Sprachcodecs mit extrem niedriger Bitrate

Hilfe verwenden

Ablauf der Installation

Klon-Lagerhaus:

   git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-Preview

Laden Sie die Modellgewichte herunter (dazu muss git-lfs installiert sein):

   git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B

Bereiten Sie die Umgebung vor:

   pip3 install -r anforderungen.txt
pip3 install flash-attn==2.7.3 --no-build-isolation

Starten Sie die Web-Demo:

   python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/

Funktion Betriebsablauf

Anthropomorphe umgangssprachliche AusdrückeSpeechGPT 2.0-preview ist in der Lage, die menschliche Mimik zu simulieren und ein natürliches und reibungsloses Dialogerlebnis zu bieten.
Niedrige LatenzzeitDas System reagiert auf Benutzereingaben im Bereich von Hundert Millisekunden und ermöglicht so eine Interaktion in Echtzeit.
Multi-Emotion, Multi-Style, Multi-Ton-SteuerungDer Benutzer kann die Emotionen, den Stil und die Klangfarbe des Systems über Befehle steuern und sich so an verschiedene Dialogszenarien anpassen.
Rollenspiele (Spiel)Das System ist in der Lage, den Tonfall und den emotionalen Zustand verschiedener Charaktere zu simulieren und eignet sich für ein breites Spektrum von Anwendungsszenarien.
phonologische BegabungSpeechGPT 2.0-preview bereichert den Dialog mit einer Vielzahl von Sprachtalenten wie Gedichtrezitation, Geschichtenerzählen und Dialektausdruck.
Tool-Aufrufe und NetzsucheDas System unterstützt den Aufruf externer Tools und die Durchführung von vernetzten Recherchen, wodurch die Funktionalität des Dialogs und der Zugang zu Informationen erweitert wird.
Plugin-WissensdatenbankDurch den Zugriff auf eine externe Wissensdatenbank ist das System in der Lage, detailliertere und professionellere Antworten zu geben.

Anwendungsbeispiel

emotionale KontrolleDer Benutzer kann den Befehl "Erzähle einen Witz in einem fröhlichen Ton" eingeben und das System wird den Witz in einem fröhlichen Ton erzählen.
Rollenspiele (Spiel)Geben Sie den Befehl "Simulieren Sie den Tonfall eines Lehrers, um quadratische Funktionen zu erklären" ein, und das System wird im Tonfall des Lehrers erklären.
phonologische BegabungGeben Sie den Befehl "Erzähle eine Geschichte im Dialekt" ein und das System wird eine Geschichte im angegebenen Dialekt erzählen.

Anhand der oben genannten Schritte und Beispiele können die Benutzer die leistungsstarken Funktionen und vielfältigen Anwendungsszenarien von SpeechGPT 2.0-preview in vollem Umfang erleben.