SpeechGPT 2.0-preview : un macromodèle de dialogue vocal anthropomorphique de bout en bout pour l'interaction en temps réel

Dernières ressources sur l'IAPosté il y a 8 mois Cercle de partage de l'IA

17.7K 00

Introduction générale

SpeechGPT 2.0-preview est le premier système d'interaction anthropomorphique en temps réel introduit par OpenMOSS, formé sur des millions d'heures de données vocales. SpeechGPT 2.0-preview est le premier système anthropomorphe d'interaction en temps réel basé sur des millions d'heures de données vocales. Il est équipé d'une expression vocale anthropomorphe et d'une réponse à faible latence de 100 ms, ce qui permet des interruptions en temps réel naturelles et fluides. SpeechGPT 2.0-preview est capable d'aligner les deux modes de la voix et du texte, et de démontrer la capacité de contrôle précis et de commutation intelligente de plusieurs émotions, styles et tons. Il peut non seulement simuler le ton et l'état émotionnel de divers personnages, mais il dispose également d'une variété de talents vocaux tels que la récitation de poèmes, la narration d'histoires et l'expression dialectale. En outre, SpeechGPT 2.0-preview prend également en charge l'invocation d'outils, la recherche sur le réseau et la base de connaissances des plug-ins, offrant ainsi de riches possibilités d'expression vocale et de texte.

Adresse de démonstration : https://sp2.open-moss.com/

Liste des fonctions

Expressions familières anthropomorphes
Réponse à faible latence de 100 millisecondes
Contrôle multi-émotions, multi-styles, multi-tons
capacité à jouer des rôles
Les talents vocaux tels que la récitation de poèmes, la narration d'histoires et le parler en langues.
Prise en charge des appels d'outils, des recherches sur le réseau et de la base de connaissances des modules d'extension
Système efficace d'exploration des données vocales
Pipeline de nettoyage des données vocales polyvalent et efficace
Un système d'annotation des données vocales à spectre complet et à granularité multiple
Modélisation sémantique-acoustique conjointe des codecs vocaux de diffusion en continu à débit ultra-faible

Utiliser l'aide

Processus d'installation

Entrepôt de clonage :

   git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview

Télécharger les poids du modèle (nécessite l'installation de git-lfs) :

   git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B

Préparer l'environnement :

   pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation

Lancer la démo web :

   python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/

Fonction Opération Déroulement

Expressions familières anthropomorphesSpeechGPT 2.0-preview est capable de simuler l'expression orale de l'homme et de fournir une expérience de dialogue naturelle et fluide.
Réponse à faible latenceLe système répond à l'entrée de l'utilisateur au niveau de la centaine de millisecondes, ce qui permet une interaction en temps réel.
Contrôle multi-émotions, multi-styles, multi-tonsLes utilisateurs peuvent contrôler l'émotion, le style et le timbre du système par le biais de commandes, en s'adaptant aux différents scénarios de dialogue.
jeu de rôle (jeu)Le système est capable de simuler le ton de la voix et l'état émotionnel de différents personnages et convient à un large éventail de scénarios d'application.
talent phonologiqueSpeechGPT 2.0-preview enrichit le dialogue d'une variété de talents vocaux tels que la récitation de poèmes, la narration d'histoires et l'expression dialectale.
Appels d'outils et recherches sur le réseauLe système permet d'appeler des outils externes et d'effectuer des recherches en réseau, ce qui élargit la fonctionnalité du dialogue et l'accès à l'information.
Base de connaissances des pluginsEn accédant à une base de connaissances externe, le système est en mesure de fournir des réponses plus détaillées et plus professionnelles.

exemple d'utilisation

le contrôle des émotionsL'utilisateur peut entrer la commande "Raconter une blague sur un ton joyeux" et le système racontera la blague sur un ton joyeux.
jeu de rôle (jeu)Pour cela, il suffit d'entrer la commande "Simuler le ton de voix d'un professeur pour expliquer les fonctions quadratiques" et le système expliquera sur le ton de la voix d'un professeur.
talent phonologiqueLe système racontera une histoire dans le dialecte spécifié.

Grâce aux étapes et aux exemples ci-dessus, les utilisateurs peuvent découvrir les puissantes fonctions et les divers scénarios d'application de SpeechGPT 2.0-preview.