SpeechGPT 2.0-preview : un macromodèle de dialogue vocal anthropomorphique de bout en bout pour l'interaction en temps réel

Introduction générale

SpeechGPT 2.0-preview est le premier système d'interaction anthropomorphique en temps réel introduit par OpenMOSS, formé sur des millions d'heures de données vocales. SpeechGPT 2.0-preview est le premier système anthropomorphe d'interaction en temps réel basé sur des millions d'heures de données vocales. Il est équipé d'une expression vocale anthropomorphe et d'une réponse à faible latence de 100 ms, ce qui permet des interruptions en temps réel naturelles et fluides. SpeechGPT 2.0-preview est capable d'aligner les deux modes de la voix et du texte, et de démontrer la capacité de contrôle précis et de commutation intelligente de plusieurs émotions, styles et tons. Il peut non seulement simuler le ton et l'état émotionnel de divers personnages, mais il dispose également d'une variété de talents vocaux tels que la récitation de poèmes, la narration d'histoires et l'expression dialectale. En outre, SpeechGPT 2.0-preview prend également en charge l'invocation d'outils, la recherche sur le réseau et la base de connaissances des plug-ins, offrant ainsi de riches possibilités d'expression vocale et de texte.

SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

 

SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

Adresse de démonstration : https://sp2.open-moss.com/

 

Liste des fonctions

  • Expressions familières anthropomorphes
  • Réponse à faible latence de 100 millisecondes
  • Contrôle multi-émotions, multi-styles, multi-tons
  • capacité à jouer des rôles
  • Les talents vocaux tels que la récitation de poèmes, la narration d'histoires et le parler en langues.
  • Prise en charge des appels d'outils, des recherches sur le réseau et de la base de connaissances des modules d'extension
  • Système efficace d'exploration des données vocales
  • Pipeline de nettoyage des données vocales polyvalent et efficace
  • Un système d'annotation des données vocales à spectre complet et à granularité multiple
  • Modélisation sémantique-acoustique conjointe des codecs vocaux de diffusion en continu à débit ultra-faible

 

Utiliser l'aide

Processus d'installation

  1. Entrepôt de clonage :
   git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
  1. Télécharger les poids du modèle (nécessite l'installation de git-lfs) :
   git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
  1. Préparer l'environnement :
   pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
  1. Lancer la démo web :
   python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/

Fonction Opération Déroulement

  1. Expressions familières anthropomorphesSpeechGPT 2.0-preview est capable de simuler l'expression orale de l'homme et de fournir une expérience de dialogue naturelle et fluide.
  2. Réponse à faible latenceLe système répond à l'entrée de l'utilisateur au niveau de la centaine de millisecondes, ce qui permet une interaction en temps réel.
  3. Contrôle multi-émotions, multi-styles, multi-tonsLes utilisateurs peuvent contrôler l'émotion, le style et le timbre du système par le biais de commandes, en s'adaptant aux différents scénarios de dialogue.
  4. jeu de rôle (jeu)Le système est capable de simuler le ton de la voix et l'état émotionnel de différents personnages et convient à un large éventail de scénarios d'application.
  5. talent phonologiqueSpeechGPT 2.0-preview enrichit le dialogue d'une variété de talents vocaux tels que la récitation de poèmes, la narration d'histoires et l'expression dialectale.
  6. Appels d'outils et recherches sur le réseauLe système permet d'appeler des outils externes et d'effectuer des recherches en réseau, ce qui élargit la fonctionnalité du dialogue et l'accès à l'information.
  7. Base de connaissances des pluginsEn accédant à une base de connaissances externe, le système est en mesure de fournir des réponses plus détaillées et plus professionnelles.

exemple d'utilisation

  • le contrôle des émotionsL'utilisateur peut entrer la commande "Raconter une blague sur un ton joyeux" et le système racontera la blague sur un ton joyeux.
  • jeu de rôle (jeu)Pour cela, il suffit d'entrer la commande "Simuler le ton de voix d'un professeur pour expliquer les fonctions quadratiques" et le système expliquera sur le ton de la voix d'un professeur.
  • talent phonologiqueLe système racontera une histoire dans le dialecte spécifié.

Grâce aux étapes et aux exemples ci-dessus, les utilisateurs peuvent découvrir les puissantes fonctions et les divers scénarios d'application de SpeechGPT 2.0-preview.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...