SpeechGPT 2.0-preview: un macromodelo de diálogo antropomórfico de extremo a extremo para la interacción en tiempo real

Introducción general

SpeechGPT 2.0-preview es el primer sistema de interacción antropomórfica en tiempo real introducido por OpenMOSS, entrenado a partir de millones de horas de datos de voz. SpeechGPT 2.0-preview es el primer sistema de interacción antropomórfica en tiempo real basado en millones de horas de datos de voz, que está equipado con una expresión hablada antropomórfica y una respuesta de baja latencia de 100 ms, que admite interrupciones naturales y suaves en tiempo real, SpeechGPT 2.0-preview es capaz de alinear los dos modos de voz y texto, y demostrar la capacidad de control preciso y conmutación inteligente de multi-emociones, multi-estilos y multi-tonos. No sólo puede simular el tono y el estado emocional de varios personajes, sino que también cuenta con una gran variedad de talentos de voz, como recitación de poesía, narración de cuentos y habla dialectal. Además, SpeechGPT 2.0-preview también admite la invocación de herramientas, la búsqueda en la red y la base de conocimientos de plug-ins, lo que proporciona una rica expresión de voz y capacidades de texto.

SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

 

SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

Dirección de demostración: https://sp2.open-moss.com/

 

Lista de funciones

  • Expresiones coloquiales antropomórficas
  • Respuesta de baja latencia de cien milisegundos
  • Control multiemoción, multiestilo y multitono
  • habilidad para los juegos de rol
  • Talentos vocales como recitar poesía, contar cuentos y hablar en lenguas.
  • Soporte para llamadas a herramientas, búsquedas en la red y base de conocimientos de plug-ins
  • Sistema eficaz de rastreo de datos de voz
  • Proceso de limpieza de datos de voz versátil y eficaz
  • Sistema de anotación de datos vocales de espectro completo y granularidad múltiple
  • Modelización semántico-acústica conjunta de códecs de transmisión de voz con velocidad de bits ultrabaja

 

Utilizar la ayuda

Proceso de instalación

  1. Almacén de clonación:
   git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
  1. Descargue los pesos del modelo (requiere que git-lfs esté instalado):
   git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
  1. Prepare el entorno:
   pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
  1. Inicie la demostración web:
   python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/

Función Flujo de operaciones

  1. Expresiones coloquiales antropomórficas: SpeechGPT 2.0-preview es capaz de simular la expresión oral humana y proporcionar una experiencia de diálogo natural y fluida.
  2. Respuesta de baja latenciaEl sistema responde a las entradas del usuario en el nivel de los cien milisegundos, lo que permite la interacción en tiempo real.
  3. Control multiemoción, multiestilo y multitono: Los usuarios pueden controlar la emoción, el estilo y el timbre del sistema mediante comandos, adaptándose a diferentes escenarios de diálogo.
  4. juego de rol (juego): El sistema es capaz de simular el tono de voz y el estado emocional de distintos personajes y es adecuado para una amplia gama de escenarios de aplicación.
  5. talento fonológico: SpeechGPT 2.0-preview enriquece el diálogo con una gran variedad de dotes vocales, como el recitado de poesía, la narración de cuentos y la expresión dialectal.
  6. Llamadas a herramientas y búsquedas en la redEl sistema admite la llamada de herramientas externas y la realización de búsquedas en red, lo que amplía la funcionalidad del diálogo y el acceso a la información.
  7. Base de conocimientos de pluginsEl acceso a una base de conocimientos externa permite al sistema ofrecer respuestas más detalladas y profesionales.

ejemplo de uso

  • control emocional: El usuario puede introducir el comando "Contar un chiste en tono alegre" y el sistema contará el chiste en tono alegre.
  • juego de rol (juego)Introduzca el comando "Simular el tono de voz de un profesor para explicar funciones cuadráticas" y el sistema explicará con el tono de voz del profesor.
  • talento fonológico: Introduce el comando "Contar una historia en dialecto" y el sistema contará una historia en el dialecto especificado.

A través de los pasos y ejemplos anteriores, los usuarios pueden experimentar plenamente las potentes funciones y los diversos escenarios de aplicación de SpeechGPT 2.0-preview.

© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...