SpeechGPT 2.0-preview: un macromodelo de diálogo antropomórfico de extremo a extremo para la interacción en tiempo real

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

52.2K 00

Introducción general

SpeechGPT 2.0-preview es el primer sistema de interacción antropomórfica en tiempo real introducido por OpenMOSS, entrenado a partir de millones de horas de datos de voz. SpeechGPT 2.0-preview es el primer sistema de interacción antropomórfica en tiempo real basado en millones de horas de datos de voz, que está equipado con una expresión hablada antropomórfica y una respuesta de baja latencia de 100 ms, que admite interrupciones naturales y suaves en tiempo real, SpeechGPT 2.0-preview es capaz de alinear los dos modos de voz y texto, y demostrar la capacidad de control preciso y conmutación inteligente de multi-emociones, multi-estilos y multi-tonos. No sólo puede simular el tono y el estado emocional de varios personajes, sino que también cuenta con una gran variedad de talentos de voz, como recitación de poesía, narración de cuentos y habla dialectal. Además, SpeechGPT 2.0-preview también admite la invocación de herramientas, la búsqueda en la red y la base de conocimientos de plug-ins, lo que proporciona una rica expresión de voz y capacidades de texto.

Dirección de demostración: https://sp2.open-moss.com/

Lista de funciones

Expresiones coloquiales antropomórficas
Respuesta de baja latencia de cien milisegundos
Control multiemoción, multiestilo y multitono
habilidad para los juegos de rol
Talentos vocales como recitar poesía, contar cuentos y hablar en lenguas.
Soporte para llamadas a herramientas, búsquedas en la red y base de conocimientos de plug-ins
Sistema eficaz de rastreo de datos de voz
Proceso de limpieza de datos de voz versátil y eficaz
Sistema de anotación de datos vocales de espectro completo y granularidad múltiple
Modelización semántico-acústica conjunta de códecs de transmisión de voz con velocidad de bits ultrabaja

Utilizar la ayuda

Proceso de instalación

Almacén de clonación:

   git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview

Descargue los pesos del modelo (requiere que git-lfs esté instalado):

   git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B

Prepare el entorno:

   pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation

Inicie la demostración web:

   python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/

Función Flujo de operaciones

Expresiones coloquiales antropomórficas: SpeechGPT 2.0-preview es capaz de simular la expresión oral humana y proporcionar una experiencia de diálogo natural y fluida.
Respuesta de baja latenciaEl sistema responde a las entradas del usuario en el nivel de los cien milisegundos, lo que permite la interacción en tiempo real.
Control multiemoción, multiestilo y multitono: Los usuarios pueden controlar la emoción, el estilo y el timbre del sistema mediante comandos, adaptándose a diferentes escenarios de diálogo.
juego de rol (juego): El sistema es capaz de simular el tono de voz y el estado emocional de distintos personajes y es adecuado para una amplia gama de escenarios de aplicación.
talento fonológico: SpeechGPT 2.0-preview enriquece el diálogo con una gran variedad de dotes vocales, como el recitado de poesía, la narración de cuentos y la expresión dialectal.
Llamadas a herramientas y búsquedas en la redEl sistema admite la llamada de herramientas externas y la realización de búsquedas en red, lo que amplía la funcionalidad del diálogo y el acceso a la información.
Base de conocimientos de pluginsEl acceso a una base de conocimientos externa permite al sistema ofrecer respuestas más detalladas y profesionales.

ejemplo de uso

control emocional: El usuario puede introducir el comando "Contar un chiste en tono alegre" y el sistema contará el chiste en tono alegre.
juego de rol (juego)Introduzca el comando "Simular el tono de voz de un profesor para explicar funciones cuadráticas" y el sistema explicará con el tono de voz del profesor.
talento fonológico: Introduce el comando "Contar una historia en dialecto" y el sistema contará una historia en el dialecto especificado.

A través de los pasos y ejemplos anteriores, los usuarios pueden experimentar plenamente las potentes funciones y los diversos escenarios de aplicación de SpeechGPT 2.0-preview.