SpeechGPT 2.0-preview: un macromodelo de diálogo antropomórfico de extremo a extremo para la interacción en tiempo real
Últimos recursos sobre IAPublicado hace 6 meses Círculo de intercambio de inteligencia artificial 2K 00
Introducción general
SpeechGPT 2.0-preview es el primer sistema de interacción antropomórfica en tiempo real introducido por OpenMOSS, entrenado a partir de millones de horas de datos de voz. SpeechGPT 2.0-preview es el primer sistema de interacción antropomórfica en tiempo real basado en millones de horas de datos de voz, que está equipado con una expresión hablada antropomórfica y una respuesta de baja latencia de 100 ms, que admite interrupciones naturales y suaves en tiempo real, SpeechGPT 2.0-preview es capaz de alinear los dos modos de voz y texto, y demostrar la capacidad de control preciso y conmutación inteligente de multi-emociones, multi-estilos y multi-tonos. No sólo puede simular el tono y el estado emocional de varios personajes, sino que también cuenta con una gran variedad de talentos de voz, como recitación de poesía, narración de cuentos y habla dialectal. Además, SpeechGPT 2.0-preview también admite la invocación de herramientas, la búsqueda en la red y la base de conocimientos de plug-ins, lo que proporciona una rica expresión de voz y capacidades de texto.


Dirección de demostración: https://sp2.open-moss.com/
Lista de funciones
- Expresiones coloquiales antropomórficas
- Respuesta de baja latencia de cien milisegundos
- Control multiemoción, multiestilo y multitono
- habilidad para los juegos de rol
- Talentos vocales como recitar poesía, contar cuentos y hablar en lenguas.
- Soporte para llamadas a herramientas, búsquedas en la red y base de conocimientos de plug-ins
- Sistema eficaz de rastreo de datos de voz
- Proceso de limpieza de datos de voz versátil y eficaz
- Sistema de anotación de datos vocales de espectro completo y granularidad múltiple
- Modelización semántico-acústica conjunta de códecs de transmisión de voz con velocidad de bits ultrabaja
Utilizar la ayuda
Proceso de instalación
- Almacén de clonación:
git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
- Descargue los pesos del modelo (requiere que git-lfs esté instalado):
git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
- Prepare el entorno:
pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
- Inicie la demostración web:
python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/
Función Flujo de operaciones
- Expresiones coloquiales antropomórficas: SpeechGPT 2.0-preview es capaz de simular la expresión oral humana y proporcionar una experiencia de diálogo natural y fluida.
- Respuesta de baja latenciaEl sistema responde a las entradas del usuario en el nivel de los cien milisegundos, lo que permite la interacción en tiempo real.
- Control multiemoción, multiestilo y multitono: Los usuarios pueden controlar la emoción, el estilo y el timbre del sistema mediante comandos, adaptándose a diferentes escenarios de diálogo.
- juego de rol (juego): El sistema es capaz de simular el tono de voz y el estado emocional de distintos personajes y es adecuado para una amplia gama de escenarios de aplicación.
- talento fonológico: SpeechGPT 2.0-preview enriquece el diálogo con una gran variedad de dotes vocales, como el recitado de poesía, la narración de cuentos y la expresión dialectal.
- Llamadas a herramientas y búsquedas en la redEl sistema admite la llamada de herramientas externas y la realización de búsquedas en red, lo que amplía la funcionalidad del diálogo y el acceso a la información.
- Base de conocimientos de pluginsEl acceso a una base de conocimientos externa permite al sistema ofrecer respuestas más detalladas y profesionales.
ejemplo de uso
- control emocional: El usuario puede introducir el comando "Contar un chiste en tono alegre" y el sistema contará el chiste en tono alegre.
- juego de rol (juego)Introduzca el comando "Simular el tono de voz de un profesor para explicar funciones cuadráticas" y el sistema explicará con el tono de voz del profesor.
- talento fonológico: Introduce el comando "Contar una historia en dialecto" y el sistema contará una historia en el dialecto especificado.
A través de los pasos y ejemplos anteriores, los usuarios pueden experimentar plenamente las potentes funciones y los diversos escenarios de aplicación de SpeechGPT 2.0-preview.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...