SpeechGPT 2.0-preview: un macromodelo de diálogo antropomórfico de extremo a extremo para la interacción en tiempo real
 Últimos recursos sobre IAPublicado hace 9 meses Círculo de intercambio de inteligencia artificial 25K 00
Introducción general
SpeechGPT 2.0-preview es el primer sistema de interacción antropomórfica en tiempo real introducido por OpenMOSS, entrenado a partir de millones de horas de datos de voz. SpeechGPT 2.0-preview es el primer sistema de interacción antropomórfica en tiempo real basado en millones de horas de datos de voz, que está equipado con una expresión hablada antropomórfica y una respuesta de baja latencia de 100 ms, que admite interrupciones naturales y suaves en tiempo real, SpeechGPT 2.0-preview es capaz de alinear los dos modos de voz y texto, y demostrar la capacidad de control preciso y conmutación inteligente de multi-emociones, multi-estilos y multi-tonos. No sólo puede simular el tono y el estado emocional de varios personajes, sino que también cuenta con una gran variedad de talentos de voz, como recitación de poesía, narración de cuentos y habla dialectal. Además, SpeechGPT 2.0-preview también admite la invocación de herramientas, la búsqueda en la red y la base de conocimientos de plug-ins, lo que proporciona una rica expresión de voz y capacidades de texto.


Dirección de demostración: https://sp2.open-moss.com/
Lista de funciones
- Expresiones coloquiales antropomórficas
- Respuesta de baja latencia de cien milisegundos
- Control multiemoción, multiestilo y multitono
- habilidad para los juegos de rol
- Talentos vocales como recitar poesía, contar cuentos y hablar en lenguas.
- Soporte para llamadas a herramientas, búsquedas en la red y base de conocimientos de plug-ins
- Sistema eficaz de rastreo de datos de voz
- Proceso de limpieza de datos de voz versátil y eficaz
- Sistema de anotación de datos vocales de espectro completo y granularidad múltiple
- Modelización semántico-acústica conjunta de códecs de transmisión de voz con velocidad de bits ultrabaja
Utilizar la ayuda
Proceso de instalación
- Almacén de clonación:
   git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
- Descargue los pesos del modelo (requiere que git-lfs esté instalado):
   git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
- Prepare el entorno:
   pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
- Inicie la demostración web:
   python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/
Función Flujo de operaciones
- Expresiones coloquiales antropomórficas: SpeechGPT 2.0-preview es capaz de simular la expresión oral humana y proporcionar una experiencia de diálogo natural y fluida.
- Respuesta de baja latenciaEl sistema responde a las entradas del usuario en el nivel de los cien milisegundos, lo que permite la interacción en tiempo real.
- Control multiemoción, multiestilo y multitono: Los usuarios pueden controlar la emoción, el estilo y el timbre del sistema mediante comandos, adaptándose a diferentes escenarios de diálogo.
- juego de rol (juego): El sistema es capaz de simular el tono de voz y el estado emocional de distintos personajes y es adecuado para una amplia gama de escenarios de aplicación.
- talento fonológico: SpeechGPT 2.0-preview enriquece el diálogo con una gran variedad de dotes vocales, como el recitado de poesía, la narración de cuentos y la expresión dialectal.
- Llamadas a herramientas y búsquedas en la redEl sistema admite la llamada de herramientas externas y la realización de búsquedas en red, lo que amplía la funcionalidad del diálogo y el acceso a la información.
- Base de conocimientos de pluginsEl acceso a una base de conocimientos externa permite al sistema ofrecer respuestas más detalladas y profesionales.
ejemplo de uso
- control emocional: El usuario puede introducir el comando "Contar un chiste en tono alegre" y el sistema contará el chiste en tono alegre.
- juego de rol (juego)Introduzca el comando "Simular el tono de voz de un profesor para explicar funciones cuadráticas" y el sistema explicará con el tono de voz del profesor.
- talento fonológico: Introduce el comando "Contar una historia en dialecto" y el sistema contará una historia en el dialecto especificado.
A través de los pasos y ejemplos anteriores, los usuarios pueden experimentar plenamente las potentes funciones y los diversos escenarios de aplicación de SpeechGPT 2.0-preview.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial  Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...





 Español
Español  简体中文
简体中文  English
English  日本語
日本語  한국어
한국어  Русский
Русский