Bailing: un asistente de diálogo de voz de código abierto y baja latencia para la conversación y la comunicación naturales

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

70.9K 00

Introducción general

Bailing es un asistente de diálogo por voz de código abierto diseñado para entablar un diálogo natural con los usuarios a través del habla. El proyecto combina tecnologías de reconocimiento del habla (ASR), detección de actividad vocal (VAD), modelo de lenguaje amplio (LLM) y síntesis del habla (TTS) para implantar un robot de diálogo por voz similar al GPT-4o. Con una latencia de extremo a extremo tan baja como 800 ms, BaiLing es apto para una amplia gama de dispositivos periféricos y entornos de bajos recursos. Su eficiente modelo de código abierto y su diseño modular le permiten funcionar sin GPU, proporcionando una experiencia de diálogo de voz de alta calidad. Con funciones como la función de memoria, la invocación de herramientas y la gestión de tareas, Biolabs recuerda las preferencias del usuario y las conversaciones históricas para ofrecer una experiencia interactiva personalizada.

Lista de funciones

Entrada de voz: reconocimiento de voz preciso mediante FunASR.
Detección de actividad vocal: filtrado de audio no válido mediante silero-vad para mejorar la eficacia del reconocimiento.
Generación inteligente de diálogos: basarse en búsqueda profunda La potente comprensión del lenguaje que proporciona genera respuestas de texto naturales.
Salida de voz: convierte el texto en voz a través de edge-tts, proporcionando a los usuarios una respuesta auditiva realista.
Soporte de interrupciones: la configuración flexible de las políticas de interrupción, con capacidad para identificar palabras clave e interrupciones de voz, garantiza la respuesta inmediata del usuario y el control en el diálogo.
Soporte de memoria: capacidad de aprendizaje continuo para recordar las preferencias del usuario y el historial de conversaciones para ofrecer una experiencia interactiva personalizada.
Soporte para la invocación de herramientas: la integración flexible de herramientas externas permite a los usuarios solicitar información o realizar acciones directamente a través de la voz.
Compatibilidad con la gestión de tareas: gestione eficazmente las tareas de los usuarios con la posibilidad de realizar un seguimiento del progreso, establecer recordatorios y proporcionar actualizaciones dinámicas.

Utilizar la ayuda

Instalación y funcionamiento

Entorno dependiente

Asegúrese de tener instaladas las siguientes herramientas y bibliotecas en su entorno de desarrollo:

Python 3.8 o superior
gestor de paquetes pip
Dependencias necesarias para FunASR, silero-vad, deepseek, edge-tts

Pasos de la instalación

Almacén de proyectos de clonación:

   git clone https://github.com/wwbin2017/bailing.git
cd bailing

Instale las dependencias necesarias:

   pip install -r requirements.txt

Configurar variables de entorno: Abrir config/config.yaml Configurar ASR, LLM y otras configuraciones relacionadas. Descargar SenseVoiceSmall al catálogo models/SenseVoiceSmallLa clave API de deepseek se utiliza para configurar el modelo. Obtén la clave API de deepseek y configúralo, por supuesto, también puedes configurar otros modelos como openai, qwen, gemini, 01yi, etc.
Ejecuta el proyecto:

   cd server
python server.py  # 启动后端服务，也可不执行这一步
python main.py

Instrucciones de uso

Después de iniciar la aplicación, el sistema esperará la entrada de voz. Este es el procedimiento de funcionamiento detallado:

Convierte la voz del usuario en texto con FunASR.
Utilice silero-vad para la detección de la actividad vocal y garantizar que sólo se procesa el habla válida.
deepseek procesa la entrada de texto y genera respuestas inteligentes.
edge-tts, ChatTTS, macOS say convierte el texto generado en voz y lo reproduce al usuario.

Función Flujo de operaciones

entrada de voz: El usuario introduce la voz a través del micrófono y el sistema realiza automáticamente el reconocimiento de voz.
Detección de actividad vocalEl sistema filtra automáticamente el audio no válido para garantizar la eficacia del reconocimiento.
Generación inteligente de diálogosEl sistema genera respuestas de texto natural a partir de la información introducida por el usuario.
salida de vozEl sistema convierte las respuestas de texto en voz y las reproduce al usuario.
Apoyo a las interrupcionesEl usuario puede interrumpir por voz el diálogo en curso y el sistema responderá al instante.
función de memoriaEl sistema recuerda las preferencias del usuario y su historial de conversaciones para ofrecerle una experiencia interactiva personalizada.
Llamada a la herramienta: Los usuarios pueden solicitar información o realizar acciones por voz, y el sistema integra de forma flexible herramientas externas.
Gestión de tareasLos usuarios pueden establecer recordatorios de tareas y el sistema gestionará eficazmente el progreso de las tareas y proporcionará actualizaciones dinámicas.

operación de muestreo

Obtener información meteorológicaEl usuario dice: "¿Qué tiempo hace en Hangzhou?". El sistema devolverá las condiciones meteorológicas en Hangzhou.
Creación de tareas cronometradasEl usuario dice: "Recuérdame que beba agua todas las mañanas a las 8". El sistema establecerá un recordatorio temporizado.

Con la ayuda detallada de uso anterior, los usuarios pueden empezar a utilizar BaiLing fácilmente y disfrutar de una experiencia de diálogo de voz eficaz.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Producto interactivo multimodal en tiempo real

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

SimplAI: una plataforma para que las empresas creen rápidamente aplicaciones inteligentes de IA

Últimos recursos sobre IA # Flujo de trabajo de bajo código # Marco de desarrollo del cuerpo inteligente

hace 12 meses

051.5K

Relationchips: un asistente de inteligencia artificial para consultar y visualizar datos en lenguaje natural

Últimos recursos sobre IA # Análisis de datos de IA

hace 12 meses

050.2K

Sketch-Gen: Genere dibujos lineales y bocetos de alta calidad, retropropagación de palabras clave de imágenes, instalación de paquetes con un solo clic.

Últimos recursos sobre IA # AI Ayudas para la generación de imágenes # AI Java Proyecto de código abierto

hace 1 año

063.1K

Kimi: asistente de diálogo con inteligencia artificial, KimiChat permite introducir texto extra largo y cargar archivos de gran tamaño

Últimos recursos sobre IA # AI Big Model Herramienta de diálogo nativa

hace 2 años

0126.5K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Bailing: un asistente de diálogo de voz de código abierto y baja latencia para la conversación y la comunicación naturales

Introducción general

Lista de funciones

Utilizar la ayuda

Instalación y funcionamiento

Entorno dependiente

Pasos de la instalación

Instrucciones de uso

Función Flujo de operaciones

operación de muestreo

Metaverse AI: versión de código abierto de una herramienta de clonación humana digital y generación de vídeos cortos con IA

Omni-RGPT: un gran modelo multimodal de comprensión regional de imágenes y vídeos para mejorar el análisis del contenido visual

Artículos relacionados

SimplAI: una plataforma para que las empresas creen rápidamente aplicaciones inteligentes de IA

Relationchips: un asistente de inteligencia artificial para consultar y visualizar datos en lenguaje natural

Sketch-Gen: Genere dibujos lineales y bocetos de alta calidad, retropropagación de palabras clave de imágenes, instalación de paquetes con un solo clic.

Kimi: asistente de diálogo con inteligencia artificial, KimiChat permite introducir texto extra largo y cargar archivos de gran tamaño

Sin comentarios

Últimas colecciones

Últimos artículos

Bailing: un asistente de diálogo de voz de código abierto y baja latencia para la conversación y la comunicación naturales

Introducción general

Lista de funciones

Utilizar la ayuda

Instalación y funcionamiento

Entorno dependiente

Pasos de la instalación

Instrucciones de uso

Función Flujo de operaciones

operación de muestreo

Metaverse AI: versión de código abierto de una herramienta de clonación humana digital y generación de vídeos cortos con IA

Omni-RGPT: un gran modelo multimodal de comprensión regional de imágenes y vídeos para mejorar el análisis del contenido visual

Artículos relacionados

SimplAI: una plataforma para que las empresas creen rápidamente aplicaciones inteligentes de IA

Relationchips: un asistente de inteligencia artificial para consultar y visualizar datos en lenguaje natural

Sketch-Gen: Genere dibujos lineales y bocetos de alta calidad, retropropagación de palabras clave de imágenes, instalación de paquetes con un solo clic.

Kimi: asistente de diálogo con inteligencia artificial, KimiChat permite introducir texto extra largo y cargar archivos de gran tamaño

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos