Ichigo (llama3-s): asistente de voz local en tiempo real, versión de código abierto de Siri.
Últimos recursos sobre IAActualizado hace 7 meses Círculo de intercambio de inteligencia artificial 2.8K 00
Introducción general
Ichigo es un proyecto de IA del habla en tiempo real y de código abierto que pretende ampliar los modelos lingüísticos basados en texto con capacidades de "escucha" nativa. El proyecto utiliza técnicas de fusión tempranas inspiradas en el documento Chameleon de Meta, e Ichigo aspira a ser un asistente de voz nativo para dispositivos, con datos de código abierto y ponderación abierta, similar a Siri.El proyecto está abierto a que los socios se unan al crowdsourcing de conjuntos de datos de voz.

Lista de funciones
- Reconocimiento de voz en tiempo realLa capacidad de procesar y comprender la voz del usuario en tiempo real.
- Capacidad de diálogo en varias rondas: Soporte para múltiples rondas de diálogo, la capacidad de mantener el contexto en un diálogo.
- gestión del ruidoLa capacidad de negarse a procesar entradas de audio no verbales mediante formación mejora la experiencia del usuario.
- Código abierto y escalableEl código del proyecto y los pesos del modelo son de código abierto y los usuarios pueden descargarlos y ampliarlos libremente.
- despliegue local: Admite la implantación en dispositivos locales para proteger la privacidad de los usuarios.
Utilizar la ayuda
Proceso de instalación
- Preparación medioambiental ::
- Asegúrese de que Python 3.8 o superior está instalado.
- Instale las bibliotecas de dependencias necesarias:
pip install -r requirements.txt
.
- Descargar modelos ::
- Utilice el siguiente comando para descargar el modelo Ichigo:
git clone https://github.com/homebrewltd/ichigo.git cd ichigo pip install -e .
- Utilice el siguiente comando para descargar el modelo Ichigo:
- Configuración del conjunto de datos ::
- Descargue el conjunto de datos necesario de HuggingFace y establezca la ruta del conjunto de datos en el archivo de configuración.
- Demostración de lanzamiento ::
- Inicia la demo local de Gradio con el siguiente comando:
python demo.py --use-4bit --use-8bit
- Inicia la demo local de Gradio con el siguiente comando:
Proceso de utilización
- Inicio de los servicios ::
- Después de ejecutar el comando anterior, visite la URL proporcionada localmente para acceder a la interfaz Web UI de Ichigo.
- entrada de voz ::
- En la interfaz Web UI, haz clic en el icono del micrófono para iniciar la grabación; el sistema procesará y mostrará los resultados del reconocimiento de voz en tiempo real.
- diálogo a varias bandas ::
- El sistema admite múltiples rondas de diálogo, en las que el usuario puede introducir continuamente voz y el sistema mantendrá el contexto para comprender y responder.
- gestión del ruido ::
- El sistema está entrenado para reconocer y rechazar el procesamiento de entradas de audio no verbales, lo que garantiza la precisión de los resultados del reconocimiento.
- Extensiones personalizadas ::
- Los usuarios pueden modificar el código y el modelo según sea necesario para añadir nuevas funciones o mejorar las existentes.
Procedimiento de funcionamiento detallado
- Descarga e instalación ::
- Visita la página de GitHub de Ichigo y sigue el proceso de instalación para descargar e instalar las dependencias y modelos necesarios.
- Configuración y puesta en marcha ::
- De acuerdo con el archivo de configuración proporcionado por el proyecto, establezca la ruta del conjunto de datos y los parámetros del modelo para iniciar el servicio local.
- Uso de la interfaz web ::
- Experimente el reconocimiento de voz en tiempo real de Ichigo y sus capacidades de diálogo multirronda mediante la entrada de voz y la interacción a través de la interfaz de usuario web.
- Ampliación y personalización ::
- Comprender la arquitectura y el funcionamiento del sistema basándose en la documentación del proyecto y en los comentarios del código de las extensiones personalizadas.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...