Ichigo (llama3-s): asistente de voz local en tiempo real, versión de código abierto de Siri.

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

56.1K 00

Introducción general

Ichigo es un proyecto de IA del habla en tiempo real y de código abierto que pretende ampliar los modelos lingüísticos basados en texto con capacidades de "escucha" nativa. El proyecto utiliza técnicas de fusión tempranas inspiradas en el documento Chameleon de Meta, e Ichigo aspira a ser un asistente de voz nativo para dispositivos, con datos de código abierto y ponderación abierta, similar a Siri.El proyecto está abierto a que los socios se unan al crowdsourcing de conjuntos de datos de voz.

Lista de funciones

Reconocimiento de voz en tiempo realLa capacidad de procesar y comprender la voz del usuario en tiempo real.
Capacidad de diálogo en varias rondas: Soporte para múltiples rondas de diálogo, la capacidad de mantener el contexto en un diálogo.
gestión del ruidoLa capacidad de negarse a procesar entradas de audio no verbales mediante formación mejora la experiencia del usuario.
Código abierto y escalableEl código del proyecto y los pesos del modelo son de código abierto y los usuarios pueden descargarlos y ampliarlos libremente.
despliegue local: Admite la implantación en dispositivos locales para proteger la privacidad de los usuarios.

Utilizar la ayuda

Proceso de instalación

Preparación medioambiental ::
- Asegúrese de que Python 3.8 o superior está instalado.
- Instale las bibliotecas de dependencias necesarias:pip install -r requirements.txt.

Descargar modelos ::

Utilice el siguiente comando para descargar el modelo Ichigo:

git clone https://github.com/homebrewltd/ichigo.git
cd ichigo
pip install -e .

Configuración del conjunto de datos ::
- Descargue el conjunto de datos necesario de HuggingFace y establezca la ruta del conjunto de datos en el archivo de configuración.
Demostración de lanzamiento ::
- Inicia la demo local de Gradio con el siguiente comando:
```
python demo.py --use-4bit --use-8bit
```

Proceso de utilización

Inicio de los servicios ::
- Después de ejecutar el comando anterior, visite la URL proporcionada localmente para acceder a la interfaz Web UI de Ichigo.
entrada de voz ::
- En la interfaz Web UI, haz clic en el icono del micrófono para iniciar la grabación; el sistema procesará y mostrará los resultados del reconocimiento de voz en tiempo real.
diálogo a varias bandas ::
- El sistema admite múltiples rondas de diálogo, en las que el usuario puede introducir continuamente voz y el sistema mantendrá el contexto para comprender y responder.
gestión del ruido ::
- El sistema está entrenado para reconocer y rechazar el procesamiento de entradas de audio no verbales, lo que garantiza la precisión de los resultados del reconocimiento.
Extensiones personalizadas ::
- Los usuarios pueden modificar el código y el modelo según sea necesario para añadir nuevas funciones o mejorar las existentes.

Procedimiento de funcionamiento detallado

Descarga e instalación ::
- Visita la página de GitHub de Ichigo y sigue el proceso de instalación para descargar e instalar las dependencias y modelos necesarios.
Configuración y puesta en marcha ::
- De acuerdo con el archivo de configuración proporcionado por el proyecto, establezca la ruta del conjunto de datos y los parámetros del modelo para iniciar el servicio local.
Uso de la interfaz web ::
- Experimente el reconocimiento de voz en tiempo real de Ichigo y sus capacidades de diálogo multirronda mediante la entrada de voz y la interacción a través de la interfaz de usuario web.
Ampliación y personalización ::
- Comprender la arquitectura y el funcionamiento del sistema basándose en la documentación del proyecto y en los comentarios del código de las extensiones personalizadas.