Ichigo (llama3-s): asistente de voz local en tiempo real, versión de código abierto de Siri.

Introducción general

Ichigo es un proyecto de IA del habla en tiempo real y de código abierto que pretende ampliar los modelos lingüísticos basados en texto con capacidades de "escucha" nativa. El proyecto utiliza técnicas de fusión tempranas inspiradas en el documento Chameleon de Meta, e Ichigo aspira a ser un asistente de voz nativo para dispositivos, con datos de código abierto y ponderación abierta, similar a Siri.El proyecto está abierto a que los socios se unan al crowdsourcing de conjuntos de datos de voz.

Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

 

Lista de funciones

  • Reconocimiento de voz en tiempo realLa capacidad de procesar y comprender la voz del usuario en tiempo real.
  • Capacidad de diálogo en varias rondas: Soporte para múltiples rondas de diálogo, la capacidad de mantener el contexto en un diálogo.
  • gestión del ruidoLa capacidad de negarse a procesar entradas de audio no verbales mediante formación mejora la experiencia del usuario.
  • Código abierto y escalableEl código del proyecto y los pesos del modelo son de código abierto y los usuarios pueden descargarlos y ampliarlos libremente.
  • despliegue local: Admite la implantación en dispositivos locales para proteger la privacidad de los usuarios.

 

Utilizar la ayuda

Proceso de instalación

  1. Preparación medioambiental ::
    • Asegúrese de que Python 3.8 o superior está instalado.
    • Instale las bibliotecas de dependencias necesarias:pip install -r requirements.txt.
  2. Descargar modelos ::
    • Utilice el siguiente comando para descargar el modelo Ichigo:
      git clone https://github.com/homebrewltd/ichigo.git
      cd ichigo
      pip install -e .
      
  3. Configuración del conjunto de datos ::
    • Descargue el conjunto de datos necesario de HuggingFace y establezca la ruta del conjunto de datos en el archivo de configuración.
  4. Demostración de lanzamiento ::
    • Inicia la demo local de Gradio con el siguiente comando:
      python demo.py --use-4bit --use-8bit
      

Proceso de utilización

  1. Inicio de los servicios ::
    • Después de ejecutar el comando anterior, visite la URL proporcionada localmente para acceder a la interfaz Web UI de Ichigo.
  2. entrada de voz ::
    • En la interfaz Web UI, haz clic en el icono del micrófono para iniciar la grabación; el sistema procesará y mostrará los resultados del reconocimiento de voz en tiempo real.
  3. diálogo a varias bandas ::
    • El sistema admite múltiples rondas de diálogo, en las que el usuario puede introducir continuamente voz y el sistema mantendrá el contexto para comprender y responder.
  4. gestión del ruido ::
    • El sistema está entrenado para reconocer y rechazar el procesamiento de entradas de audio no verbales, lo que garantiza la precisión de los resultados del reconocimiento.
  5. Extensiones personalizadas ::
    • Los usuarios pueden modificar el código y el modelo según sea necesario para añadir nuevas funciones o mejorar las existentes.

Procedimiento de funcionamiento detallado

  1. Descarga e instalación ::
    • Visita la página de GitHub de Ichigo y sigue el proceso de instalación para descargar e instalar las dependencias y modelos necesarios.
  2. Configuración y puesta en marcha ::
    • De acuerdo con el archivo de configuración proporcionado por el proyecto, establezca la ruta del conjunto de datos y los parámetros del modelo para iniciar el servicio local.
  3. Uso de la interfaz web ::
    • Experimente el reconocimiento de voz en tiempo real de Ichigo y sus capacidades de diálogo multirronda mediante la entrada de voz y la interacción a través de la interfaz de usuario web.
  4. Ampliación y personalización ::
    • Comprender la arquitectura y el funcionamiento del sistema basándose en la documentación del proyecto y en los comentarios del código de las extensiones personalizadas.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...