Vexa: una herramienta inteligente de transcripción de reuniones y extracción de conocimientos en tiempo real

Introducción general

Vexa es una plataforma de código abierto de transcripción de reuniones en tiempo real y gestión del conocimiento diseñada para proporcionar servicios eficientes de grabación de reuniones y extracción inteligente del conocimiento para empresas y particulares. Se une automáticamente a Google Meet, Zoom y otras plataformas a través de robots de reuniones basados en API que transcriben voz a texto en tiempo real y admiten 99 idiomas.Vexa utiliza una arquitectura de microservicios que es altamente escalable y adecuada para gestionar un gran número de tareas de transcripción simultáneas. Hace hincapié en la seguridad de los datos a nivel empresarial y ofrece opciones de despliegue local para garantizar el cumplimiento de la normativa. Actualmente en fase beta cerrada y disponible de forma gratuita a través del sitio web oficial, Vexa pretende ser una alternativa de nivel empresarial a recall.ai, combinando un alto rendimiento con una rica funcionalidad.

Vexa:实时会议转录与智能知识提取工具

 

Lista de funciones

  • Transcripción de reuniones en tiempo realÚnete automáticamente a reuniones de Google Meet, Zoom, Microsoft Teams y transcribe voz a texto en tiempo real.
  • Soporte multilingüeSoporte de transcripción en 99 idiomas para equipos internacionales.
  • robot de conferenciasSimplifique las operaciones controlando los bots para que se unan a las reuniones a través de una API.
  • extracción de conocimientos: Mediante la tecnología RAG (Retrieval Augmented Generation), se extrae información clave de las transcripciones para generar una base de conocimientos en la que se pueden realizar búsquedas.
  • Seguridad de las empresas: Admite la implantación local, protege la privacidad de los datos y satisface las necesidades de cumplimiento de normativas.
  • alta escalabilidadArquitectura de microservicios para soportar tareas de transcripción masivamente concurrentes.
  • transmisión directaSoporte para capturar audio directamente desde páginas web o aplicaciones móviles (en desarrollo).
  • contribución al código abiertoLos desarrolladores pueden participar en el desarrollo y ampliar la funcionalidad a través de GitHub.

 

Utilizar la ayuda

Instalación y despliegue

Vexa es un proyecto de código abierto adecuado para su implantación local por usuarios o empresas con conocimientos técnicos. A continuación se detalla el proceso de instalación:

  1. almacén de clones
    Abre un terminal y ejecuta el siguiente comando para clonar el repositorio de Vexa:

    git clone https://github.com/Vexa-ai/vexa.git
    cd vexa
    
  2. Inicialización de submódulos
    Vexa utiliza submódulos Git para gestionar dependencias (como services/vexa-bot y services/WhisperLive). Ejecutar:

    make submodules
    
  3. Configuración de variables de entorno
    Cree y edite el archivo de configuración del entorno:

    make env
    

    Establezca parámetros en el archivo .env, como ADMIN_API_TOKEN (clave de API de administrador). Ajuste el Susurro Ruta del modelo o configuración de la base de datos.

  4. Descargar Whisper Models
    Vexa utiliza el modelo Whisper para la transcripción de voz. Ejecute el siguiente comando:

    make download-model
    

    El modelo se almacenará en el directorio . /hub y se montará en el contenedor WhisperLive.

  5. Construir un robot-espejo para conferencias
    Creación de imágenes Docker para robots Vexa:

    docker build -t vexa-bot:latest -f services/vexa-bot/core/Dockerfile ./services/vexa-bot/core
    
  6. Inicio de los servicios
    Utilice Docker Compose para crear y ejecutar el servicio:

    docker compose build
    docker compose up -d
    

    Cuando se inicia el servicio, la pasarela API se ejecuta en http://localhost:8056 y la interfaz de gestión en http://localhost:8057.

Función principal Operación

Transcripción de reuniones en tiempo real

La característica principal de Vexa es la transcripción en tiempo real de la voz de una reunión a través de un robot de reuniones. El procedimiento es el siguiente:

  1. Solicitar una clave API
    Visite https://api.dev.vexa.ai/pricing para solicitar una clave API para pruebas cerradas. Después de enviar la solicitud, obtenga la X-API-Key.
  2. Enviar un robot para que se una a una reunión
    Utiliza una solicitud API para que el bot se una a una reunión. Por ejemplo, unirse a un Google Meet:

    curl -X POST https://gateway.dev.vexa.ai/bots \
    -H "Content-Type: application/json" \
    -H "X-API-Key: YOUR_CLIENT_API_KEY" \
    -d '{"native_meeting_id": "xxx-xxxx-xxx", "platform": "google_meet"}'
    

    En caso de éxito, se devuelve el JSON que contiene el meeting_id y el estado del robot.

  3. Acceso a los datos de transcripción
    Utilice el identificador de sesión para obtener las transcripciones:

    curl -H "X-API-Key: YOUR_CLIENT_API_KEY" \
    https://gateway.dev.vexa.ai/transcripts/google_meet/xxx-xxxx-xxx
    

    Volver al ejemplo:

    {
    "data": {
    "meeting_id": "meet_abc123",
    "transcripts": [
    {"time": "00:01:15", "speaker": "John Smith", "text": "Let's discuss the quarterly results."},
    {"time": "00:01:23", "speaker": "Sarah Johnson", "text": "The Q3 revenue exceeded our projections by 15%."}
    ]
    }
    }
    

Soporte multilingüe

Vexa permite la transcripción en tiempo real en 99 idiomas. Método de configuración:

  • Especifique el idioma en el archivo .env, por ejemplo, LANGUAGE=es.
  • Añade un parámetro de idioma a la solicitud API:
    curl -X POST -H "Content-Type: application/octet-stream" \
    -d '{"language": "es"}' \
    http://localhost:8033/
    

    El sistema transcribirá automáticamente la reunión en el idioma especificado.

extracción de conocimientos

Vexa's RAG Las funciones extraen información clave de las transcripciones para generar una base de conocimientos estructurada:

  1. Ver la base de conocimientos
    Se accede a las entradas de conocimiento generadas a través de la interfaz de gestión (http://localhost:8057) o de una API.
  2. búsqueda de información
    Busque en la base de conocimientos mediante palabras clave y RAG le devolverá las actas y el contexto pertinentes.
  3. Exportar datos
    Exporte las entradas de conocimientos a través de la API a formato JSON o CSV para analizarlas o archivarlas.

Streaming directo (en desarrollo)

Vexa planea soportar la captura de audio directamente desde aplicaciones web o móviles. Los usuarios subirán secuencias de audio a través de un SDK o API y el sistema las transcribirá en tiempo real. Se espera que esta función esté disponible en 2025.

Otras funciones

  • Seguridad de las empresasDatos segregados desplegados localmente, con interfaces de gestión protegidas mediante X-Admin-API-Key. Las empresas pueden configurar los derechos de acceso en función de las necesidades de cumplimiento.
  • alta escalabilidad: La arquitectura de microservicios asigna tareas automáticamente. Sin intervención manual, el sistema puede gestionar miles de transcripciones simultáneas.
  • Contribuciones comunitarias: Visite https://github.com/Vexa-ai/vexa para CONTRIBUIR.md. Los desarrolladores pueden discutir tareas o enviar código a través de Discord (https://discord.gg/Ga9duGkVz9).

advertencia

  • requisitos de hardwareSe recomiendan servidores equipados con GPU NVIDIA, 16 GB de RAM y CPU de 4 núcleos.
  • Actualizar el mantenimientoEjecute git pull y docker compose up --build periódicamente para obtener las últimas características.
  • prueba cerrada: El acceso a la API requiere una clave, y hay un número limitado de plazas de prueba disponibles.
  • progreso del desarrolloEl reconocimiento de altavoces está en desarrollo, y se espera que los bots de Microsoft Teams y Zoom entren en funcionamiento en abril y mayo de 2025, respectivamente.

 

escenario de aplicación

  1. Conferencia sobre empresas multinacionales
    Los equipos multinacionales utilizan Vexa para transcribir reuniones multilingües, traducir al inglés en tiempo real, extraer puntos de decisión y generar una base de conocimientos con capacidad de búsqueda para facilitar la colaboración global.
  2. gestión de proyectos
    Los equipos de desarrollo registran las reuniones técnicas, y Vexa extrae las asignaciones de tareas y los plazos, generando informes automatizados y reduciendo la recopilación manual.
  3. Optimización de la atención al cliente
    El equipo de atención al cliente transcribe las llamadas de los clientes, extrae problemas y soluciones comunes y crea una base de conocimientos para mejorar la rapidez y coherencia de las respuestas.
  4. Expedientes académicos de investigación
    Los investigadores graban entrevistas o talleres, y Vexa transcribe y analiza el contenido, generando datos estructurados para apoyar la redacción de artículos.

 

CONTROL DE CALIDAD

  1. ¿Qué plataformas admite Vexa?
    La compatibilidad actual con los bots de Google Meet, Microsoft Teams y Zoom está prevista para 2025.
  2. ¿Cómo solicito una llave de prueba?
    Visite https://api.dev.vexa.ai/pricing para solicitar una clave X-API de prueba gratuita.
  3. ¿Qué recursos se necesitan para la implantación local?
    Servidores recomendados con GPU NVIDIA, un mínimo de 16 GB de RAM y CPU de 4 núcleos.
  4. ¿Admite Vexa la traducción en tiempo real?
    Actualmente se transcriben 99 idiomas, y está previsto que la traducción en tiempo real empiece a funcionar en 2025.
  5. ¿Cómo puedo participar en el desarrollo?
    Únete a Discord (https://discord.gg/Ga9duGkVz9), consulta CONTRIBUTING.md y envía la Pull Request.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...