Vexa: una herramienta inteligente de transcripción de reuniones y extracción de conocimientos en tiempo real
Últimos recursos sobre IAPublicado hace 4 meses Círculo de intercambio de inteligencia artificial 2.2K 00
Introducción general
Vexa es una plataforma de código abierto de transcripción de reuniones en tiempo real y gestión del conocimiento diseñada para proporcionar servicios eficientes de grabación de reuniones y extracción inteligente del conocimiento para empresas y particulares. Se une automáticamente a Google Meet, Zoom y otras plataformas a través de robots de reuniones basados en API que transcriben voz a texto en tiempo real y admiten 99 idiomas.Vexa utiliza una arquitectura de microservicios que es altamente escalable y adecuada para gestionar un gran número de tareas de transcripción simultáneas. Hace hincapié en la seguridad de los datos a nivel empresarial y ofrece opciones de despliegue local para garantizar el cumplimiento de la normativa. Actualmente en fase beta cerrada y disponible de forma gratuita a través del sitio web oficial, Vexa pretende ser una alternativa de nivel empresarial a recall.ai, combinando un alto rendimiento con una rica funcionalidad.

Lista de funciones
- Transcripción de reuniones en tiempo realÚnete automáticamente a reuniones de Google Meet, Zoom, Microsoft Teams y transcribe voz a texto en tiempo real.
- Soporte multilingüeSoporte de transcripción en 99 idiomas para equipos internacionales.
- robot de conferenciasSimplifique las operaciones controlando los bots para que se unan a las reuniones a través de una API.
- extracción de conocimientos: Mediante la tecnología RAG (Retrieval Augmented Generation), se extrae información clave de las transcripciones para generar una base de conocimientos en la que se pueden realizar búsquedas.
- Seguridad de las empresas: Admite la implantación local, protege la privacidad de los datos y satisface las necesidades de cumplimiento de normativas.
- alta escalabilidadArquitectura de microservicios para soportar tareas de transcripción masivamente concurrentes.
- transmisión directaSoporte para capturar audio directamente desde páginas web o aplicaciones móviles (en desarrollo).
- contribución al código abiertoLos desarrolladores pueden participar en el desarrollo y ampliar la funcionalidad a través de GitHub.
Utilizar la ayuda
Instalación y despliegue
Vexa es un proyecto de código abierto adecuado para su implantación local por usuarios o empresas con conocimientos técnicos. A continuación se detalla el proceso de instalación:
- almacén de clones
Abre un terminal y ejecuta el siguiente comando para clonar el repositorio de Vexa:git clone https://github.com/Vexa-ai/vexa.git cd vexa
- Inicialización de submódulos
Vexa utiliza submódulos Git para gestionar dependencias (como services/vexa-bot y services/WhisperLive). Ejecutar:make submodules
- Configuración de variables de entorno
Cree y edite el archivo de configuración del entorno:make env
Establezca parámetros en el archivo .env, como ADMIN_API_TOKEN (clave de API de administrador). Ajuste el Susurro Ruta del modelo o configuración de la base de datos.
- Descargar Whisper Models
Vexa utiliza el modelo Whisper para la transcripción de voz. Ejecute el siguiente comando:make download-model
El modelo se almacenará en el directorio . /hub y se montará en el contenedor WhisperLive.
- Construir un robot-espejo para conferencias
Creación de imágenes Docker para robots Vexa:docker build -t vexa-bot:latest -f services/vexa-bot/core/Dockerfile ./services/vexa-bot/core
- Inicio de los servicios
Utilice Docker Compose para crear y ejecutar el servicio:docker compose build docker compose up -d
Cuando se inicia el servicio, la pasarela API se ejecuta en http://localhost:8056 y la interfaz de gestión en http://localhost:8057.
Función principal Operación
Transcripción de reuniones en tiempo real
La característica principal de Vexa es la transcripción en tiempo real de la voz de una reunión a través de un robot de reuniones. El procedimiento es el siguiente:
- Solicitar una clave API
Visite https://api.dev.vexa.ai/pricing para solicitar una clave API para pruebas cerradas. Después de enviar la solicitud, obtenga la X-API-Key. - Enviar un robot para que se una a una reunión
Utiliza una solicitud API para que el bot se una a una reunión. Por ejemplo, unirse a un Google Meet:curl -X POST https://gateway.dev.vexa.ai/bots \ -H "Content-Type: application/json" \ -H "X-API-Key: YOUR_CLIENT_API_KEY" \ -d '{"native_meeting_id": "xxx-xxxx-xxx", "platform": "google_meet"}'
En caso de éxito, se devuelve el JSON que contiene el meeting_id y el estado del robot.
- Acceso a los datos de transcripción
Utilice el identificador de sesión para obtener las transcripciones:curl -H "X-API-Key: YOUR_CLIENT_API_KEY" \ https://gateway.dev.vexa.ai/transcripts/google_meet/xxx-xxxx-xxx
Volver al ejemplo:
{ "data": { "meeting_id": "meet_abc123", "transcripts": [ {"time": "00:01:15", "speaker": "John Smith", "text": "Let's discuss the quarterly results."}, {"time": "00:01:23", "speaker": "Sarah Johnson", "text": "The Q3 revenue exceeded our projections by 15%."} ] } }
Soporte multilingüe
Vexa permite la transcripción en tiempo real en 99 idiomas. Método de configuración:
- Especifique el idioma en el archivo .env, por ejemplo, LANGUAGE=es.
- Añade un parámetro de idioma a la solicitud API:
curl -X POST -H "Content-Type: application/octet-stream" \ -d '{"language": "es"}' \ http://localhost:8033/
El sistema transcribirá automáticamente la reunión en el idioma especificado.
extracción de conocimientos
Vexa's RAG Las funciones extraen información clave de las transcripciones para generar una base de conocimientos estructurada:
- Ver la base de conocimientos
Se accede a las entradas de conocimiento generadas a través de la interfaz de gestión (http://localhost:8057) o de una API. - búsqueda de información
Busque en la base de conocimientos mediante palabras clave y RAG le devolverá las actas y el contexto pertinentes. - Exportar datos
Exporte las entradas de conocimientos a través de la API a formato JSON o CSV para analizarlas o archivarlas.
Streaming directo (en desarrollo)
Vexa planea soportar la captura de audio directamente desde aplicaciones web o móviles. Los usuarios subirán secuencias de audio a través de un SDK o API y el sistema las transcribirá en tiempo real. Se espera que esta función esté disponible en 2025.
Otras funciones
- Seguridad de las empresasDatos segregados desplegados localmente, con interfaces de gestión protegidas mediante X-Admin-API-Key. Las empresas pueden configurar los derechos de acceso en función de las necesidades de cumplimiento.
- alta escalabilidad: La arquitectura de microservicios asigna tareas automáticamente. Sin intervención manual, el sistema puede gestionar miles de transcripciones simultáneas.
- Contribuciones comunitarias: Visite https://github.com/Vexa-ai/vexa para CONTRIBUIR.md. Los desarrolladores pueden discutir tareas o enviar código a través de Discord (https://discord.gg/Ga9duGkVz9).
advertencia
- requisitos de hardwareSe recomiendan servidores equipados con GPU NVIDIA, 16 GB de RAM y CPU de 4 núcleos.
- Actualizar el mantenimientoEjecute git pull y docker compose up --build periódicamente para obtener las últimas características.
- prueba cerrada: El acceso a la API requiere una clave, y hay un número limitado de plazas de prueba disponibles.
- progreso del desarrolloEl reconocimiento de altavoces está en desarrollo, y se espera que los bots de Microsoft Teams y Zoom entren en funcionamiento en abril y mayo de 2025, respectivamente.
escenario de aplicación
- Conferencia sobre empresas multinacionales
Los equipos multinacionales utilizan Vexa para transcribir reuniones multilingües, traducir al inglés en tiempo real, extraer puntos de decisión y generar una base de conocimientos con capacidad de búsqueda para facilitar la colaboración global. - gestión de proyectos
Los equipos de desarrollo registran las reuniones técnicas, y Vexa extrae las asignaciones de tareas y los plazos, generando informes automatizados y reduciendo la recopilación manual. - Optimización de la atención al cliente
El equipo de atención al cliente transcribe las llamadas de los clientes, extrae problemas y soluciones comunes y crea una base de conocimientos para mejorar la rapidez y coherencia de las respuestas. - Expedientes académicos de investigación
Los investigadores graban entrevistas o talleres, y Vexa transcribe y analiza el contenido, generando datos estructurados para apoyar la redacción de artículos.
CONTROL DE CALIDAD
- ¿Qué plataformas admite Vexa?
La compatibilidad actual con los bots de Google Meet, Microsoft Teams y Zoom está prevista para 2025. - ¿Cómo solicito una llave de prueba?
Visite https://api.dev.vexa.ai/pricing para solicitar una clave X-API de prueba gratuita. - ¿Qué recursos se necesitan para la implantación local?
Servidores recomendados con GPU NVIDIA, un mínimo de 16 GB de RAM y CPU de 4 núcleos. - ¿Admite Vexa la traducción en tiempo real?
Actualmente se transcriben 99 idiomas, y está previsto que la traducción en tiempo real empiece a funcionar en 2025. - ¿Cómo puedo participar en el desarrollo?
Únete a Discord (https://discord.gg/Ga9duGkVz9), consulta CONTRIBUTING.md y envía la Pull Request.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...