Introdução geral
A Vexa é uma plataforma de código aberto de transcrição de reuniões em tempo real e de gerenciamento de conhecimento projetada para fornecer serviços eficientes de gravação de reuniões e extração inteligente de conhecimento para empresas e indivíduos. Ele se une automaticamente ao Google Meet, ao Zoom e a outras plataformas por meio de robôs de reunião orientados por API que transcrevem voz para texto em tempo real e são compatíveis com 99 idiomas. O Vexa usa uma arquitetura de microsserviços altamente dimensionável e adequada para lidar com um grande número de tarefas de transcrição simultâneas. Ele enfatiza a segurança de dados de nível empresarial e oferece opções de implementação local para garantir a conformidade. Atualmente em beta fechado e disponível gratuitamente no site oficial, o Vexa pretende ser uma alternativa de nível empresarial ao recall.ai, combinando alto desempenho com funcionalidade avançada.
Lista de funções
- Transcrição de reuniões em tempo realParticipe automaticamente de reuniões do Google Meet, Zoom e Microsoft Teams e transcreva a voz para texto em tempo real.
- Suporte a vários idiomasSuporte para transcrição em 99 idiomas para equipes globais.
- robô de conferênciaSimplifique as operações controlando os bots para participar de reuniões por meio de uma API.
- extração de conhecimentoO uso da tecnologia RAG (Retrieval Augmented Generation) extrai as principais informações das transcrições para gerar uma base de conhecimento pesquisável.
- Segurança empresarialSuporte à implementação local, proteção da privacidade dos dados e atendimento às necessidades de conformidade.
- alta escalabilidadeArquitetura de microsserviços para dar suporte a tarefas de transcrição massivamente simultâneas.
- transmissão diretaSuporte para captura de áudio diretamente de páginas da Web ou aplicativos móveis (em desenvolvimento).
- contribuição de código abertoOs desenvolvedores podem participar do desenvolvimento e ampliar a funcionalidade por meio do GitHub.
Usando a Ajuda
Instalação e implementação
O Vexa é um projeto de código aberto adequado para implantação local por usuários ou empresas com habilidades técnicas. Veja a seguir o processo de instalação detalhado:
- armazém de clones
Abra um terminal e execute o seguinte comando para clonar o repositório Vexa:git clone https://github.com/Vexa-ai/vexa.git cd vexa
- Inicialização de submódulos
O Vexa usa submódulos do Git para gerenciar dependências (como services/vexa-bot e services/WhisperLive). Executar:make submodules
- Configuração de variáveis de ambiente
Crie e edite o arquivo de configuração do ambiente:make env
Defina parâmetros no arquivo .env, como ADMIN_API_TOKEN (Chave da API do administrador). Ajuste o Sussurro Caminho do modelo ou configuração do banco de dados.
- Baixar modelos Whisper
A Vexa usa o modelo Whisper para transcrição de voz. Execute o seguinte comando:make download-model
O modelo será armazenado no diretório . /hub e montado no contêiner do WhisperLive.
- Criação de um espelho robô de conferência
Criação de imagens do Docker para robôs Vexa:docker build -t vexa-bot:latest -f services/vexa-bot/core/Dockerfile ./services/vexa-bot/core
- Início dos serviços
Use o Docker Compose para criar e executar o serviço:docker compose build docker compose up -d
Quando o serviço é iniciado, o gateway de API é executado em http://localhost:8056 e a interface de gerenciamento em http://localhost:8057.
Operação da função principal
Transcrição de reuniões em tempo real
O principal recurso do Vexa é a transcrição em tempo real da voz da reunião por meio de um robô de reunião. O procedimento é descrito a seguir:
- Solicitação de uma chave de API
Acesse https://api.dev.vexa.ai/pricing para solicitar uma chave de API para testes fechados. Após enviar a solicitação, obtenha a X-API-Key. - Enviar um robô para participar de uma reunião
Use uma solicitação de API para que o bot participe de uma reunião. Por exemplo, participar de um Google Meet:curl -X POST https://gateway.dev.vexa.ai/bots \ -H "Content-Type: application/json" \ -H "X-API-Key: YOUR_CLIENT_API_KEY" \ -d '{"native_meeting_id": "xxx-xxxx-xxx", "platform": "google_meet"}'
Em caso de sucesso, o JSON é retornado contendo o meeting_id e o status do robô.
- Acesso a dados de transcrição
Use o ID da sessão para obter transcrições:curl -H "X-API-Key: YOUR_CLIENT_API_KEY" \ https://gateway.dev.vexa.ai/transcripts/google_meet/xxx-xxxx-xxx
Retornar ao exemplo:
{ "data": { "meeting_id": "meet_abc123", "transcripts": [ {"time": "00:01:15", "speaker": "John Smith", "text": "Let's discuss the quarterly results."}, {"time": "00:01:23", "speaker": "Sarah Johnson", "text": "The Q3 revenue exceeded our projections by 15%."} ] } }
Suporte a vários idiomas
O Vexa suporta transcrição em tempo real em 99 idiomas. Método de configuração:
- Especifique o idioma no arquivo .env, por exemplo, LANGUAGE=en.
- Adicione um parâmetro de idioma à solicitação de API:
curl -X POST -H "Content-Type: application/octet-stream" \ -d '{"language": "es"}' \ http://localhost:8033/
O sistema transcreverá automaticamente a reunião no idioma especificado.
extração de conhecimento
Vexa's RAG As funções extraem informações importantes das transcrições para gerar uma base de conhecimento estruturada:
- Exibir a base de conhecimento
As entradas de conhecimento geradas são acessadas por meio da interface de gerenciamento (http://localhost:8057) ou de uma API. - busca de informações
Pesquise a base de conhecimento usando palavras-chave e o RAG retornará os minutos e o contexto relevantes. - Exportar dados
Exporte entradas de conhecimento por meio da API para o formato JSON ou CSV para análise ou arquivamento.
Direct Streaming (em desenvolvimento)
A Vexa planeja oferecer suporte à captura de áudio diretamente de aplicativos da Web ou móveis. Os usuários farão upload de fluxos de áudio por meio de um SDK ou API e o sistema os transcreverá em tempo real. Espera-se que esse recurso esteja disponível em 2025.
Outras funções
- Segurança empresarialDados segregados implantados localmente, com interfaces de gerenciamento protegidas usando X-Admin-API-Key. As empresas podem configurar os direitos de acesso com base nas necessidades de conformidade.
- alta escalabilidadeA arquitetura de microsserviços atribui tarefas automaticamente. Sem intervenção manual, o sistema pode lidar com milhares de transcrições simultâneas.
- Contribuições da comunidadeVisite https://github.com/Vexa-ai/vexa para CONTRIBUTING.md. Os desenvolvedores podem discutir tarefas ou enviar códigos pelo Discord (https://discord.gg/Ga9duGkVz9).
advertência
- Requisitos de hardwareRecomendamos servidores equipados com GPU NVIDIA, com 16 GB de RAM e CPUs de 4 núcleos.
- Atualização de manutençãoExecute git pull e docker compose up --build periodicamente para obter os recursos mais recentes.
- teste fechadoAcesso à API requer uma chave, e há um número limitado de vagas de teste disponíveis.
- progresso do desenvolvimentoO reconhecimento de alto-falantes está em desenvolvimento, e os bots do Microsoft Teams e do Zoom devem entrar em operação em abril e maio de 2025, respectivamente.
cenário do aplicativo
- Conferência sobre Empresas Multinacionais
Equipes multinacionais usam o Vexa para transcrever reuniões multilíngues, traduzir para o inglês em tempo real, extrair pontos de decisão e gerar uma base de conhecimento pesquisável para facilitar a colaboração global. - gerenciamento de projetos
As equipes de desenvolvimento registram reuniões técnicas, e o Vexa extrai atribuições de tarefas e cronogramas, gerando relatórios automatizados e reduzindo o agrupamento manual. - Otimização do suporte ao cliente
A equipe de atendimento ao cliente transcreve as chamadas dos clientes, extrai problemas e soluções comuns e cria uma base de conhecimento para melhorar a velocidade e a consistência das respostas. - Registros de pesquisas acadêmicas
Os pesquisadores gravam entrevistas ou workshops, e a Vexa transcreve e analisa o conteúdo, gerando dados estruturados para apoiar a redação de artigos.
QA
- Quais plataformas são compatíveis com o Vexa?
O suporte atual aos bots do Google Meet, Microsoft Teams e Zoom deve entrar em operação em 2025. - Como faço para solicitar uma chave de teste?
Acesse https://api.dev.vexa.ai/pricing para enviar uma solicitação de teste gratuito da X-API-Key. - Quais recursos são necessários para a implementação local?
Servidores recomendados com GPUs NVIDIA, mínimo de 16 GB de RAM e CPUs de 4 núcleos. - O Vexa oferece suporte à tradução em tempo real?
Atualmente, 99 idiomas são suportados para transcrição, com tradução em tempo real programada para entrar em operação em 2025. - Como posso participar do desenvolvimento?
Entre no Discord (https://discord.gg/Ga9duGkVz9), dê uma olhada no CONTRIBUTING.md e envie o Pull Request.