Vexa: uma ferramenta inteligente de extração de conhecimento e transcrição de reuniões em tempo real

Recursos mais recentes de IAPublicado há 5 meses Círculo de compartilhamento de IA

23.5K 00

Introdução geral

A Vexa é uma plataforma de código aberto de transcrição de reuniões em tempo real e de gerenciamento de conhecimento projetada para fornecer serviços eficientes de gravação de reuniões e extração inteligente de conhecimento para empresas e indivíduos. Ele se une automaticamente ao Google Meet, ao Zoom e a outras plataformas por meio de robôs de reunião orientados por API que transcrevem voz para texto em tempo real e são compatíveis com 99 idiomas. O Vexa usa uma arquitetura de microsserviços altamente dimensionável e adequada para lidar com um grande número de tarefas de transcrição simultâneas. Ele enfatiza a segurança de dados de nível empresarial e oferece opções de implementação local para garantir a conformidade. Atualmente em beta fechado e disponível gratuitamente no site oficial, o Vexa pretende ser uma alternativa de nível empresarial ao recall.ai, combinando alto desempenho com funcionalidade avançada.

Lista de funções

Transcrição de reuniões em tempo realParticipe automaticamente de reuniões do Google Meet, Zoom e Microsoft Teams e transcreva a voz para texto em tempo real.
Suporte a vários idiomasSuporte para transcrição em 99 idiomas para equipes globais.
robô de conferênciaSimplifique as operações controlando os bots para participar de reuniões por meio de uma API.
extração de conhecimentoO uso da tecnologia RAG (Retrieval Augmented Generation) extrai as principais informações das transcrições para gerar uma base de conhecimento pesquisável.
Segurança empresarialSuporte à implementação local, proteção da privacidade dos dados e atendimento às necessidades de conformidade.
alta escalabilidadeArquitetura de microsserviços para dar suporte a tarefas de transcrição massivamente simultâneas.
transmissão diretaSuporte para captura de áudio diretamente de páginas da Web ou aplicativos móveis (em desenvolvimento).
contribuição de código abertoOs desenvolvedores podem participar do desenvolvimento e ampliar a funcionalidade por meio do GitHub.

Usando a Ajuda

Instalação e implementação

O Vexa é um projeto de código aberto adequado para implantação local por usuários ou empresas com habilidades técnicas. Veja a seguir o processo de instalação detalhado:

armazém de clones
Abra um terminal e execute o seguinte comando para clonar o repositório Vexa:
```
git clone https://github.com/Vexa-ai/vexa.git
cd vexa
```
Inicialização de submódulos
O Vexa usa submódulos do Git para gerenciar dependências (como services/vexa-bot e services/WhisperLive). Executar:
```
make submodules
```
Configuração de variáveis de ambiente
Crie e edite o arquivo de configuração do ambiente:
```
make env
```
Defina parâmetros no arquivo .env, como ADMIN_API_TOKEN (Chave da API do administrador). Ajuste o Sussurro Caminho do modelo ou configuração do banco de dados.
Baixar modelos Whisper
A Vexa usa o modelo Whisper para transcrição de voz. Execute o seguinte comando:
```
make download-model
```
O modelo será armazenado no diretório . /hub e montado no contêiner do WhisperLive.

Criação de um espelho robô de conferência
Criação de imagens do Docker para robôs Vexa:

docker build -t vexa-bot:latest -f services/vexa-bot/core/Dockerfile ./services/vexa-bot/core

Início dos serviços
Use o Docker Compose para criar e executar o serviço:
```
docker compose build
docker compose up -d
```
Quando o serviço é iniciado, o gateway de API é executado em http://localhost:8056 e a interface de gerenciamento em http://localhost:8057.

Operação da função principal

Transcrição de reuniões em tempo real

O principal recurso do Vexa é a transcrição em tempo real da voz da reunião por meio de um robô de reunião. O procedimento é descrito a seguir:

Solicitação de uma chave de API
Acesse https://api.dev.vexa.ai/pricing para solicitar uma chave de API para testes fechados. Após enviar a solicitação, obtenha a X-API-Key.
Enviar um robô para participar de uma reunião
Use uma solicitação de API para que o bot participe de uma reunião. Por exemplo, participar de um Google Meet:
```
curl -X POST https://gateway.dev.vexa.ai/bots \
-H "Content-Type: application/json" \
-H "X-API-Key: YOUR_CLIENT_API_KEY" \
-d '{"native_meeting_id": "xxx-xxxx-xxx", "platform": "google_meet"}'
```
Em caso de sucesso, o JSON é retornado contendo o meeting_id e o status do robô.

Acesso a dados de transcrição
Use o ID da sessão para obter transcrições:

curl -H "X-API-Key: YOUR_CLIENT_API_KEY" \
https://gateway.dev.vexa.ai/transcripts/google_meet/xxx-xxxx-xxx

Retornar ao exemplo:

{
"data": {
"meeting_id": "meet_abc123",
"transcripts": [
{"time": "00:01:15", "speaker": "John Smith", "text": "Let's discuss the quarterly results."},
{"time": "00:01:23", "speaker": "Sarah Johnson", "text": "The Q3 revenue exceeded our projections by 15%."}
]
}
}

Suporte a vários idiomas

O Vexa suporta transcrição em tempo real em 99 idiomas. Método de configuração:

Especifique o idioma no arquivo .env, por exemplo, LANGUAGE=en.
Adicione um parâmetro de idioma à solicitação de API:
```
curl -X POST -H "Content-Type: application/octet-stream" \
-d '{"language": "es"}' \
http://localhost:8033/
```
O sistema transcreverá automaticamente a reunião no idioma especificado.

extração de conhecimento

Vexa's RAG As funções extraem informações importantes das transcrições para gerar uma base de conhecimento estruturada:

Exibir a base de conhecimento
As entradas de conhecimento geradas são acessadas por meio da interface de gerenciamento (http://localhost:8057) ou de uma API.
busca de informações
Pesquise a base de conhecimento usando palavras-chave e o RAG retornará os minutos e o contexto relevantes.
Exportar dados
Exporte entradas de conhecimento por meio da API para o formato JSON ou CSV para análise ou arquivamento.

Direct Streaming (em desenvolvimento)

A Vexa planeja oferecer suporte à captura de áudio diretamente de aplicativos da Web ou móveis. Os usuários farão upload de fluxos de áudio por meio de um SDK ou API e o sistema os transcreverá em tempo real. Espera-se que esse recurso esteja disponível em 2025.

Outras funções

Segurança empresarialDados segregados implantados localmente, com interfaces de gerenciamento protegidas usando X-Admin-API-Key. As empresas podem configurar os direitos de acesso com base nas necessidades de conformidade.
alta escalabilidadeA arquitetura de microsserviços atribui tarefas automaticamente. Sem intervenção manual, o sistema pode lidar com milhares de transcrições simultâneas.
Contribuições da comunidadeVisite https://github.com/Vexa-ai/vexa para CONTRIBUTING.md. Os desenvolvedores podem discutir tarefas ou enviar códigos pelo Discord (https://discord.gg/Ga9duGkVz9).

advertência

Requisitos de hardwareRecomendamos servidores equipados com GPU NVIDIA, com 16 GB de RAM e CPUs de 4 núcleos.
Atualização de manutençãoExecute git pull e docker compose up --build periodicamente para obter os recursos mais recentes.
teste fechadoAcesso à API requer uma chave, e há um número limitado de vagas de teste disponíveis.
progresso do desenvolvimentoO reconhecimento de alto-falantes está em desenvolvimento, e os bots do Microsoft Teams e do Zoom devem entrar em operação em abril e maio de 2025, respectivamente.

cenário do aplicativo

Conferência sobre Empresas Multinacionais
Equipes multinacionais usam o Vexa para transcrever reuniões multilíngues, traduzir para o inglês em tempo real, extrair pontos de decisão e gerar uma base de conhecimento pesquisável para facilitar a colaboração global.
gerenciamento de projetos
As equipes de desenvolvimento registram reuniões técnicas, e o Vexa extrai atribuições de tarefas e cronogramas, gerando relatórios automatizados e reduzindo o agrupamento manual.
Otimização do suporte ao cliente
A equipe de atendimento ao cliente transcreve as chamadas dos clientes, extrai problemas e soluções comuns e cria uma base de conhecimento para melhorar a velocidade e a consistência das respostas.
Registros de pesquisas acadêmicas
Os pesquisadores gravam entrevistas ou workshops, e a Vexa transcreve e analisa o conteúdo, gerando dados estruturados para apoiar a redação de artigos.

QA

Quais plataformas são compatíveis com o Vexa?
O suporte atual aos bots do Google Meet, Microsoft Teams e Zoom deve entrar em operação em 2025.
Como faço para solicitar uma chave de teste?
Acesse https://api.dev.vexa.ai/pricing para enviar uma solicitação de teste gratuito da X-API-Key.
Quais recursos são necessários para a implementação local?
Servidores recomendados com GPUs NVIDIA, mínimo de 16 GB de RAM e CPUs de 4 núcleos.
O Vexa oferece suporte à tradução em tempo real?
Atualmente, 99 idiomas são suportados para transcrição, com tradução em tempo real programada para entrar em operação em 2025.
Como posso participar do desenvolvimento?
Entre no Discord (https://discord.gg/Ga9duGkVz9), dê uma olhada no CONTRIBUTING.md e envie o Pull Request.