Vexa：实时会议转录与智能知识提取工具

98.7K 00

综合介绍

Vexa 是一个开源的实时会议转录和知识管理平台，旨在为企业和个人提供高效的会议记录与智能知识提取服务。它通过 API 驱动的会议机器人，自动加入 Google Meet、Zoom 等平台，实时将语音转录为文本，并支持 99 种语言。Vexa 采用微服务架构，具备高扩展性，适合处理大量并发转录任务。它强调企业级数据安全，提供本地部署选项，确保合规性。目前，Vexa 处于封闭测试阶段，用户可通过官方网站申请免费测试。Vexa 的目标是成为 recall.ai 的企业级替代品，兼具高性能和丰富功能。

功能列表

实时会议转录：自动加入 Google Meet、Zoom、Microsoft Teams 会议，实时转录语音为文本。
多语言支持：支持 99 种语言的转录，适用于全球团队。
会议机器人：通过 API 控制机器人加入会议，简化操作。
知识提取：利用 RAG（检索增强生成）技术，从转录中提取关键信息，生成可搜索的知识库。
企业级安全：支持本地部署，保护数据隐私，满足合规需求。
高扩展性：微服务架构支持大规模并发转录任务。
直接流式传输：支持从网页或移动应用直接捕获音频（开发中）。
开源贡献：开发者可通过 GitHub 参与开发，扩展功能。

使用帮助

安装与部署

Vexa 是一个开源项目，适合有技术能力的用户或企业本地部署。以下是详细的安装流程：

克隆仓库
打开终端，运行以下命令克隆 Vexa 仓库：
```
git clone https://github.com/Vexa-ai/vexa.git
cd vexa
```
初始化子模块
Vexa 使用 Git 子模块管理依赖（如 services/vexa-bot 和 services/WhisperLive）。运行：
```
make submodules
```
配置环境变量
创建并编辑环境配置文件：
```
make env
```
在 .env 文件中设置参数，例如 ADMIN_API_TOKEN（管理员 API 密钥）。根据需要调整 Whisper 模型路径或数据库配置。
下载 Whisper 模型
Vexa 使用 Whisper 模型进行语音转录。运行以下命令：
```
make download-model
```
模型将存储在 ./hub 目录，并挂载到 WhisperLive 容器。

构建会议机器人镜像
为 Vexa 机器人构建 Docker 镜像：

docker build -t vexa-bot:latest -f services/vexa-bot/core/Dockerfile ./services/vexa-bot/core

启动服务
使用 Docker Compose 构建并运行服务：
```
docker compose build
docker compose up -d
```
服务启动后，API 网关运行在 http://localhost:8056，管理接口在 http://localhost:8057。

核心功能操作

实时会议转录

Vexa 的核心功能是通过会议机器人实时转录会议语音。操作步骤如下：

申请 API 密钥
访问 https://api.dev.vexa.ai/pricing 申请封闭测试的 API 密钥。提交申请后，获取 X-API-Key。

发送机器人加入会议
使用 API 请求让机器人加入会议。例如，加入 Google Meet：

curl -X POST https://gateway.dev.vexa.ai/bots \
-H "Content-Type: application/json" \
-H "X-API-Key: YOUR_CLIENT_API_KEY" \
-d '{"native_meeting_id": "xxx-xxxx-xxx", "platform": "google_meet"}'

成功后，返回 JSON 包含 meeting_id 和机器人状态。

获取转录数据
使用会议 ID 获取转录文本：

curl -H "X-API-Key: YOUR_CLIENT_API_KEY" \
https://gateway.dev.vexa.ai/transcripts/google_meet/xxx-xxxx-xxx

返回示例：

{
"data": {
"meeting_id": "meet_abc123",
"transcripts": [
{"time": "00:01:15", "speaker": "John Smith", "text": "Let's discuss the quarterly results."},
{"time": "00:01:23", "speaker": "Sarah Johnson", "text": "The Q3 revenue exceeded our projections by 15%."}
]
}
}

多语言支持

Vexa 支持 99 种语言的实时转录。设置方法：

在 .env 文件中指定语言，例如 LANGUAGE=en。

在 API 请求中添加语言参数：

curl -X POST -H "Content-Type: application/octet-stream" \
-d '{"language": "es"}' \
http://localhost:8033/

系统将自动以指定语言转录会议内容。

知识提取

Vexa 的 RAG 功能从转录中提取关键信息，生成结构化知识库：

查看知识库
通过管理接口（http://localhost:8057）或 API 访问生成的知识条目。
搜索信息
使用关键词搜索知识库，RAG 会返回相关会议记录和上下文。
导出数据
通过 API 导出知识条目为 JSON 或 CSV 格式，用于分析或存档。

直接流式传输（开发中）

Vexa 计划支持从网页或移动应用直接捕获音频。用户将通过 SDK 或 API 上传音频流，系统实时转录。此功能预计于 2025 年上线。

其他功能操作

企业级安全：本地部署隔离数据，管理接口使用 X-Admin-API-Key 保护。企业可根据合规需求配置访问权限。
高扩展性：微服务架构自动分配任务。无需手动干预，系统可处理千级并发转录。
社区贡献：访问 https://github.com/Vexa-ai/vexa，查看 CONTRIBUTING.md。开发者可通过 Discord（https://discord.gg/Ga9duGkVz9）讨论任务或提交代码。

注意事项

硬件要求：建议使用配备 NVIDIA GPU 的服务器，推荐 16GB RAM 和 4 核 CPU。
更新维护：定期运行 git pull 和 docker compose up --build 获取最新功能。
封闭测试：API 访问需申请密钥，测试名额有限。
开发进展：扬声器识别功能正在开发，Microsoft Teams 和 Zoom 机器人预计分别于 2025 年 4 月和 5 月上线。

应用场景

跨国企业会议
跨国团队使用 Vexa 转录多语言会议，实时翻译为英语，提取决策点，生成可搜索的知识库，便于全球协作。
项目管理
开发团队记录技术会议，Vexa 提取任务分配和时间线，生成自动化报告，减少手动整理工作。
客户支持优化
客服团队转录客户通话，提取常见问题和解决方案，构建知识库，提升响应速度和一致性。
学术研究记录
研究人员记录访谈或研讨会，Vexa 转录并分析内容，生成结构化数据，辅助论文撰写。

QA

Vexa 支持哪些平台？
当前支持 Google Meet，Microsoft Teams 和 Zoom 机器人预计 2025 年上线。
如何申请测试密钥？
访问 https://api.dev.vexa.ai/pricing，提交申请获取免费测试 X-API-Key。
本地部署需要哪些资源？
推荐配备 NVIDIA GPU 的服务器，最低 16GB RAM 和 4 核 CPU。
Vexa 是否支持实时翻译？
当前支持 99 种语言转录，实时翻译功能计划于 2025 年上线。
如何参与开发？
加入 Discord（https://discord.gg/Ga9duGkVz9），查看 CONTRIBUTING.md，提交 Pull Request。