综合介绍
Vexa 是一个开源的实时会议转录和知识管理平台,旨在为企业和个人提供高效的会议记录与智能知识提取服务。它通过 API 驱动的会议机器人,自动加入 Google Meet、Zoom 等平台,实时将语音转录为文本,并支持 99 种语言。Vexa 采用微服务架构,具备高扩展性,适合处理大量并发转录任务。它强调企业级数据安全,提供本地部署选项,确保合规性。目前,Vexa 处于封闭测试阶段,用户可通过官方网站申请免费测试。Vexa 的目标是成为 recall.ai 的企业级替代品,兼具高性能和丰富功能。
功能列表
- 实时会议转录:自动加入 Google Meet、Zoom、Microsoft Teams 会议,实时转录语音为文本。
- 多语言支持:支持 99 种语言的转录,适用于全球团队。
- 会议机器人:通过 API 控制机器人加入会议,简化操作。
- 知识提取:利用 RAG(检索增强生成)技术,从转录中提取关键信息,生成可搜索的知识库。
- 企业级安全:支持本地部署,保护数据隐私,满足合规需求。
- 高扩展性:微服务架构支持大规模并发转录任务。
- 直接流式传输:支持从网页或移动应用直接捕获音频(开发中)。
- 开源贡献:开发者可通过 GitHub 参与开发,扩展功能。
使用帮助
安装与部署
Vexa 是一个开源项目,适合有技术能力的用户或企业本地部署。以下是详细的安装流程:
- 克隆仓库
打开终端,运行以下命令克隆 Vexa 仓库:git clone https://github.com/Vexa-ai/vexa.git cd vexa
- 初始化子模块
Vexa 使用 Git 子模块管理依赖(如 services/vexa-bot 和 services/WhisperLive)。运行:make submodules
- 配置环境变量
创建并编辑环境配置文件:make env
在 .env 文件中设置参数,例如 ADMIN_API_TOKEN(管理员 API 密钥)。根据需要调整 Whisper 模型路径或数据库配置。
- 下载 Whisper 模型
Vexa 使用 Whisper 模型进行语音转录。运行以下命令:make download-model
模型将存储在 ./hub 目录,并挂载到 WhisperLive 容器。
- 构建会议机器人镜像
为 Vexa 机器人构建 Docker 镜像:docker build -t vexa-bot:latest -f services/vexa-bot/core/Dockerfile ./services/vexa-bot/core
- 启动服务
使用 Docker Compose 构建并运行服务:docker compose build docker compose up -d
服务启动后,API 网关运行在 http://localhost:8056,管理接口在 http://localhost:8057。
核心功能操作
实时会议转录
Vexa 的核心功能是通过会议机器人实时转录会议语音。操作步骤如下:
- 申请 API 密钥
访问 https://api.dev.vexa.ai/pricing 申请封闭测试的 API 密钥。提交申请后,获取 X-API-Key。 - 发送机器人加入会议
使用 API 请求让机器人加入会议。例如,加入 Google Meet:curl -X POST https://gateway.dev.vexa.ai/bots \ -H "Content-Type: application/json" \ -H "X-API-Key: YOUR_CLIENT_API_KEY" \ -d '{"native_meeting_id": "xxx-xxxx-xxx", "platform": "google_meet"}'
成功后,返回 JSON 包含 meeting_id 和机器人状态。
- 获取转录数据
使用会议 ID 获取转录文本:curl -H "X-API-Key: YOUR_CLIENT_API_KEY" \ https://gateway.dev.vexa.ai/transcripts/google_meet/xxx-xxxx-xxx
返回示例:
{ "data": { "meeting_id": "meet_abc123", "transcripts": [ {"time": "00:01:15", "speaker": "John Smith", "text": "Let's discuss the quarterly results."}, {"time": "00:01:23", "speaker": "Sarah Johnson", "text": "The Q3 revenue exceeded our projections by 15%."} ] } }
多语言支持
Vexa 支持 99 种语言的实时转录。设置方法:
- 在 .env 文件中指定语言,例如 LANGUAGE=en。
- 在 API 请求中添加语言参数:
curl -X POST -H "Content-Type: application/octet-stream" \ -d '{"language": "es"}' \ http://localhost:8033/
系统将自动以指定语言转录会议内容。
知识提取
Vexa 的 RAG 功能从转录中提取关键信息,生成结构化知识库:
- 查看知识库
通过管理接口(http://localhost:8057)或 API 访问生成的知识条目。 - 搜索信息
使用关键词搜索知识库,RAG 会返回相关会议记录和上下文。 - 导出数据
通过 API 导出知识条目为 JSON 或 CSV 格式,用于分析或存档。
直接流式传输(开发中)
Vexa 计划支持从网页或移动应用直接捕获音频。用户将通过 SDK 或 API 上传音频流,系统实时转录。此功能预计于 2025 年上线。
其他功能操作
- 企业级安全:本地部署隔离数据,管理接口使用 X-Admin-API-Key 保护。企业可根据合规需求配置访问权限。
- 高扩展性:微服务架构自动分配任务。无需手动干预,系统可处理千级并发转录。
- 社区贡献:访问 https://github.com/Vexa-ai/vexa,查看 CONTRIBUTING.md。开发者可通过 Discord(https://discord.gg/Ga9duGkVz9)讨论任务或提交代码。
注意事项
- 硬件要求:建议使用配备 NVIDIA GPU 的服务器,推荐 16GB RAM 和 4 核 CPU。
- 更新维护:定期运行 git pull 和 docker compose up --build 获取最新功能。
- 封闭测试:API 访问需申请密钥,测试名额有限。
- 开发进展:扬声器识别功能正在开发,Microsoft Teams 和 Zoom 机器人预计分别于 2025 年 4 月和 5 月上线。
应用场景
- 跨国企业会议
跨国团队使用 Vexa 转录多语言会议,实时翻译为英语,提取决策点,生成可搜索的知识库,便于全球协作。 - 项目管理
开发团队记录技术会议,Vexa 提取任务分配和时间线,生成自动化报告,减少手动整理工作。 - 客户支持优化
客服团队转录客户通话,提取常见问题和解决方案,构建知识库,提升响应速度和一致性。 - 学术研究记录
研究人员记录访谈或研讨会,Vexa 转录并分析内容,生成结构化数据,辅助论文撰写。
QA
- Vexa 支持哪些平台?
当前支持 Google Meet,Microsoft Teams 和 Zoom 机器人预计 2025 年上线。 - 如何申请测试密钥?
访问 https://api.dev.vexa.ai/pricing,提交申请获取免费测试 X-API-Key。 - 本地部署需要哪些资源?
推荐配备 NVIDIA GPU 的服务器,最低 16GB RAM 和 4 核 CPU。 - Vexa 是否支持实时翻译?
当前支持 99 种语言转录,实时翻译功能计划于 2025 年上线。 - 如何参与开发?
加入 Discord(https://discord.gg/Ga9duGkVz9),查看 CONTRIBUTING.md,提交 Pull Request。