Vexa: транскрипция совещаний в режиме реального времени и интеллектуальный инструмент извлечения знаний

Последние ресурсы по искусственному интеллектуОпубликовано 12 месяцев назад Круг обмена ИИ

104.2K 00

Общее введение

Vexa - это платформа для транскрипции встреч в реальном времени и управления знаниями с открытым исходным кодом, предназначенная для эффективной записи встреч и интеллектуального извлечения знаний для предприятий и частных лиц. Она автоматически подключается к Google Meet, Zoom и другим платформам с помощью управляемых по API роботов, транскрибирующих голос в текст в режиме реального времени и поддерживающих 99 языков. Vexa использует архитектуру микросервисов, которая отличается высокой масштабируемостью и подходит для обработки большого количества одновременных задач транскрипции. Она подчеркивает безопасность данных корпоративного уровня и предлагает локальные варианты развертывания для обеспечения соответствия требованиям. В настоящее время Vexa находится в стадии закрытого бета-тестирования и доступна бесплатно через официальный сайт. Vexa стремится стать альтернативой recall.ai корпоративного уровня, сочетая высокую производительность с богатой функциональностью.

Список функций

Расшифровка совещаний в режиме реального времени: Автоматически присоединяйтесь к совещаниям Google Meet, Zoom, Microsoft Teams и транскрибируйте голос в текст в режиме реального времени.
Поддержка нескольких языков: Поддержка транскрипции на 99 языках для глобальных команд.
конференц-робот: Упростите работу, управляя ботами для участия в собраниях через API.
извлечение знаний: С помощью технологии RAG (Retrieval Augmented Generation) из стенограмм извлекается ключевая информация для создания базы знаний с возможностью поиска.
Безопасность предприятия: Поддержка локального развертывания, защита конфиденциальности данных и соответствие нормативным требованиям.
высокая масштабируемостьАрхитектура микросервисов для поддержки множества параллельных задач транскрипции.
прямая трансляция: Поддержка захвата звука непосредственно с веб-страниц или мобильных приложений (в разработке).
вклад с открытым исходным кодом: Разработчики могут участвовать в разработке и расширять функциональность через GitHub.

Использование помощи

Установка и развертывание

Vexa - это проект с открытым исходным кодом, подходящий для локального развертывания пользователями или предприятиями с техническими навыками. Ниже приведен подробный процесс установки:

склад клонов
Откройте терминал и выполните следующую команду, чтобы клонировать репозиторий Vexa:
```
git clone https://github.com/Vexa-ai/vexa.git
cd vexa
```
Инициализация подмодулей
Vexa использует подмодули Git для управления зависимостями (например, services/vexa-bot и services/WhisperLive). Выполнять:
```
make submodules
```
Настройка переменных среды
Создайте и отредактируйте файл конфигурации среды:
```
make env
```
Задайте параметры в файле .env, например ADMIN_API_TOKEN (ключ API администратора). Настройте Шепот Путь к модели или конфигурация базы данных.
Скачать модели шепота
Vexa использует модель Whisper для транскрипции голоса. Выполните следующую команду:
```
make download-model
```
Модель будет храниться в каталоге . /hub и смонтирована в контейнер WhisperLive.
Создание робота-зеркала для конференций
Создание образов Docker для роботов Vexa:
```
docker build -t vexa-bot:latest -f services/vexa-bot/core/Dockerfile ./services/vexa-bot/core
```
Начальные услуги
Используйте Docker Compose для создания и запуска службы:
```
docker compose build
docker compose up -d
```
Когда служба запускается, шлюз API работает по адресу http://localhost:8056, а интерфейс управления - по адресу http://localhost:8057.

Основная функция Эксплуатация

Расшифровка совещаний в режиме реального времени

Основная особенность Vexa - расшифровка голоса на совещании в режиме реального времени с помощью робота для совещаний. Процедура выглядит следующим образом:

Запрос ключа API
Посетите сайт https://api.dev.vexa.ai/pricing, чтобы запросить ключ API для закрытого тестирования. После отправки запроса получите ключ X-API-Key.
Отправьте робота, чтобы присоединиться к встрече
Используйте запрос API, чтобы бот присоединился к встрече. Например, присоединиться к Google Meet:
```
curl -X POST https://gateway.dev.vexa.ai/bots \
-H "Content-Type: application/json" \
-H "X-API-Key: YOUR_CLIENT_API_KEY" \
-d '{"native_meeting_id": "xxx-xxxx-xxx", "platform": "google_meet"}'
```
В случае успеха возвращается JSON, содержащий meeting_id и статус робота.

Доступ к данным транскрипции
Используйте идентификатор сессии для получения транскриптов:

curl -H "X-API-Key: YOUR_CLIENT_API_KEY" \
https://gateway.dev.vexa.ai/transcripts/google_meet/xxx-xxxx-xxx

Вернуться к примеру:

{
"data": {
"meeting_id": "meet_abc123",
"transcripts": [
{"time": "00:01:15", "speaker": "John Smith", "text": "Let's discuss the quarterly results."},
{"time": "00:01:23", "speaker": "Sarah Johnson", "text": "The Q3 revenue exceeded our projections by 15%."}
]
}
}

Поддержка нескольких языков

Vexa поддерживает транскрипцию в реальном времени на 99 языках. Способ установки:

Укажите язык в файле .env, например LANGUAGE=en.
Добавьте параметр языка в запрос API:
```
curl -X POST -H "Content-Type: application/octet-stream" \
-d '{"language": "es"}' \
http://localhost:8033/
```
Система автоматически расшифрует встречу на указанном языке.

извлечение знаний

Векса RAG Функции извлекают ключевую информацию из транскриптов для создания структурированной базы знаний:

Просмотр базы знаний
Доступ к созданным записям знаний осуществляется через интерфейс управления (http://localhost:8057) или API.
поиск информации
Выполните поиск в базе знаний по ключевым словам, и RAG вернет соответствующие минуты и контекст.
Экспорт данных
Экспортируйте записи знаний через API в формат JSON или CSV для анализа или архивирования.

Прямое потоковое вещание (находится в разработке)

Vexa планирует поддерживать захват аудио непосредственно из веб- или мобильных приложений. Пользователи будут загружать аудиопотоки через SDK или API, а система будет расшифровывать их в режиме реального времени. Ожидается, что эта функция заработает в 2025 году.

Другие функции

Безопасность предприятия: Локально развернутые сегрегированные данные, с интерфейсами управления, защищенными с помощью X-Admin-API-Key. Предприятия могут настраивать права доступа в соответствии с требованиями законодательства.
высокая масштабируемостьАрхитектура микросервисов автоматически распределяет задачи. Без ручного вмешательства система может обрабатывать тысячи одновременных расшифровок.
Вклад в развитие сообщества: Посетите https://github.com/Vexa-ai/vexa, чтобы найти CONTRIBUTING.md. Разработчики могут обсуждать задачи или отправлять код через Discord (https://discord.gg/Ga9duGkVz9).

предостережение

требования к оборудованию: Рекомендуются серверы с графическим процессором NVIDIA, 16 ГБ оперативной памяти и 4-ядерными процессорами.
Обновление Обслуживание: Периодически запускайте git pull и docker compose up --build, чтобы получить последние возможности.
закрытый тестДля доступа к API требуется ключ, а количество тестовых слотов ограничено.
прогресс в развитии: Распознавание речи находится в разработке, а боты Microsoft Teams и Zoom должны появиться в апреле и мае 2025 года соответственно.

сценарий применения

Конференция по многонациональным предприятиям
Многонациональные команды используют Vexa для расшифровки многоязычных совещаний, перевода на английский язык в режиме реального времени, извлечения информации о принятых решениях и создания базы знаний с возможностью поиска для упрощения глобального сотрудничества.
управление проектами
Команды разработчиков записывают технические совещания, а Vexa извлекает задания и сроки выполнения, генерируя автоматизированные отчеты и сокращая количество ручных сводок.
Оптимизация службы поддержки клиентов
Сотрудники отдела обслуживания клиентов расшифровывают звонки клиентов, выявляют общие проблемы и их решения, а также создают базу знаний для повышения скорости и последовательности ответов.
Записи академических исследований
Исследователи записывают интервью или семинары, а Vexa расшифровывает и анализирует их содержание, генерируя структурированные данные для написания статей.

QA

Какие платформы поддерживает Vexa?
Текущая поддержка ботов Google Meet, Microsoft Teams и Zoom, как ожидается, будет реализована в 2025 году.
Как запросить тестовый ключ?
Посетите сайт https://api.dev.vexa.ai/pricing, чтобы отправить запрос на бесплатный тест X-API-Key.
Какие ресурсы требуются для локального развертывания?
Рекомендуются серверы с графическими процессорами NVIDIA, минимум 16 ГБ оперативной памяти и 4-ядерными процессорами.
Поддерживает ли Vexa перевод в режиме реального времени?
В настоящее время поддерживается 99 языков, а перевод в реальном времени планируется запустить в 2025 году.
Как я могу принять участие в разработке?
Присоединяйтесь к Discord (https://discord.gg/Ga9duGkVz9), ознакомьтесь с файлом CONTRIBUTING.md и отправьте Pull Request.