Vexa: транскрипция совещаний в режиме реального времени и интеллектуальный инструмент извлечения знаний
Общее введение
Vexa - это платформа для транскрипции встреч в реальном времени и управления знаниями с открытым исходным кодом, предназначенная для эффективной записи встреч и интеллектуального извлечения знаний для предприятий и частных лиц. Она автоматически подключается к Google Meet, Zoom и другим платформам с помощью управляемых по API роботов, транскрибирующих голос в текст в режиме реального времени и поддерживающих 99 языков. Vexa использует архитектуру микросервисов, которая отличается высокой масштабируемостью и подходит для обработки большого количества одновременных задач транскрипции. Она подчеркивает безопасность данных корпоративного уровня и предлагает локальные варианты развертывания для обеспечения соответствия требованиям. В настоящее время Vexa находится в стадии закрытого бета-тестирования и доступна бесплатно через официальный сайт. Vexa стремится стать альтернативой recall.ai корпоративного уровня, сочетая высокую производительность с богатой функциональностью.

Список функций
- Расшифровка совещаний в режиме реального времени: Автоматически присоединяйтесь к совещаниям Google Meet, Zoom, Microsoft Teams и транскрибируйте голос в текст в режиме реального времени.
- Поддержка нескольких языков: Поддержка транскрипции на 99 языках для глобальных команд.
- конференц-робот: Упростите работу, управляя ботами для участия в собраниях через API.
- извлечение знаний: С помощью технологии RAG (Retrieval Augmented Generation) из стенограмм извлекается ключевая информация для создания базы знаний с возможностью поиска.
- Безопасность предприятия: Поддержка локального развертывания, защита конфиденциальности данных и соответствие нормативным требованиям.
- высокая масштабируемостьАрхитектура микросервисов для поддержки множества параллельных задач транскрипции.
- прямая трансляция: Поддержка захвата звука непосредственно с веб-страниц или мобильных приложений (в разработке).
- вклад с открытым исходным кодом: Разработчики могут участвовать в разработке и расширять функциональность через GitHub.
Использование помощи
Установка и развертывание
Vexa - это проект с открытым исходным кодом, подходящий для локального развертывания пользователями или предприятиями с техническими навыками. Ниже приведен подробный процесс установки:
- склад клонов
Откройте терминал и выполните следующую команду, чтобы клонировать репозиторий Vexa:git clone https://github.com/Vexa-ai/vexa.git cd vexa
- Инициализация подмодулей
Vexa использует подмодули Git для управления зависимостями (например, services/vexa-bot и services/WhisperLive). Выполнять:make submodules
- Настройка переменных среды
Создайте и отредактируйте файл конфигурации среды:make env
Задайте параметры в файле .env, например ADMIN_API_TOKEN (ключ API администратора). Настройте Шепот Путь к модели или конфигурация базы данных.
- Скачать модели шепота
Vexa использует модель Whisper для транскрипции голоса. Выполните следующую команду:make download-model
Модель будет храниться в каталоге . /hub и смонтирована в контейнер WhisperLive.
- Создание робота-зеркала для конференций
Создание образов Docker для роботов Vexa:docker build -t vexa-bot:latest -f services/vexa-bot/core/Dockerfile ./services/vexa-bot/core
- Начальные услуги
Используйте Docker Compose для создания и запуска службы:docker compose build docker compose up -d
Когда служба запускается, шлюз API работает по адресу http://localhost:8056, а интерфейс управления - по адресу http://localhost:8057.
Основная функция Эксплуатация
Расшифровка совещаний в режиме реального времени
Основная особенность Vexa - расшифровка голоса на совещании в режиме реального времени с помощью робота для совещаний. Процедура выглядит следующим образом:
- Запрос ключа API
Посетите сайт https://api.dev.vexa.ai/pricing, чтобы запросить ключ API для закрытого тестирования. После отправки запроса получите ключ X-API-Key. - Отправьте робота, чтобы присоединиться к встрече
Используйте запрос API, чтобы бот присоединился к встрече. Например, присоединиться к Google Meet:curl -X POST https://gateway.dev.vexa.ai/bots \ -H "Content-Type: application/json" \ -H "X-API-Key: YOUR_CLIENT_API_KEY" \ -d '{"native_meeting_id": "xxx-xxxx-xxx", "platform": "google_meet"}'
В случае успеха возвращается JSON, содержащий meeting_id и статус робота.
- Доступ к данным транскрипции
Используйте идентификатор сессии для получения транскриптов:curl -H "X-API-Key: YOUR_CLIENT_API_KEY" \ https://gateway.dev.vexa.ai/transcripts/google_meet/xxx-xxxx-xxx
Вернуться к примеру:
{ "data": { "meeting_id": "meet_abc123", "transcripts": [ {"time": "00:01:15", "speaker": "John Smith", "text": "Let's discuss the quarterly results."}, {"time": "00:01:23", "speaker": "Sarah Johnson", "text": "The Q3 revenue exceeded our projections by 15%."} ] } }
Поддержка нескольких языков
Vexa поддерживает транскрипцию в реальном времени на 99 языках. Способ установки:
- Укажите язык в файле .env, например LANGUAGE=en.
- Добавьте параметр языка в запрос API:
curl -X POST -H "Content-Type: application/octet-stream" \ -d '{"language": "es"}' \ http://localhost:8033/
Система автоматически расшифрует встречу на указанном языке.
извлечение знаний
Векса RAG Функции извлекают ключевую информацию из транскриптов для создания структурированной базы знаний:
- Просмотр базы знаний
Доступ к созданным записям знаний осуществляется через интерфейс управления (http://localhost:8057) или API. - поиск информации
Выполните поиск в базе знаний по ключевым словам, и RAG вернет соответствующие минуты и контекст. - Экспорт данных
Экспортируйте записи знаний через API в формат JSON или CSV для анализа или архивирования.
Прямое потоковое вещание (находится в разработке)
Vexa планирует поддерживать захват аудио непосредственно из веб- или мобильных приложений. Пользователи будут загружать аудиопотоки через SDK или API, а система будет расшифровывать их в режиме реального времени. Ожидается, что эта функция заработает в 2025 году.
Другие функции
- Безопасность предприятия: Локально развернутые сегрегированные данные, с интерфейсами управления, защищенными с помощью X-Admin-API-Key. Предприятия могут настраивать права доступа в соответствии с требованиями законодательства.
- высокая масштабируемостьАрхитектура микросервисов автоматически распределяет задачи. Без ручного вмешательства система может обрабатывать тысячи одновременных расшифровок.
- Вклад в развитие сообщества: Посетите https://github.com/Vexa-ai/vexa, чтобы найти CONTRIBUTING.md. Разработчики могут обсуждать задачи или отправлять код через Discord (https://discord.gg/Ga9duGkVz9).
предостережение
- требования к оборудованию: Рекомендуются серверы с графическим процессором NVIDIA, 16 ГБ оперативной памяти и 4-ядерными процессорами.
- Обновление Обслуживание: Периодически запускайте git pull и docker compose up --build, чтобы получить последние возможности.
- закрытый тестДля доступа к API требуется ключ, а количество тестовых слотов ограничено.
- прогресс в развитии: Распознавание речи находится в разработке, а боты Microsoft Teams и Zoom должны появиться в апреле и мае 2025 года соответственно.
сценарий применения
- Конференция по многонациональным предприятиям
Многонациональные команды используют Vexa для расшифровки многоязычных совещаний, перевода на английский язык в режиме реального времени, извлечения информации о принятых решениях и создания базы знаний с возможностью поиска для упрощения глобального сотрудничества. - управление проектами
Команды разработчиков записывают технические совещания, а Vexa извлекает задания и сроки выполнения, генерируя автоматизированные отчеты и сокращая количество ручных сводок. - Оптимизация службы поддержки клиентов
Сотрудники отдела обслуживания клиентов расшифровывают звонки клиентов, выявляют общие проблемы и их решения, а также создают базу знаний для повышения скорости и последовательности ответов. - Записи академических исследований
Исследователи записывают интервью или семинары, а Vexa расшифровывает и анализирует их содержание, генерируя структурированные данные для написания статей.
QA
- Какие платформы поддерживает Vexa?
Текущая поддержка ботов Google Meet, Microsoft Teams и Zoom, как ожидается, будет реализована в 2025 году. - Как запросить тестовый ключ?
Посетите сайт https://api.dev.vexa.ai/pricing, чтобы отправить запрос на бесплатный тест X-API-Key. - Какие ресурсы требуются для локального развертывания?
Рекомендуются серверы с графическими процессорами NVIDIA, минимум 16 ГБ оперативной памяти и 4-ядерными процессорами. - Поддерживает ли Vexa перевод в режиме реального времени?
В настоящее время поддерживается 99 языков, а перевод в реальном времени планируется запустить в 2025 году. - Как я могу принять участие в разработке?
Присоединяйтесь к Discord (https://discord.gg/Ga9duGkVz9), ознакомьтесь с файлом CONTRIBUTING.md и отправьте Pull Request.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...