Vexa: транскрипция совещаний в режиме реального времени и интеллектуальный инструмент извлечения знаний

Общее введение

Vexa - это платформа для транскрипции встреч в реальном времени и управления знаниями с открытым исходным кодом, предназначенная для эффективной записи встреч и интеллектуального извлечения знаний для предприятий и частных лиц. Она автоматически подключается к Google Meet, Zoom и другим платформам с помощью управляемых по API роботов, транскрибирующих голос в текст в режиме реального времени и поддерживающих 99 языков. Vexa использует архитектуру микросервисов, которая отличается высокой масштабируемостью и подходит для обработки большого количества одновременных задач транскрипции. Она подчеркивает безопасность данных корпоративного уровня и предлагает локальные варианты развертывания для обеспечения соответствия требованиям. В настоящее время Vexa находится в стадии закрытого бета-тестирования и доступна бесплатно через официальный сайт. Vexa стремится стать альтернативой recall.ai корпоративного уровня, сочетая высокую производительность с богатой функциональностью.

Vexa:实时会议转录与智能知识提取工具

 

Список функций

  • Расшифровка совещаний в режиме реального времени: Автоматически присоединяйтесь к совещаниям Google Meet, Zoom, Microsoft Teams и транскрибируйте голос в текст в режиме реального времени.
  • Поддержка нескольких языков: Поддержка транскрипции на 99 языках для глобальных команд.
  • конференц-робот: Упростите работу, управляя ботами для участия в собраниях через API.
  • извлечение знаний: С помощью технологии RAG (Retrieval Augmented Generation) из стенограмм извлекается ключевая информация для создания базы знаний с возможностью поиска.
  • Безопасность предприятия: Поддержка локального развертывания, защита конфиденциальности данных и соответствие нормативным требованиям.
  • высокая масштабируемостьАрхитектура микросервисов для поддержки множества параллельных задач транскрипции.
  • прямая трансляция: Поддержка захвата звука непосредственно с веб-страниц или мобильных приложений (в разработке).
  • вклад с открытым исходным кодом: Разработчики могут участвовать в разработке и расширять функциональность через GitHub.

 

Использование помощи

Установка и развертывание

Vexa - это проект с открытым исходным кодом, подходящий для локального развертывания пользователями или предприятиями с техническими навыками. Ниже приведен подробный процесс установки:

  1. склад клонов
    Откройте терминал и выполните следующую команду, чтобы клонировать репозиторий Vexa:

    git clone https://github.com/Vexa-ai/vexa.git
    cd vexa
    
  2. Инициализация подмодулей
    Vexa использует подмодули Git для управления зависимостями (например, services/vexa-bot и services/WhisperLive). Выполнять:

    make submodules
    
  3. Настройка переменных среды
    Создайте и отредактируйте файл конфигурации среды:

    make env
    

    Задайте параметры в файле .env, например ADMIN_API_TOKEN (ключ API администратора). Настройте Шепот Путь к модели или конфигурация базы данных.

  4. Скачать модели шепота
    Vexa использует модель Whisper для транскрипции голоса. Выполните следующую команду:

    make download-model
    

    Модель будет храниться в каталоге . /hub и смонтирована в контейнер WhisperLive.

  5. Создание робота-зеркала для конференций
    Создание образов Docker для роботов Vexa:

    docker build -t vexa-bot:latest -f services/vexa-bot/core/Dockerfile ./services/vexa-bot/core
    
  6. Начальные услуги
    Используйте Docker Compose для создания и запуска службы:

    docker compose build
    docker compose up -d
    

    Когда служба запускается, шлюз API работает по адресу http://localhost:8056, а интерфейс управления - по адресу http://localhost:8057.

Основная функция Эксплуатация

Расшифровка совещаний в режиме реального времени

Основная особенность Vexa - расшифровка голоса на совещании в режиме реального времени с помощью робота для совещаний. Процедура выглядит следующим образом:

  1. Запрос ключа API
    Посетите сайт https://api.dev.vexa.ai/pricing, чтобы запросить ключ API для закрытого тестирования. После отправки запроса получите ключ X-API-Key.
  2. Отправьте робота, чтобы присоединиться к встрече
    Используйте запрос API, чтобы бот присоединился к встрече. Например, присоединиться к Google Meet:

    curl -X POST https://gateway.dev.vexa.ai/bots \
    -H "Content-Type: application/json" \
    -H "X-API-Key: YOUR_CLIENT_API_KEY" \
    -d '{"native_meeting_id": "xxx-xxxx-xxx", "platform": "google_meet"}'
    

    В случае успеха возвращается JSON, содержащий meeting_id и статус робота.

  3. Доступ к данным транскрипции
    Используйте идентификатор сессии для получения транскриптов:

    curl -H "X-API-Key: YOUR_CLIENT_API_KEY" \
    https://gateway.dev.vexa.ai/transcripts/google_meet/xxx-xxxx-xxx
    

    Вернуться к примеру:

    {
    "data": {
    "meeting_id": "meet_abc123",
    "transcripts": [
    {"time": "00:01:15", "speaker": "John Smith", "text": "Let's discuss the quarterly results."},
    {"time": "00:01:23", "speaker": "Sarah Johnson", "text": "The Q3 revenue exceeded our projections by 15%."}
    ]
    }
    }
    

Поддержка нескольких языков

Vexa поддерживает транскрипцию в реальном времени на 99 языках. Способ установки:

  • Укажите язык в файле .env, например LANGUAGE=en.
  • Добавьте параметр языка в запрос API:
    curl -X POST -H "Content-Type: application/octet-stream" \
    -d '{"language": "es"}' \
    http://localhost:8033/
    

    Система автоматически расшифрует встречу на указанном языке.

извлечение знаний

Векса RAG Функции извлекают ключевую информацию из транскриптов для создания структурированной базы знаний:

  1. Просмотр базы знаний
    Доступ к созданным записям знаний осуществляется через интерфейс управления (http://localhost:8057) или API.
  2. поиск информации
    Выполните поиск в базе знаний по ключевым словам, и RAG вернет соответствующие минуты и контекст.
  3. Экспорт данных
    Экспортируйте записи знаний через API в формат JSON или CSV для анализа или архивирования.

Прямое потоковое вещание (находится в разработке)

Vexa планирует поддерживать захват аудио непосредственно из веб- или мобильных приложений. Пользователи будут загружать аудиопотоки через SDK или API, а система будет расшифровывать их в режиме реального времени. Ожидается, что эта функция заработает в 2025 году.

Другие функции

  • Безопасность предприятия: Локально развернутые сегрегированные данные, с интерфейсами управления, защищенными с помощью X-Admin-API-Key. Предприятия могут настраивать права доступа в соответствии с требованиями законодательства.
  • высокая масштабируемостьАрхитектура микросервисов автоматически распределяет задачи. Без ручного вмешательства система может обрабатывать тысячи одновременных расшифровок.
  • Вклад в развитие сообщества: Посетите https://github.com/Vexa-ai/vexa, чтобы найти CONTRIBUTING.md. Разработчики могут обсуждать задачи или отправлять код через Discord (https://discord.gg/Ga9duGkVz9).

предостережение

  • требования к оборудованию: Рекомендуются серверы с графическим процессором NVIDIA, 16 ГБ оперативной памяти и 4-ядерными процессорами.
  • Обновление Обслуживание: Периодически запускайте git pull и docker compose up --build, чтобы получить последние возможности.
  • закрытый тестДля доступа к API требуется ключ, а количество тестовых слотов ограничено.
  • прогресс в развитии: Распознавание речи находится в разработке, а боты Microsoft Teams и Zoom должны появиться в апреле и мае 2025 года соответственно.

 

сценарий применения

  1. Конференция по многонациональным предприятиям
    Многонациональные команды используют Vexa для расшифровки многоязычных совещаний, перевода на английский язык в режиме реального времени, извлечения информации о принятых решениях и создания базы знаний с возможностью поиска для упрощения глобального сотрудничества.
  2. управление проектами
    Команды разработчиков записывают технические совещания, а Vexa извлекает задания и сроки выполнения, генерируя автоматизированные отчеты и сокращая количество ручных сводок.
  3. Оптимизация службы поддержки клиентов
    Сотрудники отдела обслуживания клиентов расшифровывают звонки клиентов, выявляют общие проблемы и их решения, а также создают базу знаний для повышения скорости и последовательности ответов.
  4. Записи академических исследований
    Исследователи записывают интервью или семинары, а Vexa расшифровывает и анализирует их содержание, генерируя структурированные данные для написания статей.

 

QA

  1. Какие платформы поддерживает Vexa?
    Текущая поддержка ботов Google Meet, Microsoft Teams и Zoom, как ожидается, будет реализована в 2025 году.
  2. Как запросить тестовый ключ?
    Посетите сайт https://api.dev.vexa.ai/pricing, чтобы отправить запрос на бесплатный тест X-API-Key.
  3. Какие ресурсы требуются для локального развертывания?
    Рекомендуются серверы с графическими процессорами NVIDIA, минимум 16 ГБ оперативной памяти и 4-ядерными процессорами.
  4. Поддерживает ли Vexa перевод в режиме реального времени?
    В настоящее время поддерживается 99 языков, а перевод в реальном времени планируется запустить в 2025 году.
  5. Как я могу принять участие в разработке?
    Присоединяйтесь к Discord (https://discord.gg/Ga9duGkVz9), ознакомьтесь с файлом CONTRIBUTING.md и отправьте Pull Request.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...