Bailing: голосовой диалоговый помощник с открытым исходным кодом с низкой задержкой для естественного разговора и общения

Общее введение

Bailing - это голосовой диалоговый помощник с открытым исходным кодом, предназначенный для ведения естественного диалога с пользователями посредством речи. Проект объединяет технологии распознавания речи (ASR), определения голосовой активности (VAD), большой языковой модели (LLM) и синтеза речи (TTS) для реализации голосового диалогового робота, подобного GPT-4o. BaiLing, имеющий сквозную задержку до 800 мс, подходит для широкого спектра периферийных устройств и сред с низким уровнем ресурсов. Его эффективная модель с открытым исходным кодом и модульная конструкция позволяют ему работать без GPU, обеспечивая высокое качество голосового диалога. Благодаря таким функциям, как функция памяти, вызов инструментов и управление задачами, Biolabs запоминает предпочтения пользователя и историю разговоров, чтобы обеспечить персонализированный интерактивный опыт.

百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

 

Список функций

  • Голосовой ввод: точное распознавание голоса с помощью FunASR.
  • Обнаружение речевой активности: фильтрация недействительных аудиозаписей с помощью silero-vad для повышения эффективности распознавания.
  • Интеллектуальное создание диалогов: опираясь на deepseek Мощное понимание языка позволяет генерировать естественные текстовые ответы.
  • Речевой выход: преобразует текст в речь с помощью edge-tts, обеспечивая пользователям реалистичную звуковую обратную связь.
  • Поддержка прерываний: гибкая настройка политик прерываний с возможностью определения ключевых слов и голосовых прерываний обеспечивает мгновенную обратную связь с пользователем и контроль над диалогом.
  • Поддержка памяти: возможность непрерывного обучения для запоминания предпочтений пользователя и истории разговоров для обеспечения персонализированного интерактивного опыта.
  • Поддержка вызова инструментов: гибкая интеграция внешних инструментов позволяет пользователям запрашивать информацию или выполнять действия непосредственно с помощью голоса.
  • Поддержка управления задачами: эффективное управление задачами пользователей с возможностью отслеживать ход выполнения, устанавливать напоминания и предоставлять динамические обновления.

 

Использование помощи

Установка и эксплуатация

Зависимая среда

Убедитесь, что в вашей среде разработки установлены следующие инструменты и библиотеки:

  • Python 3.8 или выше
  • менеджер пакетов pip
  • Необходимые зависимости для FunASR, silero-vad, deepseek, edge-tts

Этапы установки

  1. Хранилище проектов клонирования:
   git clone https://github.com/wwbin2017/bailing.git
cd bailing
  1. Установите необходимые зависимости:
   pip install -r requirements.txt
  1. Настройте переменные окружения: Откройте config/config.yaml Настройка ASR, LLM и других сопутствующих конфигураций. Загрузить SenseVoiceSmall в каталог models/SenseVoiceSmallПолучите ключ API для deepseek и настройте его. Получите API-ключ deepseek и настройте его. Конечно, вы можете настроить и другие модели, такие как openai, qwen, gemini, 01yi и так далее.
  2. Запустите проект:
   cd server
python server.py  # 启动后端服务,也可不执行这一步
python main.py

Инструкция по применению

После запуска приложения система будет ожидать голосового ввода. Вот подробный порядок действий:

  1. Преобразуйте речь пользователя в текст с помощью FunASR.
  2. Используйте silero-vad для обнаружения голосовой активности, чтобы гарантировать, что обрабатывается только правильная речь.
  3. deepseek обрабатывает вводимый текст и генерирует интеллектуальные ответы.
  4. edge-tts, ChatTTS, macOS say преобразует сгенерированный текст в речь и воспроизводит его пользователю.

Функции Поток операций

  • голосовой ввод: Пользователь вводит голос через микрофон, и система автоматически выполняет распознавание голоса.
  • Обнаружение голосовой активности: Система автоматически фильтрует недействительные аудиозаписи для обеспечения эффективности распознавания.
  • Интеллектуальное создание диалогов: Система генерирует естественные текстовые ответы на основе пользовательского ввода.
  • голосовой вывод: Система преобразует текстовые ответы в речь и воспроизводит их пользователю.
  • Поддержка прерываний: Пользователь может прервать текущий диалог голосом, и система мгновенно отреагирует на него.
  • функция памяти: Система запоминает предпочтения пользователя и историю разговоров, чтобы обеспечить персонализированный интерактивный опыт.
  • Вызов инструментаПользователи могут запрашивать информацию или выполнять действия с помощью голоса, а система гибко интегрирует внешние инструменты.
  • управление задачамиПользователи могут устанавливать напоминания о задачах, а система будет эффективно управлять ходом выполнения задач и предоставлять динамические обновления.

пробная операция

  • Получите информацию о погоде: Пользователь спрашивает: "Какая погода в Ханчжоу?". Система выдаст информацию о погодных условиях в Ханчжоу.
  • Создание заданий с определенным временем: Пользователь говорит: "Напоминайте мне пить воду каждое утро в 8 утра". Система установит напоминание по времени.

Ознакомившись с подробным руководством по использованию, пользователи смогут легко начать работу с BaiLing и наслаждаться эффективным голосовым диалогом.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...