Bailing: голосовой диалоговый помощник с открытым исходным кодом с низкой задержкой для естественного разговора и общения
Общее введение
Bailing - это голосовой диалоговый помощник с открытым исходным кодом, предназначенный для ведения естественного диалога с пользователями посредством речи. Проект объединяет технологии распознавания речи (ASR), определения голосовой активности (VAD), большой языковой модели (LLM) и синтеза речи (TTS) для реализации голосового диалогового робота, подобного GPT-4o. BaiLing, имеющий сквозную задержку до 800 мс, подходит для широкого спектра периферийных устройств и сред с низким уровнем ресурсов. Его эффективная модель с открытым исходным кодом и модульная конструкция позволяют ему работать без GPU, обеспечивая высокое качество голосового диалога. Благодаря таким функциям, как функция памяти, вызов инструментов и управление задачами, Biolabs запоминает предпочтения пользователя и историю разговоров, чтобы обеспечить персонализированный интерактивный опыт.

Список функций
- Голосовой ввод: точное распознавание голоса с помощью FunASR.
- Обнаружение речевой активности: фильтрация недействительных аудиозаписей с помощью silero-vad для повышения эффективности распознавания.
- Интеллектуальное создание диалогов: опираясь на deepseek Мощное понимание языка позволяет генерировать естественные текстовые ответы.
- Речевой выход: преобразует текст в речь с помощью edge-tts, обеспечивая пользователям реалистичную звуковую обратную связь.
- Поддержка прерываний: гибкая настройка политик прерываний с возможностью определения ключевых слов и голосовых прерываний обеспечивает мгновенную обратную связь с пользователем и контроль над диалогом.
- Поддержка памяти: возможность непрерывного обучения для запоминания предпочтений пользователя и истории разговоров для обеспечения персонализированного интерактивного опыта.
- Поддержка вызова инструментов: гибкая интеграция внешних инструментов позволяет пользователям запрашивать информацию или выполнять действия непосредственно с помощью голоса.
- Поддержка управления задачами: эффективное управление задачами пользователей с возможностью отслеживать ход выполнения, устанавливать напоминания и предоставлять динамические обновления.
Использование помощи
Установка и эксплуатация
Зависимая среда
Убедитесь, что в вашей среде разработки установлены следующие инструменты и библиотеки:
- Python 3.8 или выше
- менеджер пакетов pip
- Необходимые зависимости для FunASR, silero-vad, deepseek, edge-tts
Этапы установки
- Хранилище проектов клонирования:
git clone https://github.com/wwbin2017/bailing.git
cd bailing
- Установите необходимые зависимости:
pip install -r requirements.txt
- Настройте переменные окружения: Откройте
config/config.yaml
Настройка ASR, LLM и других сопутствующих конфигураций. Загрузить SenseVoiceSmall в каталогmodels/SenseVoiceSmall
Получите ключ API для deepseek и настройте его. Получите API-ключ deepseek и настройте его. Конечно, вы можете настроить и другие модели, такие как openai, qwen, gemini, 01yi и так далее. - Запустите проект:
cd server
python server.py # 启动后端服务,也可不执行这一步
python main.py
Инструкция по применению
После запуска приложения система будет ожидать голосового ввода. Вот подробный порядок действий:
- Преобразуйте речь пользователя в текст с помощью FunASR.
- Используйте silero-vad для обнаружения голосовой активности, чтобы гарантировать, что обрабатывается только правильная речь.
- deepseek обрабатывает вводимый текст и генерирует интеллектуальные ответы.
- edge-tts, ChatTTS, macOS say преобразует сгенерированный текст в речь и воспроизводит его пользователю.
Функции Поток операций
- голосовой ввод: Пользователь вводит голос через микрофон, и система автоматически выполняет распознавание голоса.
- Обнаружение голосовой активности: Система автоматически фильтрует недействительные аудиозаписи для обеспечения эффективности распознавания.
- Интеллектуальное создание диалогов: Система генерирует естественные текстовые ответы на основе пользовательского ввода.
- голосовой вывод: Система преобразует текстовые ответы в речь и воспроизводит их пользователю.
- Поддержка прерываний: Пользователь может прервать текущий диалог голосом, и система мгновенно отреагирует на него.
- функция памяти: Система запоминает предпочтения пользователя и историю разговоров, чтобы обеспечить персонализированный интерактивный опыт.
- Вызов инструментаПользователи могут запрашивать информацию или выполнять действия с помощью голоса, а система гибко интегрирует внешние инструменты.
- управление задачамиПользователи могут устанавливать напоминания о задачах, а система будет эффективно управлять ходом выполнения задач и предоставлять динамические обновления.
пробная операция
- Получите информацию о погоде: Пользователь спрашивает: "Какая погода в Ханчжоу?". Система выдаст информацию о погодных условиях в Ханчжоу.
- Создание заданий с определенным временем: Пользователь говорит: "Напоминайте мне пить воду каждое утро в 8 утра". Система установит напоминание по времени.
Ознакомившись с подробным руководством по использованию, пользователи смогут легко начать работу с BaiLing и наслаждаться эффективным голосовым диалогом.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...