Bailing: голосовой диалоговый помощник с открытым исходным кодом с низкой задержкой для естественного разговора и общения

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

Общее введение

Bailing - это голосовой диалоговый помощник с открытым исходным кодом, предназначенный для ведения естественного диалога с пользователями посредством речи. Проект объединяет технологии распознавания речи (ASR), определения голосовой активности (VAD), большой языковой модели (LLM) и синтеза речи (TTS) для реализации голосового диалогового робота, подобного GPT-4o. BaiLing, имеющий сквозную задержку до 800 мс, подходит для широкого спектра периферийных устройств и сред с низким уровнем ресурсов. Его эффективная модель с открытым исходным кодом и модульная конструкция позволяют ему работать без GPU, обеспечивая высокое качество голосового диалога. Благодаря таким функциям, как функция памяти, вызов инструментов и управление задачами, Biolabs запоминает предпочтения пользователя и историю разговоров, чтобы обеспечить персонализированный интерактивный опыт.

Список функций

Голосовой ввод: точное распознавание голоса с помощью FunASR.
Обнаружение речевой активности: фильтрация недействительных аудиозаписей с помощью silero-vad для повышения эффективности распознавания.
Интеллектуальное создание диалогов: опираясь на deepseek Мощное понимание языка позволяет генерировать естественные текстовые ответы.
Речевой выход: преобразует текст в речь с помощью edge-tts, обеспечивая пользователям реалистичную звуковую обратную связь.
Поддержка прерываний: гибкая настройка политик прерываний с возможностью определения ключевых слов и голосовых прерываний обеспечивает мгновенную обратную связь с пользователем и контроль над диалогом.
Поддержка памяти: возможность непрерывного обучения для запоминания предпочтений пользователя и истории разговоров для обеспечения персонализированного интерактивного опыта.
Поддержка вызова инструментов: гибкая интеграция внешних инструментов позволяет пользователям запрашивать информацию или выполнять действия непосредственно с помощью голоса.
Поддержка управления задачами: эффективное управление задачами пользователей с возможностью отслеживать ход выполнения, устанавливать напоминания и предоставлять динамические обновления.

Использование помощи

Установка и эксплуатация

Зависимая среда

Убедитесь, что в вашей среде разработки установлены следующие инструменты и библиотеки:

Python 3.8 или выше
менеджер пакетов pip
Необходимые зависимости для FunASR, silero-vad, deepseek, edge-tts

Этапы установки

Хранилище проектов клонирования:

   git clone https://github.com/wwbin2017/bailing.git
cd bailing

Установите необходимые зависимости:

   pip install -r requirements.txt

Настройте переменные окружения: Откройте config/config.yaml Настройка ASR, LLM и других сопутствующих конфигураций. Загрузить SenseVoiceSmall в каталог models/SenseVoiceSmallПолучите ключ API для deepseek и настройте его. Получите API-ключ deepseek и настройте его. Конечно, вы можете настроить и другие модели, такие как openai, qwen, gemini, 01yi и так далее.
Запустите проект:

   cd server
python server.py  # 启动后端服务，也可不执行这一步
python main.py

Инструкция по применению

После запуска приложения система будет ожидать голосового ввода. Вот подробный порядок действий:

Преобразуйте речь пользователя в текст с помощью FunASR.
Используйте silero-vad для обнаружения голосовой активности, чтобы гарантировать, что обрабатывается только правильная речь.
deepseek обрабатывает вводимый текст и генерирует интеллектуальные ответы.
edge-tts, ChatTTS, macOS say преобразует сгенерированный текст в речь и воспроизводит его пользователю.

Функции Поток операций

голосовой ввод: Пользователь вводит голос через микрофон, и система автоматически выполняет распознавание голоса.
Обнаружение голосовой активности: Система автоматически фильтрует недействительные аудиозаписи для обеспечения эффективности распознавания.
Интеллектуальное создание диалогов: Система генерирует естественные текстовые ответы на основе пользовательского ввода.
голосовой вывод: Система преобразует текстовые ответы в речь и воспроизводит их пользователю.
Поддержка прерываний: Пользователь может прервать текущий диалог голосом, и система мгновенно отреагирует на него.
функция памяти: Система запоминает предпочтения пользователя и историю разговоров, чтобы обеспечить персонализированный интерактивный опыт.
Вызов инструментаПользователи могут запрашивать информацию или выполнять действия с помощью голоса, а система гибко интегрирует внешние инструменты.
управление задачамиПользователи могут устанавливать напоминания о задачах, а система будет эффективно управлять ходом выполнения задач и предоставлять динамические обновления.

пробная операция

Получите информацию о погоде: Пользователь спрашивает: "Какая погода в Ханчжоу?". Система выдаст информацию о погодных условиях в Ханчжоу.
Создание заданий с определенным временем: Пользователь говорит: "Напоминайте мне пить воду каждое утро в 8 утра". Система установит напоминание по времени.

Ознакомившись с подробным руководством по использованию, пользователи смогут легко начать работу с BaiLing и наслаждаться эффективным голосовым диалогом.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Мультимодальные интерактивные продукты в реальном времени

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Craft: инструмент для письма со встроенным ИИ-помощником для обобщения документов и проверки грамматики

Последние ресурсы по искусственному интеллекту # AI Writing

2 года назад

064.4K

JoyAgent-JDGenie - Jingdong с открытым исходным кодом легкая общая мультиинтеллектуальная система тела

Последние ресурсы по искусственному интеллекту

9 месяцев назад

054.2K

magic-html：从HTML网址中提取主体数据，输出纯文本/markdown

magic-html: извлечение данных о теле из HTML URL, вывод обычного текста/markdown

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct

2 года назад

055.2K

Seed GR-3 - робототехническая модель общего назначения от команды Wordpress Seed

Последние ресурсы по искусственному интеллекту

9 месяцев назад

046.4K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Bailing: голосовой диалоговый помощник с открытым исходным кодом с низкой задержкой для естественного разговора и общения

Общее введение

Список функций

Использование помощи

Установка и эксплуатация

Зависимая среда

Этапы установки

Инструкция по применению

Функции Поток операций

пробная операция

Metaverse AI: версия с открытым исходным кодом инструмента для клонирования цифровых людей и создания коротких видеороликов

Omni-RGPT: мультимодальная гранд-модель для понимания изображений и видео на уровне регионов для улучшения анализа визуального контента

Похожие статьи

Craft: инструмент для письма со встроенным ИИ-помощником для обобщения документов и проверки грамматики

JoyAgent-JDGenie - Jingdong с открытым исходным кодом легкая общая мультиинтеллектуальная система тела

magic-html: извлечение данных о теле из HTML URL, вывод обычного текста/markdown

Seed GR-3 - робототехническая модель общего назначения от команды Wordpress Seed

Нет комментариев

Последние коллекции

Последние статьи

Bailing: голосовой диалоговый помощник с открытым исходным кодом с низкой задержкой для естественного разговора и общения

Общее введение

Список функций

Использование помощи

Установка и эксплуатация

Зависимая среда

Этапы установки

Инструкция по применению

Функции Поток операций

пробная операция

Metaverse AI: версия с открытым исходным кодом инструмента для клонирования цифровых людей и создания коротких видеороликов

Omni-RGPT: мультимодальная гранд-модель для понимания изображений и видео на уровне регионов для улучшения анализа визуального контента

Похожие статьи

Craft: инструмент для письма со встроенным ИИ-помощником для обобщения документов и проверки грамматики

JoyAgent-JDGenie - Jingdong с открытым исходным кодом легкая общая мультиинтеллектуальная система тела

magic-html: извлечение данных о теле из HTML URL, вывод обычного текста/markdown

Seed GR-3 - робототехническая модель общего назначения от команды Wordpress Seed

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи