Чатбот Xiaozhi AI: создайте своего собеседника с искусственным интеллектом, простой голосовой диалог и интеллектуальное взаимодействие

Последние ресурсы по искусственному интеллектуОбновлено 12 месяцев назад Круг обмена ИИ

196.1K 00

Общее введение

Xiaozhi AI Chatbot - это проект с открытым исходным кодом на базе платы разработки ESP32, призванный помочь пользователям создать собственный чат-компаньон с искусственным интеллектом. Проект был разработан компанией Shrimp и в основном используется в учебных целях, чтобы помочь большему количеству людей начать разработку аппаратных средств ИИ и понять, как применить большую языковую модель к реальным аппаратным устройствам. Проект поддерживает функции распознавания речи и ведения диалога на нескольких языках, включая мандаринский, кантонский, английский, японский и корейский. Пользователи могут узнать, как разрабатывать с помощью ESP-IDF и испытать различные функции чатботов ИИ через этот проект.

ИИ-чатбот Xiaozhi портирован на ПК: https://github.com/Huang-junsen/py-xiaozhi.

ИИ-чатбот Xiaozhi портирован на Android: https://github.com/TOM88812/xiaozhi-android-client.

Учебник по настройке бэкэнд-сервиса:xiaozhi-esp32-server: открытый сервис бэкэнд-службы чатбота Xiaozhi AI

Список функций

Wi-Fi / ML307 Cat.1 4G: Поддерживает Wi-Fi и связь 4G.
Проснуться с голосом: Поддерживает функцию автономного голосового пробуждения.
многоязычное распознавание: Поддерживает распознавание голоса на пяти языках: мандаринском, кантонском, английском, японском и корейском.
распознавание голоса: Определите, кто выкрикивает имя ИИ.
Большая модель TTS: Поддерживает функцию преобразования текста в речь в Volcano Engine или CosyVoice.
Большая модель LLM: Поддерживает Qwen 2.5 72B или большую языковую модель beanbag API.
Пользовательские роли: Настраиваемые сигналы и мелодии для создания индивидуальных ролей.
кратковременная память: Самоанализ после каждого раунда диалога.
экран дисплея: Поддерживает OLED или ЖК-дисплеи для отображения уровня сигнала или содержания диалога.
Поддержка аппаратного обеспечения: Поддерживает широкий спектр аппаратных средств, таких как плата разработки Litronix-Realistic ESP32-S3, Loxin ESP32-S3-BOX3, M5Stack CoreS3 и др.

Использование помощи

Процесс установки

Подготовительное оборудование: Убедитесь, что у вас есть необходимое оборудование, такое как плата разработки ESP32, модуль микрофона, модуль динамика и дисплей.
Скачать прошивку: Посетите страницу проекта на GitHub, чтобы загрузить последнюю версию прошивки.
Прошивка для записи: Используйте инструмент Flash для записи прошивки на плату разработки ESP32. Для этого необходимо выполнить следующие шаги:
- Подключите плату разработки ESP32 к компьютеру.
- Откройте программу Flash tool и выберите загруженный файл прошивки.
- Нажмите кнопку "Записать" и дождитесь завершения записи.
Настройка сети: После завершения записи нажмите кнопку BOOT на плате разработки, чтобы войти в режим настройки сети и подключиться к сети Wi-Fi или 4G.
Установка зависимостей: Установите необходимые программные зависимости, такие как среда разработки ESP-IDF, в соответствии с проектной документацией.
Текущие проекты: После выполнения описанных выше действий запустите проект и начните пользоваться функцией чата AI.

Инструкция по применению

Проснуться с голосом: Произнесите слово пробуждения в микрофон, чтобы разбудить чатбота с искусственным интеллектом.
голосовой диалог: После пробуждения вы можете вести голосовой диалог непосредственно с искусственным интеллектом, поддерживающим несколько языков.
Пользовательские роли: Настройка пользовательских сигналов и мелодий персонажей с помощью файлов конфигурации.
Функция дисплея: Просмотр содержимого диалога и уровня сигнала на OLED- или ЖК-дисплее.
распознавание голосаИИ может распознать, кто обращается к нему по имени, и дать индивидуальный ответ.
кратковременная память: После каждого раунда диалога ИИ проводит самоанализ, чтобы улучшить впечатления от диалога.

Подробная процедура работы

Голосовое пробуждение и диалог::
- Убедитесь, что устройство подключено к сети.
- Произнесите в микрофон слово пробуждения, например "Xiaozhi", и устройство перейдет в режим ожидания.
- Произнесите свой вопрос или команду, и искусственный интеллект распознает голос и ответит на него.
Настройка пользовательских ролей::
- Откройте файл конфигурации и найдите раздел Role Settings.
- Введите пользовательские сигналы и параметры тембра и сохраните файл.
- Перезагрузите устройство, и новые настройки роли вступят в силу.
Использование дисплея::
- Когда устройство активировано, на дисплее отображается текущий уровень сигнала сети.
- Во время диалога на дисплее отображается его содержание для удобства просмотра.
функция распознавания голоса::
- В файле конфигурации задайте параметры распознавания голоса.
- Когда устройство активируется, оно автоматически распознает отпечаток голоса говорящего и выдает индивидуальный ответ.
функция кратковременной памяти::
- После каждого раунда диалога ИИ будет автоматически подводить итоги и улучшать впечатления от диалога.
- Параметры сводки можно настроить в файле конфигурации, чтобы оптимизировать эффект памяти.