Open-LLM-VTuber: Live2D-анимированный виртуальный компаньон ИИ для голосового взаимодействия в реальном времени

Общее введение

Open-LLM-VTuber - это проект с открытым исходным кодом, который позволяет пользователям взаимодействовать с большими языковыми моделями (LLM) через речь и текст, а также использует технологию Live2D для представления динамических виртуальных персонажей. Он поддерживает Windows, macOS и Linux, работает полностью в автономном режиме и имеет как веб-клиент, так и настольный клиент. Пользователи могут использовать его в качестве виртуальной подруги, домашнего питомца или настольного помощника, создавая персонального ИИ-компаньона, настраивая его внешность, характер и голос. Проект начинался как реплика виртуального якоря ИИ с закрытым исходным кодом "нейро-сама" и превратился в многофункциональную платформу, поддерживающую множество языковых моделей, распознавание речи, преобразование текста в речь и визуальное восприятие. Текущая версия была рефакторингована в v1.0.0 и находится в стадии активной разработки, а в будущем будут добавлены новые функции.

Open-LLM-VTuber:实时语音互动的Live2D动画AI虚拟伴侣Open-LLM-VTuber:实时语音互动的Live2D动画AI虚拟伴侣

 

Список функций

  • голосовое взаимодействие: Поддерживая голосовой диалог в режиме громкой связи, пользователи могут в любой момент прервать работу искусственного интеллекта для беспрепятственного общения.
  • Live2D-анимация: Встроенные динамические аватары, которые генерируют выражения и действия на основе содержания диалога.
  • Поддержка кросс-платформыСовместим с Windows, macOS и Linux, поддерживает работу с графическими процессорами NVIDIA/non-NVIDIA и CPU.
  • автономная работа: Все функции могут работать без сети, что обеспечивает конфиденциальность и безопасность.
  • Режим домашнего питомца на рабочем столе: Поддерживаются прозрачный фон, глобальный верх и проникновение мыши, а символы можно перетаскивать в любую позицию на экране.
  • визуальное восприятие: Видеовзаимодействие с ИИ через распознавание содержимого камеры или экрана.
  • Поддержка нескольких моделей: Совместим с широким спектром LLM, такими как Ollama, OpenAI, Claude, Mistral, и другими речевыми модулями, такими как sherpa-onnx и Whisper.
  • Персонализация персонажей: Модели Live2D могут быть импортированы для настройки характера и голоса.
  • тактильная обратная связь: Щелкните или перетащите персонажа, чтобы вызвать интерактивную реакцию.
  • Ведение записей в чате: Поддержка переключения исторических диалогов с сохранением интерактивного контента.

 

Использование помощи

Процесс установки

Open-LLM-VTuber должен быть развернут локально, вот подробные шаги:

1. предварительные условия

  • программное обеспечение: Поддержка компьютеров под управлением Windows, macOS или Linux с рекомендованными графическими процессорами NVIDIA (можно запускать без GPU).
  • оборудование: Установите Git, Python 3.10+ и uv (рекомендуемый инструмент управления пакетами).
  • ретикуляция: Для первоначального развертывания требуется подключение к Интернету для загрузки зависимости, поэтому китайским пользователям рекомендуется использовать прокси-ускорение.

2. Загрузка кода

  • Клонируйте проект через терминал:
    git clone https://github.com/Open-LLM-VTuber/Open-LLM-VTuber --recursive  
    cd Open-LLM-VTuber
  • Или загрузите последний ZIP-файл с GitHub Release и распакуйте его.
  • Примечание: Если не используется --recursiveТребуется для выполнения git submodule update --init Получите внешний субмодуль.

3. Установка зависимостей

  • Установите uv:
    • Windows (PowerShell):
      irm https://astral.sh/uv/install.ps1 | iex
      
    • macOS/Linux:
      curl -LsSf https://astral.sh/uv/install.sh | sh
      
  • Запустите в каталоге проекта:
    uv sync
    

    Автоматически устанавливает FastAPI, onnxruntime и другие зависимости.

4. среда конфигурации

  • При первом запуске создается файл конфигурации:
    uv run run_server.py
    
  • Отредактируйте сгенерированный conf.yamlНастройте следующие параметры:
    • LLM: Выберите модель (например. Оллама (для llama3 или OpenAI API необходимо заполнить ключ).
    • ASR: Модуль распознавания речи (например, sherpa-onnx).
    • TTS: Модули преобразования текста в речь (например, Edge TTS).
  • Пример:
    llm:  
    provider: ollama  
    model: llama3  
    asr:  
    provider: sherpa-onnx  
    tts:  
    provider: edge-tts
    

5. активация услуг

  • Бег:
    uv run run_server.py
    
  • интервью http://localhost:8000 Используйте веб-версию или загрузите клиент для настольных компьютеров.

6. клиент для настольных компьютеров (необязательно)

  • Загрузить с GitHub Release open-llm-vtuber-electron(.exe для Windows, .dmg для macOS).
  • Запустите клиент и убедитесь, что внутренняя служба запущена, чтобы испытать режим домашних животных на рабочем столе.

7. обновление и деинсталляция

  • обновление: после версии 1.0.0 uv run update.py Обновления, более ранние версии должны быть развернуты с последней документацией.
  • деинсталляция: Удалите папку проекта, проверьте MODELSCOPE_CACHE возможно HF_HOME файлы моделей, удалите такие инструменты, как uv.

Функции Поток операций

голосовое взаимодействие

  1. Включить голос: Нажмите на значок "Микрофон" на веб-странице или в клиенте.
  2. диалоги: Говорите напрямую, и ИИ отвечает в реальном времени; нажмите кнопку "прервать", чтобы прервать ИИ.
  3. оптимизация: в conf.yaml Настройте модули ASR и TTS, чтобы улучшить распознавание и произношение.

Персонализация персонажей

  1. Импортная модель: Поместите файл .moc3 в папку frontend/live2d_models Каталог.
  2. Корректировка личности:: Редакция conf.yaml (используется в форме номинального выражения) promptКак "нежная старшая сестра".
  3. Настройка звука: Записывайте сэмплы с помощью таких инструментов, как GPTSoVITS, чтобы генерировать уникальные голоса.

Режим домашнего питомца на рабочем столе

  1. Открытый режим: В клиенте выберите "Животные рабочего стола", отметьте "Прозрачный фон" и "Верх".
  2. движущееся изображение: Перетащите в любое место на экране.
  3. интерактивность: Нажмите на персонажа, чтобы вызвать тактильную обратную связь и просмотреть внутренний монолог или изменение выражения лица.

визуальное восприятие

  1. Активируйте камеру: Нажмите на "Видеочат", чтобы разрешить доступ.
  2. распознавание на экране: Выберите "Screen Sense" для искусственного интеллекта, анализирующего содержимое экрана.
  3. типичный примерСпросите "что на экране", и ИИ опишет изображение.

предостережение

  • браузер (программное обеспечение)Рекомендуется использовать браузер Chrome, другие браузеры могут влиять на отображение Live2D.
  • спектаклиУскорение на GPU требует правильно настроенных драйверов и может работать медленнее на CPU.
  • лицензия: Встроенная модель образца Live2D подлежит отдельной лицензии, для коммерческого использования обращайтесь в Live2D Inc.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...