LiteAvatar: озвученные 2D-портреты интерактивных цифровых людей в реальном времени, работающие со скоростью 30 кадров в секунду на процессоре

Общее введение

LiteAvatar - это инструмент с открытым исходным кодом, разработанный командой HumanAIGC (часть Ali) и предназначенный для создания лицевых анимаций из аудиоуправляемых 2D-аватаров в режиме реального времени. Он работает со скоростью 30 кадров в секунду (fps) на одном только процессоре, что делает его особенно подходящим для сценариев с низким энергопотреблением, таких как 2D-видеочаты в реальном времени или приложения аватаров на мобильных устройствах. LiteAvatar сочетает распознавание речи (ASR) и предсказание рта для создания синхронизированных выражений лица и движений рта на основе входящих звуковых характеристик, с плавными и естественными анимационными эффектами. Проект размещен на GitHub, полный код и документация доступны для разработчиков бесплатно и развиваются по мере необходимости. Будь то развлечения, образование или виртуальный хостинг, этот инструмент демонстрирует идеальное сочетание легкости и высокой производительности.

Развертывание интерактивной версии LiteAvatar в реальном времени: https://github.com/HumanAIGC-Engineering/OpenAvatarChat

LiteAvatar:音频驱动2D人像的实时互动数字人,CPU运行30fps

 

Список функций

  • Генерация анимации на основе звука: Генерируйте выражения лица и анимацию рта аватаров в реальном времени, вводя звук.
  • Легкое управление: Плавная анимация с частотой 30 кадров в секунду достигается за счет использования только центрального процессора, поддержка GPU не требуется.
  • Прогнозирование синхронизации рта: Модель ASR используется для извлечения звуковых характеристик и генерирования движений рта, соответствующих содержанию речи.
  • Поддержка мобильных устройств: Оптимизированная модель адаптирована к устройствам с низким энергопотреблением и подходит для мобильных телефонов и планшетов.
  • Поддержка открытых источников: Предоставляется полный исходный код, что позволяет пользователям настраивать функциональность или интегрировать его в другие проекты.
  • Возможность обработки данных в режиме реального времениОбработка аудиовходов с низкой задержкой обеспечивает высокую синхронизацию анимации со звуком.

 

Использование помощи

LiteAvatar - это проект с открытым исходным кодом на GitHub, который требует от пользователей определенной технической базы для установки и использования. Ниже приведено подробное руководство по установке и использованию, которое поможет вам быстро начать работу с этим инструментом для создания 2D-аватаров на основе звука.

Процесс установки

  1. Подготовка к защите окружающей среды
    • Убедитесь, что на вашем компьютере установлен Python 3.8 или выше. Это можно сделать с помощью команды python --version Проверьте версию.
    • Установите Git, который используется для загрузки кода с GitHub; пользователи Windows могут загрузить Git с официального сайта, а пользователи Linux или macOS могут установить его через менеджер пакетов (например. sudo apt install git).
    • Подготовьте терминал, поддерживающий командную строку (например, CMD, PowerShell для Windows или Terminal для Linux/macOS).
  2. Скачать проект LiteAvatar
    • Откройте терминал и введите следующую команду, чтобы клонировать репозиторий кода:
      git clone https://github.com/HumanAIGC/lite-avatar.git
      
    • После завершения клонирования перейдите в каталог проекта:
      cd lite-avatar
      
  3. Установка зависимостей
    • Проекту требуется поддержка некоторых библиотек Python. Выполните следующую команду для установки зависимостей:
      pip install -r requirements.txt
      
    • в случае, если requirements.txt В документации нет конкретных зависимостей, вы можете обратиться к документации по проекту, общие зависимости могут включать numpy, иtorch(версия для процессора),modelscope и т.д. Пример ручной установки:
      pip install numpy torch modelscope
      
  4. Проверка установки
    • После завершения установки запустите простую тестовую команду (точная команда указана в README проекта, например:
      python demo.py
      
    • Если ошибок нет, значит, среда настроена успешно.

Использование

Основная функция LiteAvatar - генерировать анимацию из аватаров, управляемых звуком. Вот подробные шаги:

Подготовка аудиофайлов

  • аудиоформат: Поддерживает такие распространенные форматы, как .wav возможно .mp3. Для достижения наилучших результатов рекомендуется использовать чистый монофонический звук с частотой дискретизации около 16 кГц.
  • Источник звука: Это может быть ваш записанный голос или звук, извлеченный из видео. Рекомендуемый инструмент: Audacity (бесплатная программа для редактирования аудио).

Запуск анимации в режиме реального времени

  1. процедура срабатывания
    • В директории проекта запустите основной скрипт (при условии, что main.py(Конкретное имя файла указано в README):
      python main.py --audio_path your_audio_file.wav
      
    • Описание параметра:
      • --audio_path: Указывает путь к аудиофайлу.
      • --output: Необязательный параметр, указывающий путь для сохранения сгенерированного анимированного видео, по умолчанию может быть отображен напрямую.
  2. Входное тестирование в режиме реального времени
    • Если микрофонный ввод поддерживается, попробуйте режим реального времени (нужно проверить, предоставляет ли README такую возможность). Пример команды:
      python main.py --live
      
    • Программа прослушивает микрофонный ввод и генерирует анимацию в режиме реального времени.

Посмотреть результаты

  • Выход анимации: После запуска программа отображает на экране анимацию аватара или генерирует видеофайл (например, видеоролик output.mp4).
  • Параметры настройки: Если анимация неудовлетворительна, вы можете обратиться к документации, чтобы настроить параметры модели, такие как частота кадров или чувствительность рта (в зависимости от реализации кода).

Функциональное управление

Генерация анимации на основе звука

  • перейти::
    1. Подготовьте аудиофайл, например. test.wav.
    2. Выполнить команду:
      python main.py --audio_path test.wav --output result.mp4
      
    3. Программа вызывает ASR-модель ModelScope для извлечения звуковых характеристик, а затем генерирует анимацию с помощью модели предсказания рта.
  • эффектРот и выражение лица аватаров меняются в зависимости от звука: например, их рот открывается, когда они говорят "привет", и они поют с более сильным чувством ритма.

Развертывание мобильных устройств

  • предварительные условияМодели должны быть экспортированы в легкий формат (например, ONNX) и интегрированы в мобильные устройства.
  • буровая установка::
    1. Преобразуйте модель локально (конкретные сценарии будут добавлены в документацию проекта, в примере предполагается, что export.py):
      python export.py --model lite_avatar_model.pth --output lite_avatar.onnx
      
    2. главнокомандующий (военный) .onnx Файлы развертываются на мобильных устройствах и запускаются с помощью фреймворков с поддержкой ONNX, таких как NCNN.
  • в конце концов: Маломощная анимация в реальном времени на мобильных телефонах, подходящая для приложений видеочата.

предостережение

  • оптимизация производительности: Если у вас лаги, вы можете уменьшить частоту кадров (например, с 30 до 15 кадров в секунду), изменив конфигурационный файл или параметры командной строки.
  • регулировка компонентов во время тестирования: Если вы получили ошибку, проверьте, совпадают ли версии ваших зависимостей, или обратитесь за помощью к сообществу на странице GitHub Issues.
  • масштабируемостьЕсли вы хотите добавить новые функции (например, управление эмодзи), вы можете форкнуть проект и изменить код, команда HumanAIGC приветствует участников, которые могут подавать Pull Requests.

Выполнив эти шаги, вы сможете легко установить и использовать LiteAvatar, чтобы испытать процесс создания анимации аватара с помощью звука. Этот инструмент представляет собой эффективное и удобное решение как для тестирования при разработке, так и для применения в реальных условиях.

© заявление об авторских правах

Похожие статьи

Leonardo AI(莱昂纳多):领先的AI图像创作平台,Leonardo中文使用教程

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...