LiteAvatar: озвученные 2D-портреты интерактивных цифровых людей в реальном времени, работающие со скоростью 30 кадров в секунду на процессоре
Общее введение
LiteAvatar - это инструмент с открытым исходным кодом, разработанный командой HumanAIGC (часть Ali) и предназначенный для создания лицевых анимаций из аудиоуправляемых 2D-аватаров в режиме реального времени. Он работает со скоростью 30 кадров в секунду (fps) на одном только процессоре, что делает его особенно подходящим для сценариев с низким энергопотреблением, таких как 2D-видеочаты в реальном времени или приложения аватаров на мобильных устройствах. LiteAvatar сочетает распознавание речи (ASR) и предсказание рта для создания синхронизированных выражений лица и движений рта на основе входящих звуковых характеристик, с плавными и естественными анимационными эффектами. Проект размещен на GitHub, полный код и документация доступны для разработчиков бесплатно и развиваются по мере необходимости. Будь то развлечения, образование или виртуальный хостинг, этот инструмент демонстрирует идеальное сочетание легкости и высокой производительности.
Развертывание интерактивной версии LiteAvatar в реальном времени: https://github.com/HumanAIGC-Engineering/OpenAvatarChat

Список функций
- Генерация анимации на основе звука: Генерируйте выражения лица и анимацию рта аватаров в реальном времени, вводя звук.
- Легкое управление: Плавная анимация с частотой 30 кадров в секунду достигается за счет использования только центрального процессора, поддержка GPU не требуется.
- Прогнозирование синхронизации рта: Модель ASR используется для извлечения звуковых характеристик и генерирования движений рта, соответствующих содержанию речи.
- Поддержка мобильных устройств: Оптимизированная модель адаптирована к устройствам с низким энергопотреблением и подходит для мобильных телефонов и планшетов.
- Поддержка открытых источников: Предоставляется полный исходный код, что позволяет пользователям настраивать функциональность или интегрировать его в другие проекты.
- Возможность обработки данных в режиме реального времениОбработка аудиовходов с низкой задержкой обеспечивает высокую синхронизацию анимации со звуком.
Использование помощи
LiteAvatar - это проект с открытым исходным кодом на GitHub, который требует от пользователей определенной технической базы для установки и использования. Ниже приведено подробное руководство по установке и использованию, которое поможет вам быстро начать работу с этим инструментом для создания 2D-аватаров на основе звука.
Процесс установки
- Подготовка к защите окружающей среды
- Убедитесь, что на вашем компьютере установлен Python 3.8 или выше. Это можно сделать с помощью команды
python --version
Проверьте версию. - Установите Git, который используется для загрузки кода с GitHub; пользователи Windows могут загрузить Git с официального сайта, а пользователи Linux или macOS могут установить его через менеджер пакетов (например.
sudo apt install git
). - Подготовьте терминал, поддерживающий командную строку (например, CMD, PowerShell для Windows или Terminal для Linux/macOS).
- Убедитесь, что на вашем компьютере установлен Python 3.8 или выше. Это можно сделать с помощью команды
- Скачать проект LiteAvatar
- Откройте терминал и введите следующую команду, чтобы клонировать репозиторий кода:
git clone https://github.com/HumanAIGC/lite-avatar.git
- После завершения клонирования перейдите в каталог проекта:
cd lite-avatar
- Откройте терминал и введите следующую команду, чтобы клонировать репозиторий кода:
- Установка зависимостей
- Проекту требуется поддержка некоторых библиотек Python. Выполните следующую команду для установки зависимостей:
pip install -r requirements.txt
- в случае, если
requirements.txt
В документации нет конкретных зависимостей, вы можете обратиться к документации по проекту, общие зависимости могут включатьnumpy
, иtorch
(версия для процессора),modelscope
и т.д. Пример ручной установки:pip install numpy torch modelscope
- Проекту требуется поддержка некоторых библиотек Python. Выполните следующую команду для установки зависимостей:
- Проверка установки
- После завершения установки запустите простую тестовую команду (точная команда указана в README проекта, например:
python demo.py
- Если ошибок нет, значит, среда настроена успешно.
- После завершения установки запустите простую тестовую команду (точная команда указана в README проекта, например:
Использование
Основная функция LiteAvatar - генерировать анимацию из аватаров, управляемых звуком. Вот подробные шаги:
Подготовка аудиофайлов
- аудиоформат: Поддерживает такие распространенные форматы, как
.wav
возможно.mp3
. Для достижения наилучших результатов рекомендуется использовать чистый монофонический звук с частотой дискретизации около 16 кГц. - Источник звука: Это может быть ваш записанный голос или звук, извлеченный из видео. Рекомендуемый инструмент: Audacity (бесплатная программа для редактирования аудио).
Запуск анимации в режиме реального времени
- процедура срабатывания
- В директории проекта запустите основной скрипт (при условии, что
main.py
(Конкретное имя файла указано в README):python main.py --audio_path your_audio_file.wav
- Описание параметра:
--audio_path
: Указывает путь к аудиофайлу.--output
: Необязательный параметр, указывающий путь для сохранения сгенерированного анимированного видео, по умолчанию может быть отображен напрямую.
- В директории проекта запустите основной скрипт (при условии, что
- Входное тестирование в режиме реального времени
- Если микрофонный ввод поддерживается, попробуйте режим реального времени (нужно проверить, предоставляет ли README такую возможность). Пример команды:
python main.py --live
- Программа прослушивает микрофонный ввод и генерирует анимацию в режиме реального времени.
- Если микрофонный ввод поддерживается, попробуйте режим реального времени (нужно проверить, предоставляет ли README такую возможность). Пример команды:
Посмотреть результаты
- Выход анимации: После запуска программа отображает на экране анимацию аватара или генерирует видеофайл (например, видеоролик
output.mp4
). - Параметры настройки: Если анимация неудовлетворительна, вы можете обратиться к документации, чтобы настроить параметры модели, такие как частота кадров или чувствительность рта (в зависимости от реализации кода).
Функциональное управление
Генерация анимации на основе звука
- перейти::
- Подготовьте аудиофайл, например.
test.wav
. - Выполнить команду:
python main.py --audio_path test.wav --output result.mp4
- Программа вызывает ASR-модель ModelScope для извлечения звуковых характеристик, а затем генерирует анимацию с помощью модели предсказания рта.
- Подготовьте аудиофайл, например.
- эффектРот и выражение лица аватаров меняются в зависимости от звука: например, их рот открывается, когда они говорят "привет", и они поют с более сильным чувством ритма.
Развертывание мобильных устройств
- предварительные условияМодели должны быть экспортированы в легкий формат (например, ONNX) и интегрированы в мобильные устройства.
- буровая установка::
- Преобразуйте модель локально (конкретные сценарии будут добавлены в документацию проекта, в примере предполагается, что
export.py
):python export.py --model lite_avatar_model.pth --output lite_avatar.onnx
- главнокомандующий (военный)
.onnx
Файлы развертываются на мобильных устройствах и запускаются с помощью фреймворков с поддержкой ONNX, таких как NCNN.
- Преобразуйте модель локально (конкретные сценарии будут добавлены в документацию проекта, в примере предполагается, что
- в конце концов: Маломощная анимация в реальном времени на мобильных телефонах, подходящая для приложений видеочата.
предостережение
- оптимизация производительности: Если у вас лаги, вы можете уменьшить частоту кадров (например, с 30 до 15 кадров в секунду), изменив конфигурационный файл или параметры командной строки.
- регулировка компонентов во время тестирования: Если вы получили ошибку, проверьте, совпадают ли версии ваших зависимостей, или обратитесь за помощью к сообществу на странице GitHub Issues.
- масштабируемостьЕсли вы хотите добавить новые функции (например, управление эмодзи), вы можете форкнуть проект и изменить код, команда HumanAIGC приветствует участников, которые могут подавать Pull Requests.
Выполнив эти шаги, вы сможете легко установить и использовать LiteAvatar, чтобы испытать процесс создания анимации аватара с помощью звука. Этот инструмент представляет собой эффективное и удобное решение как для тестирования при разработке, так и для применения в реальных условиях.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...