LiteAvatar: озвученные 2D-портреты интерактивных цифровых людей в реальном времени, работающие со скоростью 30 кадров в секунду на процессоре

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

73.3K 00

Общее введение

LiteAvatar - это инструмент с открытым исходным кодом, разработанный командой HumanAIGC (часть Ali) и предназначенный для создания лицевых анимаций из аудиоуправляемых 2D-аватаров в режиме реального времени. Он работает со скоростью 30 кадров в секунду (fps) на одном только процессоре, что делает его особенно подходящим для сценариев с низким энергопотреблением, таких как 2D-видеочаты в реальном времени или приложения аватаров на мобильных устройствах. LiteAvatar сочетает распознавание речи (ASR) и предсказание рта для создания синхронизированных выражений лица и движений рта на основе входящих звуковых характеристик, с плавными и естественными анимационными эффектами. Проект размещен на GitHub, полный код и документация доступны для разработчиков бесплатно и развиваются по мере необходимости. Будь то развлечения, образование или виртуальный хостинг, этот инструмент демонстрирует идеальное сочетание легкости и высокой производительности.

Развертывание интерактивной версии LiteAvatar в реальном времени: https://github.com/HumanAIGC-Engineering/OpenAvatarChat

Список функций

Генерация анимации на основе звука: Генерируйте выражения лица и анимацию рта аватаров в реальном времени, вводя звук.
Легкое управление: Плавная анимация с частотой 30 кадров в секунду достигается за счет использования только центрального процессора, поддержка GPU не требуется.
Прогнозирование синхронизации рта: Модель ASR используется для извлечения звуковых характеристик и генерирования движений рта, соответствующих содержанию речи.
Поддержка мобильных устройств: Оптимизированная модель адаптирована к устройствам с низким энергопотреблением и подходит для мобильных телефонов и планшетов.
Поддержка открытых источников: Предоставляется полный исходный код, что позволяет пользователям настраивать функциональность или интегрировать его в другие проекты.
Возможность обработки данных в режиме реального времениОбработка аудиовходов с низкой задержкой обеспечивает высокую синхронизацию анимации со звуком.

Использование помощи

LiteAvatar - это проект с открытым исходным кодом на GitHub, который требует от пользователей определенной технической базы для установки и использования. Ниже приведено подробное руководство по установке и использованию, которое поможет вам быстро начать работу с этим инструментом для создания 2D-аватаров на основе звука.

Процесс установки

Подготовка к защите окружающей среды
- Убедитесь, что на вашем компьютере установлен Python 3.8 или выше. Это можно сделать с помощью команды python --version Проверьте версию.
- Установите Git, который используется для загрузки кода с GitHub; пользователи Windows могут загрузить Git с официального сайта, а пользователи Linux или macOS могут установить его через менеджер пакетов (например. sudo apt install git).
- Подготовьте терминал, поддерживающий командную строку (например, CMD, PowerShell для Windows или Terminal для Linux/macOS).
Скачать проект LiteAvatar
- Откройте терминал и введите следующую команду, чтобы клонировать репозиторий кода:
```
git clone https://github.com/HumanAIGC/lite-avatar.git
```
- После завершения клонирования перейдите в каталог проекта:
```
cd lite-avatar
```
Установка зависимостей
- Проекту требуется поддержка некоторых библиотек Python. Выполните следующую команду для установки зависимостей:
```
pip install -r requirements.txt
```
- в случае, если requirements.txt В документации нет конкретных зависимостей, вы можете обратиться к документации по проекту, общие зависимости могут включать numpy, иtorch(версия для процессора),modelscope и т.д. Пример ручной установки:
```
pip install numpy torch modelscope
```
Проверка установки
- После завершения установки запустите простую тестовую команду (точная команда указана в README проекта, например:
```
python demo.py
```
- Если ошибок нет, значит, среда настроена успешно.

Использование

Основная функция LiteAvatar - генерировать анимацию из аватаров, управляемых звуком. Вот подробные шаги:

Подготовка аудиофайлов

аудиоформат: Поддерживает такие распространенные форматы, как .wav возможно .mp3. Для достижения наилучших результатов рекомендуется использовать чистый монофонический звук с частотой дискретизации около 16 кГц.
Источник звука: Это может быть ваш записанный голос или звук, извлеченный из видео. Рекомендуемый инструмент: Audacity (бесплатная программа для редактирования аудио).

Запуск анимации в режиме реального времени

процедура срабатывания
- В директории проекта запустите основной скрипт (при условии, что main.py(Конкретное имя файла указано в README):
```
python main.py --audio_path your_audio_file.wav
```
- Описание параметра:
  - --audio_path: Указывает путь к аудиофайлу.
  - --output: Необязательный параметр, указывающий путь для сохранения сгенерированного анимированного видео, по умолчанию может быть отображен напрямую.
Входное тестирование в режиме реального времени
- Если микрофонный ввод поддерживается, попробуйте режим реального времени (нужно проверить, предоставляет ли README такую возможность). Пример команды:
```
python main.py --live
```
- Программа прослушивает микрофонный ввод и генерирует анимацию в режиме реального времени.

Посмотреть результаты

Выход анимации: После запуска программа отображает на экране анимацию аватара или генерирует видеофайл (например, видеоролик output.mp4).
Параметры настройки: Если анимация неудовлетворительна, вы можете обратиться к документации, чтобы настроить параметры модели, такие как частота кадров или чувствительность рта (в зависимости от реализации кода).

Функциональное управление

Генерация анимации на основе звука

перейти::
1. Подготовьте аудиофайл, например. test.wav.
2. Выполнить команду:
```
python main.py --audio_path test.wav --output result.mp4
```
3. Программа вызывает ASR-модель ModelScope для извлечения звуковых характеристик, а затем генерирует анимацию с помощью модели предсказания рта.
эффектРот и выражение лица аватаров меняются в зависимости от звука: например, их рот открывается, когда они говорят "привет", и они поют с более сильным чувством ритма.

Развертывание мобильных устройств

предварительные условияМодели должны быть экспортированы в легкий формат (например, ONNX) и интегрированы в мобильные устройства.
буровая установка::
1. Преобразуйте модель локально (конкретные сценарии будут добавлены в документацию проекта, в примере предполагается, что export.py):
```
python export.py --model lite_avatar_model.pth --output lite_avatar.onnx
```
2. главнокомандующий (военный) .onnx Файлы развертываются на мобильных устройствах и запускаются с помощью фреймворков с поддержкой ONNX, таких как NCNN.
в конце концов: Маломощная анимация в реальном времени на мобильных телефонах, подходящая для приложений видеочата.

предостережение

оптимизация производительности: Если у вас лаги, вы можете уменьшить частоту кадров (например, с 30 до 15 кадров в секунду), изменив конфигурационный файл или параметры командной строки.
регулировка компонентов во время тестирования: Если вы получили ошибку, проверьте, совпадают ли версии ваших зависимостей, или обратитесь за помощью к сообществу на странице GitHub Issues.
масштабируемостьЕсли вы хотите добавить новые функции (например, управление эмодзи), вы можете форкнуть проект и изменить код, команда HumanAIGC приветствует участников, которые могут подавать Pull Requests.

Выполнив эти шаги, вы сможете легко установить и использовать LiteAvatar, чтобы испытать процесс создания анимации аватара с помощью звука. Этот инструмент представляет собой эффективное и удобное решение как для тестирования при разработке, так и для применения в реальных условиях.