JoyHallo - цифровая модель человека с открытым исходным кодом ИИ от Kyodo

Что такое JoyHallo?

JoyHallo - это цифровая модель человека с открытым исходным кодом от Jingdong, разработанная для мандаринского языка и поддерживающая преобразование аудио в реалистичное разговорное видео. JoyHallo включает в себя аудиофункции, основанные на модели wav2vec2 с полуразделенной структурой для повышения точности предсказания движения губ и поддержки создания видео на английском языке. Учебный набор данных JoyHallo охватывает мандаринские видео разных возрастов и стилей. JoyHallo находит широкое применение в таких областях, как виртуальный якорь, онлайн-образование, обслуживание клиентов и производство рекламы, что может обеспечить эффективный, яркий и персонализированный опыт обслуживания и способствовать интеллектуальному развитию смежных отраслей.

JoyHallo - 京东开源的AI数字人模型

Ключевые особенности JoyHallo

  • Создание видео на основе аудио: На основе входящего аудиосигнала автоматически генерирует соответствующее ему разговорное видео.
  • Межъязыковая генеративная способность: Помимо того, что JoyHallo специализируется на создании видео на мандаринском языке, он также может создавать видео на английском языке.
  • Синхронизация губ: Модель точно синхронизирует движения губ в аудио и видео.
  • Генерация выражений лица: Генерируйте соответствующие выражения лица, основываясь на эмоциях и тоне голоса в аудиозаписи.

Адрес официального сайта JoyHallo

Как использовать JoyHallo

  • Подготовка к защите окружающей среды::
    • требования к оборудованию: Для ускорения процесса вывода модели рекомендуется использовать компьютеры с высокопроизводительными графическими процессорами, такими как видеокарты серии NVIDIA (например, серии RTX 30 или выше).
    • программная среда: Убедитесь, что в вашей системе установлен Python (рекомендуется версия 3.8 и выше). Установите PyTorch, выполнив следующую команду (выберите соответствующую команду установки в зависимости от версии CUDA):
pip install torch torchvision torchaudio
  • Установка зависимостей::
    • Клонирование репозитория JoyHallo на GitHub::
git clone https://github.com/jdh-algo/JoyHallo.git
cd JoyHallo
    • Установите зависимости проекта::
pip install -r requirements.txt
  • Подготовка данных: Если вы используете собственные данные для обучения или тонкой настройки, вам необходимо подготовить их в соответствии с форматом данных JoyHallo. Набор данных JoyHallo обычно содержит аудиофайлы и соответствующие видеофайлы. Аудиофайлы должны быть в формате wav, а видеофайлы - в формате mp4. Если вы просто используете предварительно обученную модель для выводов, пропустите этот шаг.
  • Загрузка и вывод модели::
    • Загрузка предварительно обученных моделей: Предварительно обученные модели JoyHallo загружаются на основе библиотеки моделей Hugging Face.
from transformers import AutoModelForAudioToVideo, AutoProcessor

model_name = "jdh-algo/JoyHallo-v1"
processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForAudioToVideo.from_pretrained(model_name)
    • Предварительная обработка аудио: преобразование аудиофайлов в формат, требуемый моделью::
from datasets import load_dataset

dataset = load_dataset("audiofolder", data_dir="path/to/your/audio/files")
inputs = processor(dataset[0]["audio"], return_tensors="pt")
    • Создать видеоРассуждения с моделями для создания видео:
outputs = model(**inputs)
video = processor.postprocess_video(outputs)
video.save("output_video.mp4")

Основные преимущества JoyHallo

  • Оптимизация мандарина: JoyHallo разработан для мандаринского языка и может точно соответствовать движениям губ, чтобы точно имитировать сложные согласные и рифмованные звуки в мандаринском языке, такие как "ж", "ч", "ш". zh", "ch", "sh" и т.д. Он поддерживает создание богатой мимики на основе эмоций и интонаций в аудио, делая видео более заразительным.
  • межъязыковая компетенцияJoyHallo может генерировать видео на английском языке в дополнение к мандаринскому, и поддерживает многоязычные сценарии применения, такие как обслуживание клиентов в многонациональных корпорациях, международное образование и т.д., с широкой областью применения.
  • Эффективные структуры: На основе полуразделенной структуры процессы встраивания аудиофункций и генерации видео разделены, что значительно повышает скорость вывода, которая на 14,31 TP3T быстрее, чем в традиционной полностью связанной модели.
  • Богатые сценарии применения: JoyHallo применим в самых разных отраслях и сценариях, включая виртуального ведущего (трансляция новостей, прогноз погоды, комментарии спортивных событий), онлайн-образование (изучение языков, онлайн-курсы), обслуживание клиентов (виртуальный представитель службы поддержки) и другие сценарии.
  • ресурс с открытым исходным кодом: Предоставление набора данных с открытым исходным кодом (jdh-Hallo dataset), содержащего видеоданные на мандаринском языке для разных возрастов и стилей речи, охватывающие повседневные разговоры и профессиональные медицинские темы. Проект предоставляет подробные методы обучения модели и код, чтобы облегчить разработчикам настройку и оптимизацию.

Для кого предназначена JoyHallo

  • создатель контентаВидеопродюсеры и мастера социальных сетей быстро создают высококачественный персонализированный видеоконтент, экономя время и расходы и повышая привлекательность контента.
  • педагог: Создание виртуальных образов учителей для платформ онлайн-образования, школ и учебных заведений, чтобы обогатить учебные ресурсы и обеспечить яркий опыт преподавания.
  • Компании и бренды: Отделы по работе с корпоративными клиентами создают виртуальных представителей по работе с клиентами для повышения удовлетворенности обслуживанием; маркетинговые команды создают персонализированные рекламные видеоролики для повышения привлекательности рекламы.
  • Практики индустрии развлечений: Компании, занимающиеся производством фильмов и телепередач, а также разработкой игр, создают лицевую анимацию персонажей, чтобы повысить эффективность производства, снизить производственные затраты, а также усилить погружение и реалистичность работы.
  • Исследователи и разработчики: Исследователи искусственного интеллекта и разработчики программного обеспечения проводят исследования и разработки, чтобы способствовать технологическому прогрессу и расширению сценариев применения.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...