JoyHallo - цифровая модель человека с открытым исходным кодом ИИ от Kyodo
Что такое JoyHallo?
JoyHallo - это цифровая модель человека с открытым исходным кодом от Jingdong, разработанная для мандаринского языка и поддерживающая преобразование аудио в реалистичное разговорное видео. JoyHallo включает в себя аудиофункции, основанные на модели wav2vec2 с полуразделенной структурой для повышения точности предсказания движения губ и поддержки создания видео на английском языке. Учебный набор данных JoyHallo охватывает мандаринские видео разных возрастов и стилей. JoyHallo находит широкое применение в таких областях, как виртуальный якорь, онлайн-образование, обслуживание клиентов и производство рекламы, что может обеспечить эффективный, яркий и персонализированный опыт обслуживания и способствовать интеллектуальному развитию смежных отраслей.

Ключевые особенности JoyHallo
- Создание видео на основе аудио: На основе входящего аудиосигнала автоматически генерирует соответствующее ему разговорное видео.
- Межъязыковая генеративная способность: Помимо того, что JoyHallo специализируется на создании видео на мандаринском языке, он также может создавать видео на английском языке.
- Синхронизация губ: Модель точно синхронизирует движения губ в аудио и видео.
- Генерация выражений лица: Генерируйте соответствующие выражения лица, основываясь на эмоциях и тоне голоса в аудиозаписи.
Адрес официального сайта JoyHallo
- Веб-сайт проекта::https://jdh-algo.github.io/JoyHallo/
- Репозиторий GitHub::https://github.com/jdh-algo/JoyHallo
- Библиотека моделей HuggingFace::https://huggingface.co/jdh-algo/JoyHallo-v1
- Технический документ arXiv::https://arxiv.org/pdf/2409.13268
Как использовать JoyHallo
- Подготовка к защите окружающей среды::
- требования к оборудованию: Для ускорения процесса вывода модели рекомендуется использовать компьютеры с высокопроизводительными графическими процессорами, такими как видеокарты серии NVIDIA (например, серии RTX 30 или выше).
- программная среда: Убедитесь, что в вашей системе установлен Python (рекомендуется версия 3.8 и выше). Установите PyTorch, выполнив следующую команду (выберите соответствующую команду установки в зависимости от версии CUDA):
pip install torch torchvision torchaudio
- Установка зависимостей::
- Клонирование репозитория JoyHallo на GitHub::
git clone https://github.com/jdh-algo/JoyHallo.git
cd JoyHallo
- Установите зависимости проекта::
pip install -r requirements.txt
- Подготовка данных: Если вы используете собственные данные для обучения или тонкой настройки, вам необходимо подготовить их в соответствии с форматом данных JoyHallo. Набор данных JoyHallo обычно содержит аудиофайлы и соответствующие видеофайлы. Аудиофайлы должны быть в формате wav, а видеофайлы - в формате mp4. Если вы просто используете предварительно обученную модель для выводов, пропустите этот шаг.
- Загрузка и вывод модели::
- Загрузка предварительно обученных моделей: Предварительно обученные модели JoyHallo загружаются на основе библиотеки моделей Hugging Face.
from transformers import AutoModelForAudioToVideo, AutoProcessor
model_name = "jdh-algo/JoyHallo-v1"
processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForAudioToVideo.from_pretrained(model_name)
- Предварительная обработка аудио: преобразование аудиофайлов в формат, требуемый моделью::
from datasets import load_dataset
dataset = load_dataset("audiofolder", data_dir="path/to/your/audio/files")
inputs = processor(dataset[0]["audio"], return_tensors="pt")
- Создать видеоРассуждения с моделями для создания видео:
outputs = model(**inputs)
video = processor.postprocess_video(outputs)
video.save("output_video.mp4")
Основные преимущества JoyHallo
- Оптимизация мандарина: JoyHallo разработан для мандаринского языка и может точно соответствовать движениям губ, чтобы точно имитировать сложные согласные и рифмованные звуки в мандаринском языке, такие как "ж", "ч", "ш". zh", "ch", "sh" и т.д. Он поддерживает создание богатой мимики на основе эмоций и интонаций в аудио, делая видео более заразительным.
- межъязыковая компетенцияJoyHallo может генерировать видео на английском языке в дополнение к мандаринскому, и поддерживает многоязычные сценарии применения, такие как обслуживание клиентов в многонациональных корпорациях, международное образование и т.д., с широкой областью применения.
- Эффективные структуры: На основе полуразделенной структуры процессы встраивания аудиофункций и генерации видео разделены, что значительно повышает скорость вывода, которая на 14,31 TP3T быстрее, чем в традиционной полностью связанной модели.
- Богатые сценарии применения: JoyHallo применим в самых разных отраслях и сценариях, включая виртуального ведущего (трансляция новостей, прогноз погоды, комментарии спортивных событий), онлайн-образование (изучение языков, онлайн-курсы), обслуживание клиентов (виртуальный представитель службы поддержки) и другие сценарии.
- ресурс с открытым исходным кодом: Предоставление набора данных с открытым исходным кодом (jdh-Hallo dataset), содержащего видеоданные на мандаринском языке для разных возрастов и стилей речи, охватывающие повседневные разговоры и профессиональные медицинские темы. Проект предоставляет подробные методы обучения модели и код, чтобы облегчить разработчикам настройку и оптимизацию.
Для кого предназначена JoyHallo
- создатель контентаВидеопродюсеры и мастера социальных сетей быстро создают высококачественный персонализированный видеоконтент, экономя время и расходы и повышая привлекательность контента.
- педагог: Создание виртуальных образов учителей для платформ онлайн-образования, школ и учебных заведений, чтобы обогатить учебные ресурсы и обеспечить яркий опыт преподавания.
- Компании и бренды: Отделы по работе с корпоративными клиентами создают виртуальных представителей по работе с клиентами для повышения удовлетворенности обслуживанием; маркетинговые команды создают персонализированные рекламные видеоролики для повышения привлекательности рекламы.
- Практики индустрии развлечений: Компании, занимающиеся производством фильмов и телепередач, а также разработкой игр, создают лицевую анимацию персонажей, чтобы повысить эффективность производства, снизить производственные затраты, а также усилить погружение и реалистичность работы.
- Исследователи и разработчики: Исследователи искусственного интеллекта и разработчики программного обеспечения проводят исследования и разработки, чтобы способствовать технологическому прогрессу и расширению сценариев применения.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...