JoyHallo - цифровая модель человека с открытым исходным кодом ИИ от Kyodo

Последние ресурсы по искусственному интеллектуОпубликовано 10 месяцев назад Круг обмена ИИ

43.6K 00

Что такое JoyHallo?

JoyHallo - это цифровая модель человека с открытым исходным кодом от Jingdong, разработанная для мандаринского языка и поддерживающая преобразование аудио в реалистичное разговорное видео. JoyHallo включает в себя аудиофункции, основанные на модели wav2vec2 с полуразделенной структурой для повышения точности предсказания движения губ и поддержки создания видео на английском языке. Учебный набор данных JoyHallo охватывает мандаринские видео разных возрастов и стилей. JoyHallo находит широкое применение в таких областях, как виртуальный якорь, онлайн-образование, обслуживание клиентов и производство рекламы, что может обеспечить эффективный, яркий и персонализированный опыт обслуживания и способствовать интеллектуальному развитию смежных отраслей.

Ключевые особенности JoyHallo

Создание видео на основе аудио: На основе входящего аудиосигнала автоматически генерирует соответствующее ему разговорное видео.
Межъязыковая генеративная способность: Помимо того, что JoyHallo специализируется на создании видео на мандаринском языке, он также может создавать видео на английском языке.
Синхронизация губ: Модель точно синхронизирует движения губ в аудио и видео.
Генерация выражений лица: Генерируйте соответствующие выражения лица, основываясь на эмоциях и тоне голоса в аудиозаписи.

Адрес официального сайта JoyHallo

Веб-сайт проекта::https://jdh-algo.github.io/JoyHallo/
Репозиторий GitHub::https://github.com/jdh-algo/JoyHallo
Библиотека моделей HuggingFace::https://huggingface.co/jdh-algo/JoyHallo-v1
Технический документ arXiv::https://arxiv.org/pdf/2409.13268

Как использовать JoyHallo

Подготовка к защите окружающей среды::
- требования к оборудованию: Для ускорения процесса вывода модели рекомендуется использовать компьютеры с высокопроизводительными графическими процессорами, такими как видеокарты серии NVIDIA (например, серии RTX 30 или выше).
- программная среда: Убедитесь, что в вашей системе установлен Python (рекомендуется версия 3.8 и выше). Установите PyTorch, выполнив следующую команду (выберите соответствующую команду установки в зависимости от версии CUDA):

pip install torch torchvision torchaudio

Установка зависимостей::
- Клонирование репозитория JoyHallo на GitHub::

git clone https://github.com/jdh-algo/JoyHallo.git
cd JoyHallo

- Установите зависимости проекта::

pip install -r requirements.txt

Подготовка данных: Если вы используете собственные данные для обучения или тонкой настройки, вам необходимо подготовить их в соответствии с форматом данных JoyHallo. Набор данных JoyHallo обычно содержит аудиофайлы и соответствующие видеофайлы. Аудиофайлы должны быть в формате wav, а видеофайлы - в формате mp4. Если вы просто используете предварительно обученную модель для выводов, пропустите этот шаг.
Загрузка и вывод модели::
- Загрузка предварительно обученных моделей: Предварительно обученные модели JoyHallo загружаются на основе библиотеки моделей Hugging Face.

from transformers import AutoModelForAudioToVideo, AutoProcessor

model_name = "jdh-algo/JoyHallo-v1"
processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForAudioToVideo.from_pretrained(model_name)

- Предварительная обработка аудио: преобразование аудиофайлов в формат, требуемый моделью::

from datasets import load_dataset

dataset = load_dataset("audiofolder", data_dir="path/to/your/audio/files")
inputs = processor(dataset[0]["audio"], return_tensors="pt")

- Создать видеоРассуждения с моделями для создания видео:

outputs = model(**inputs)
video = processor.postprocess_video(outputs)
video.save("output_video.mp4")

Основные преимущества JoyHallo

Оптимизация мандарина: JoyHallo разработан для мандаринского языка и может точно соответствовать движениям губ, чтобы точно имитировать сложные согласные и рифмованные звуки в мандаринском языке, такие как "ж", "ч", "ш". zh", "ch", "sh" и т.д. Он поддерживает создание богатой мимики на основе эмоций и интонаций в аудио, делая видео более заразительным.
межъязыковая компетенцияJoyHallo может генерировать видео на английском языке в дополнение к мандаринскому, и поддерживает многоязычные сценарии применения, такие как обслуживание клиентов в многонациональных корпорациях, международное образование и т.д., с широкой областью применения.
Эффективные структуры: На основе полуразделенной структуры процессы встраивания аудиофункций и генерации видео разделены, что значительно повышает скорость вывода, которая на 14,31 TP3T быстрее, чем в традиционной полностью связанной модели.
Богатые сценарии применения: JoyHallo применим в самых разных отраслях и сценариях, включая виртуального ведущего (трансляция новостей, прогноз погоды, комментарии спортивных событий), онлайн-образование (изучение языков, онлайн-курсы), обслуживание клиентов (виртуальный представитель службы поддержки) и другие сценарии.
ресурс с открытым исходным кодом: Предоставление набора данных с открытым исходным кодом (jdh-Hallo dataset), содержащего видеоданные на мандаринском языке для разных возрастов и стилей речи, охватывающие повседневные разговоры и профессиональные медицинские темы. Проект предоставляет подробные методы обучения модели и код, чтобы облегчить разработчикам настройку и оптимизацию.

Для кого предназначена JoyHallo

создатель контентаВидеопродюсеры и мастера социальных сетей быстро создают высококачественный персонализированный видеоконтент, экономя время и расходы и повышая привлекательность контента.
педагог: Создание виртуальных образов учителей для платформ онлайн-образования, школ и учебных заведений, чтобы обогатить учебные ресурсы и обеспечить яркий опыт преподавания.
Компании и бренды: Отделы по работе с корпоративными клиентами создают виртуальных представителей по работе с клиентами для повышения удовлетворенности обслуживанием; маркетинговые команды создают персонализированные рекламные видеоролики для повышения привлекательности рекламы.
Практики индустрии развлечений: Компании, занимающиеся производством фильмов и телепередач, а также разработкой игр, создают лицевую анимацию персонажей, чтобы повысить эффективность производства, снизить производственные затраты, а также усилить погружение и реалистичность работы.
Исследователи и разработчики: Исследователи искусственного интеллекта и разработчики программного обеспечения проводят исследования и разработки, чтобы способствовать технологическому прогрессу и расширению сценариев применения.

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Узел GaiaNet: установка и запуск собственной локальной модели онлайн-прокси-сервиса

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Локально развернутый инструмент с открытым исходным кодом для создания крупных моделей

2 года назад

054K

Chatlog: инструмент с открытым исходным кодом для извлечения и запроса журналов чатов WeChat.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct Услуги # MCP # Извлечение и очистка документов

11 месяцев назад

0124.5K

Deeptrain: преобразование видеоконтента в информацию, которую можно найти по большой модели

Последние ресурсы по искусственному интеллекту # Поиск знаний и RAG Framework

1 год назад

058.1K

Insanely Fast Whisper: быстрая и эффективная транскрипция речи в текст с открытым исходным кодом

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI Speech to Text

1 год назад

063.6K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

JoyHallo - цифровая модель человека с открытым исходным кодом ИИ от Kyodo

Что такое JoyHallo?

Ключевые особенности JoyHallo

Адрес официального сайта JoyHallo

Как использовать JoyHallo

Основные преимущества JoyHallo

Для кого предназначена JoyHallo

Предпринимательская платформа знаний ИИ на кремниевом языке - платформа цифровых человеческих технологий ИИ, запущенная компанией Silicon Intelligence

Shangtang Ruyi - платформа для производства цифрового человеческого видео с искусственным интеллектом, запущенная компанией Shangtang Technology

Похожие статьи

Узел GaiaNet: установка и запуск собственной локальной модели онлайн-прокси-сервиса

Chatlog: инструмент с открытым исходным кодом для извлечения и запроса журналов чатов WeChat.

Deeptrain: преобразование видеоконтента в информацию, которую можно найти по большой модели

Insanely Fast Whisper: быстрая и эффективная транскрипция речи в текст с открытым исходным кодом

Нет комментариев

Последние коллекции

Последние статьи

JoyHallo - цифровая модель человека с открытым исходным кодом ИИ от Kyodo

Что такое JoyHallo?

Ключевые особенности JoyHallo

Адрес официального сайта JoyHallo

Как использовать JoyHallo

Основные преимущества JoyHallo

Для кого предназначена JoyHallo

Предпринимательская платформа знаний ИИ на кремниевом языке - платформа цифровых человеческих технологий ИИ, запущенная компанией Silicon Intelligence

Shangtang Ruyi - платформа для производства цифрового человеческого видео с искусственным интеллектом, запущенная компанией Shangtang Technology

Похожие статьи

Узел GaiaNet: установка и запуск собственной локальной модели онлайн-прокси-сервиса

Chatlog: инструмент с открытым исходным кодом для извлечения и запроса журналов чатов WeChat.

Deeptrain: преобразование видеоконтента в информацию, которую можно найти по большой модели

Insanely Fast Whisper: быстрая и эффективная транскрипция речи в текст с открытым исходным кодом

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи