Рекомендуемые 12 бесплатных программ для цифровых людей для локального развертывания

Новости ИИОбновлено 1 год назад Круг обмена ИИ

101.7K 00

В ходе стремительного развития искусственного интеллекта цифровые люди (Digital Humans) достигли зрелости и могут быть созданы быстро и с минимальными затратами. Благодаря широкому спектру коммерческих сценариев применения они привлекают к себе внимание. Будь то виртуальная реальность (VR), дополненная реальность (AR) или кино- и телепроизводство, разработка игр, продвижение брендов, цифровые люди играют важную роль.

В широком смысле существуют цифровые люди 3D-моделирования (включая захват движений), цифровые люди статичных 2D-изображений (включая реальных людей) и цифровые люди с реальными лицами.

Эта статья посвящена персональному клонированию изображения класса цифровой человек, относится к статическим 2D изображениям цифрового человека, содержит три основные функции: реальное изображение, клонирование голоса, синхронизация рта.

Примечание 1: Некоторые проекты не включают в себя голос генерации (клонирование) часть, это не суть, пожалуйста, могут быть развернуты отдельно, есть много отличных рынкеПроект клонирования голоса искусственного интеллекта.

Примечание 2: В настоящее время качество 2D статичных фигур варьируется в основном в синхронизации их ртов и естественности их "видеодвижений". Вы можете попробовать оптимизировать это отдельносинхронизация губУзлы.

Примечание 3: Смена лица + клонирование голоса - это также быстрый способ создания цифровых людей, который подходит для поддержания имиджа и голоса публичных ораторов в неизменном виде, и не включен в следующие программы. Передовая технология видеообмена лицами рискованна, когда становится популярной, поэтому она не представлена.

AIGCPanel: клон интеграционной системы digital man с открытым исходным кодом, развертывание бесплатного клиента digital man одним щелчком мыши

AigcPanel - это универсальная система производства цифровых людей AI для всех пользователей, разработанная с использованием стека технологий electron+vue3+typescript, поддерживающая развертывание в один клик на системе Windows. Система спроектирована так, чтобы быть удобной для пользователя, так что даже пользователи со слабой технической базой могут легко освоить ее. Основные функции включают цифровой синтез человека в видео, синтез речи, клонирование речи и т.д., а также обеспечивает идеальные функции управления локальными моделями. Система поддерживает многоязычный интерфейс (включая упрощенный китайский и английский) и интегрирует MuseTalk, cosyvoice и другие пакеты запуска в один клик для нескольких зрелых моделей. Особо стоит отметить, что система поддерживает технологию сопоставления видеокадров и транскрипции голоса для синтеза видео, а также предоставляет богатые возможности настройки параметров звука для синтеза голоса. Будучи проектом с открытым исходным кодом, AigcPanel выпускается на основе протокола AGPL-3.0, подчеркивающего совместимость использования и прямо запрещающего ее применение в любых незаконных и противозаконных целях.

DUIX: интеллектуальные цифровые люди для взаимодействия в реальном времени, поддерживающие многоплатформенное развертывание в один клик

DUIX (Dialogue User Interface System) - это платформа для взаимодействия с цифровыми людьми на основе искусственного интеллекта, созданная компанией Silicon Intelligence. Благодаря открытому исходному коду разработчики могут легко интегрировать крупномасштабные модели, функции автоматического распознавания речи (ASR) и преобразования текста в речь (TTS) для достижения взаимодействия с цифровыми людьми в режиме реального времени. DUIX поддерживает развертывание в один клик на различных платформах, таких как Android и iOS, что позволяет каждому разработчику легко создавать интеллектуальные и персонализированные цифровые человеческие агенты, которые могут применяться в различных отраслях. Благодаря низкой стоимости развертывания, низкой зависимости от сети и разнообразной функциональности платформа способна удовлетворить потребности различных отраслей, таких как видео, медиа, обслуживание клиентов, финансы, радио и телевидение.

EchoMimic: анимация реалистичных портретов с помощью звука

EchoMimic - это проект с открытым исходным кодом, направленный на создание реалистичной портретной анимации, управляемой звуком. Разработанный подразделением Terminal Technologies компании Ant Group, проект использует редактируемые условия маркерных точек для создания динамических портретных видеороликов, сочетающих аудио и маркерные точки лица. EchoMimic был всесторонне сравнен с многочисленными публичными и собственными наборами данных, продемонстрировав свою превосходную производительность как в количественных, так и в качественных оценках.

Sonic: новое решение с открытым исходным кодом для цифровых людей, аудиоуправляемая генерация выражений лица для ярких цифровых демонстрационных видеороликов

Sonic Sonic - это инновационная платформа, ориентированная на глобальное восприятие звука и предназначенная для создания ярких портретных анимаций, управляемых звуком. Разработанная командой исследователей из Tencent и Чжэцзянского университета, платформа использует аудиоинформацию для управления мимикой и движениями головы для создания естественных и плавных анимационных видео. Основные технологии Sonic включают в себя обучение аудио с учетом контекста, контроллеры, развязанные от движения, и модуль слияния позиционных сдвигов с учетом времени. Эти технологии позволяют Sonic генерировать стабильные и реалистичные длинные видео с различными стилями изображений и различными типами аудиовходов.

Hallo2: создание портретного видео с синхронизацией губ и выражений с помощью звука (с установкой в один клик в Windows)

Hallo2 - это проект с открытым исходным кодом, разработанный совместно Фуданьским университетом и компанией Baidu для создания портретных анимаций высокого разрешения с помощью звукового сопровождения. Проект использует передовые генеративные адверсарные сети (GAN) и методы временного выравнивания для достижения разрешения 4K и создания видео продолжительностью до 1 часа. Hallo2 также поддерживает текстовые подсказки для повышения разнообразия и управляемости создаваемого контента.

VideoChat: голосовой интерактивный цифровой собеседник в реальном времени с возможностью клонирования изображения и тембра, поддержка комплексных голосовых решений и каскадных решений.

VideoChat - это проект цифрового человека для голосового взаимодействия в реальном времени, основанный на технологии с открытым исходным кодом и поддерживающий сквозные голосовые схемы (GLM-4-Voice - THG) и каскадные схемы (ASR-LLM-TTS-THG). Проект позволяет пользователям настраивать образ и тембр цифрового человека, поддерживает клонирование тембра и синхронизацию губ, вывод видеопотока и задержку первого пакета до 3 секунд. Пользователи могут ознакомиться с его функциональностью с помощью онлайн-демонстраций, а также развернуть и использовать его на месте с помощью подробной технической документации.

TalkingAvatar: видеоплатформа для создания и редактирования AI аватаров, основанная на родном арифметическом Windows-клиенте

TalkingAvatar ведущая платформа для создания аватаров с искусственным интеллектом, предлагающая комплексное решение для создания цифровых людей с искусственным интеллектом. Она предлагает пользователям революционный способ создания, редактирования и персонализации видеоконтента. Благодаря передовой технологии искусственного интеллекта пользователи могут легко переписывать видео, клонировать голоса, синхронизировать губы и создавать пользовательские видео. Будь то дубляж существующего видео или создание новой истории с нуля, TalkingAvatar поможет вам в этом.

SadTalker: Заставьте фотографии говорить | Синхронизация рта аудио | Синтезированное видео синхронизации рта | Бесплатные цифровые люди

SadTalker - это инструмент с открытым исходным кодом, который объединяет одну портретную фотографию с аудиофайлом для создания реалистичных видеороликов с говорящей головой для широкого спектра сценариев, таких как персональные сообщения, образовательный контент и многое другое. Революционное использование технологий 3D-моделирования, таких как ExpNet и PoseVAE, позволяет улавливать тонкие выражения лица и движения головы. Пользователи могут использовать технологию SadTalker как для личных, так и для коммерческих проектов, таких как обмен сообщениями, обучение или маркетинг.

AniPortrait: аудиоуправляемое движение изображения или видео для создания реалистичного цифрового видео человеческой речи

AniPortrait - это инновационный фреймворк для создания реалистичных портретных анимаций на основе аудио. Разработанный Huawei, Zechun Yang и Zhisheng Wang из Tencent Game Know Yourself Lab, AniPortrait способен генерировать высококачественные анимации на основе аудио и эталонных портретных изображений, и даже может бытьПредоставьте видео для воссоздания лица. Используя передовые методы промежуточного 3D-представления и 2D-анимации лица, фреймворк способен генерировать естественные и плавные анимационные эффекты для различных сценариев применения, таких как кино и телепроизводство, виртуальные телеведущие и цифровые люди.

MuseV+Muse Talk: полная система генерации цифрового человеческого видео | портрет в видео | поза в видео | синхронизация губ

MuseV - это публичный проект на GitHub, предназначенный для создания аватарных видео неограниченной длины и высокой достоверности. Он основан на технологии диффузии и предоставляет различные возможности, такие как Image2Video, Text2Image2Video, Video2Video и другие. Подробно описана структура модели, примеры использования, краткое руководство, скрипты вывода и благодарности.

DreamTalk: создавайте выразительные разговорные видеоролики с помощью одного изображения аватара!

DreamTalk - это основанная на диффузионной модели система генерации выразительных говорящих голов, разработанная совместно Университетом Цинхуа, Alibaba Group и Хуачжунским университетом науки и технологий. Она состоит из трех основных компонентов: сети шумоподавления, эксперта по губам, учитывающего стиль, и предиктора стиля, и способна генерировать разнообразные и реалистичные говорящие головы на основе входного аудиосигнала. Система способна работать с многоязычным и шумным аудио, обеспечивая высокое качество движения лица и точную синхронизацию рта.

Translation Starter: инструмент синхронизации перевода видеоконтента с открытым исходным кодом | преобразование языков | синхронизация губ

Translation Starter - это проект с открытым исходным кодом, разработанный Sync Labs, чтобы помочь разработчикам быстро интегрировать многоязыковую поддержку видеоконтента. Он предоставляет необходимые API и документацию для разработчиков, чтобы они могли легко создавать приложения, требующие перевода видео с синхронизацией губ. В его основе лежат мощные технологии искусственного интеллекта, такие как Perfect Lip Sync от Sync Labs, технология перевода шепотом от Open AI и синтез звука от Eleven Labs.