Ваш эксклюзивный цифровой человек? Окончательная оценка шести решений для цифровых людей с открытым исходным кодом: сравнение результатов с первого взгляда!

Новости ИИОбновлено 1 год назад Круг обмена ИИ

В последнее время в кругу ИИ, цифровой человек технологии действительно горячий беспорядок, различные "с открытым исходным кодом сильнейших" цифровой человек программы бесконечные, ослепительные. Хотя автор также поделился рядом цифровых пакетов интеграции человека, но перед лицом такого большого выбора, это неизбежно, что люди будут смущены, не знают, какой из них является наиболее подходящим для них.

Ранее представленные для читателей:12 бесплатных цифровых людей, развернутых на местахТак как так называемый "трудный выбор" является общей проблемой современных людей, чтобы решить проблемы каждого, на этот раз дыхание из шести цифровых людей, чтобы инвентаризации!

Автор проведет всестороннюю инвентаризацию ранее распространенных ресурсов, связанных с цифровыми людьми, и детально сравнит их Эффекты реализации, требования к конфигурации, время генерации и другую ключевую информацию, чтобы каждый мог ясно с первого взгляда Узнайте о современном состоянии технологии цифровых людей с открытым исходным кодом, чтобы выбрать наиболее подходящего для вас "цифрового человека".

Цифровые люди: "горячие цыпочки" пространства ИИ

Когда речь заходит о самых горячих технологиях в области искусственного интеллекта, цифровые люди определенно входят в этот список.

С издательством AI Painting Стабильность AI В отличие от частых новостей о закрытии и "инволюции" отечественных и зарубежных производителей крупных моделей, попавших в ценовую войну, цифровые люди в области ИИ продемонстрировали реальную ценность для бизнеса и потенциал прибыли.

Например, в середине апреля этого года в прямом эфире Jingdong был представлен цифровой человек основателя компании Лю Цяндуна "Caixin Dongge", степень реалистичности которого поражает воображение: не только скорость речи и акцент очень похожи на реального человека, но даже привычные движения почти полностью совпадают.

"Во время речи Донгао время от времени потирает пальцы, а когда подчеркивает какую-то мысль, делает более крупный жест и кивает головой в естественной манере. Многие зрители говорили, что с трудом могут сказать, что это цифровой человек!

Дебют этого цифрового человеческого шоу в прямом эфире состоялся менее чем через час, количество зрителей превысило 20 миллионов, совокупный оборот всего шоу составил более 50 миллионов Ренминби (RMB)

Большой успех дебютного шоу непосредственно побудил Jingdong запустить "Президент цифровой человек в прямом эфире" деятельность во время 618 продвижения в этом году. Руководители Gree, Hisense, LG, Mingchuangyoupin, Jelia, Corvus, vivo, Samsung и многих других известных компаний превратились в цифровых людей, лично спускающихся вниз с товарами.

Jingdong официальные данные показывают, что до сих пор, Jingdong речь носорога цифровых людей накопили услуги более 5000 брендов, движимые общей суммы товарных операций (GMV) Более 10 миллиардов долларов ЮАНЬ.

Огромный бизнес-потенциал, который демонстрируют цифровые люди, привлекает внимание все большего числа людей. Хотя стоимость реализации такого цифрового человека, как "Pick and Sell Dong", все еще невелика, с быстрым развитием технологий искусственного интеллекта в сообществе с открытым исходным кодом появляется все больше и больше многофункциональных и мощных проектов цифровых людей, что значительно снижает технический порог.

Далее я подробно расскажу вам об этих замечательных проектах для цифровых людей с открытым исходным кодом.

Какая технология цифрового человека с открытым исходным кодом самая лучшая? Хардкорная оценка шести проектов

Технология цифрового человека - концепция, которая когда-то существовала только в научно-фантастических фильмах, - постепенно входит в реальную жизнь. С быстрым развитием технологий искусственного интеллекта сфера цифровых людей с открытым исходным кодом также стала высококонкурентной: крупные исследовательские институты и технологические компании запускают свои собственные решения с открытым исходным кодом.

Далее я проведу подробный обзор шести репрезентативных проектов цифровых людей с открытым исходным кодом и В порядке технологического развития Вводная часть посвящена интуитивному пониманию эволюции цифровых человеческих технологий.

1. Wav2lip: представитель первого поколения цифровых человеческих технологий

Wav2Lip Алгоритм представляет собой основанный на глубоком обучении алгоритм генерации лицевой анимации на основе речи, который является более распространенной схемой в ранних цифровых человеческих технологиях. Основная идея заключается в сопоставлении информации, содержащейся в речевом сигнале, с параметрами лицевой анимации для создания лицевой анимации, синхронизированной с речью.

Создание кейсов: На рисунке ниже показан Wav2Lip Сгенерированный эффект цифрового человека. Видно, что движения лица персонажей на изображении скованны, в основном сосредоточены на механических движениях губ, а общая зрелость цифрового человека относительно низкая.

Требования к конфигурации: Wav2Lip имеет низкие аппаратные требования, для работы требуется только GPU с 4 ГБ оперативной памяти. Для создания 1-минутного цифрового видео с человеком требуется около 5-15 минут времени обработки.

2. SadTalker: усовершенствованная программа для более естественных движений лица

SadTalker Это проект с открытым исходным кодом Университета Сиань Цзяотун, который генерирует 3D-коэффициенты движения, обучаясь на основе аудио, и объединяет их с новым 3D-рендерером лица для генерации движений головы, достигая эффекта создания высококачественного цифрового видео человека с использованием только одной фотографии и фрагмента аудио.

Создание кейсов: На рисунке ниже показан SadTalker Сгенерированные цифровые человеческие эффекты. По сравнению с Wav2Lip в SadTalker улучшена естественность движений лица, так как голова больше не полностью статична, но добавлены некоторые легкие движения. Однако при ближайшем рассмотрении выясняется, что по краям фигуры все еще есть некоторые перекосы. Так что вот так. SadTalker улучшен для создания цифровых людей на основе портретного видео

Требования к конфигурации: Поскольку SadTalker генерирует более совершенные цифровые люди, требования к аппаратному обеспечению соответственно возросли. Для обеспечения плавной работы рекомендуется использовать GPU с 6 ГБ оперативной памяти. Если вы используете GPU с менее чем 6 ГБ оперативной памяти или CPU, скорость генерации будет ниже. Для создания видеоролика цифрового человека продолжительностью около 1 минуты требуется 10-20 минут времени обработки.

3. MuseTalk: от Tencent, синхронизация губ более точная

MuseTalk MuseTalk - это проект цифрового человека, запущенный компанией Tencent и направленный на создание цифровых людей с синхронизацией губ в режиме реального времени. Основная технология MuseTalk заключается в способности автоматически корректировать изображение лица цифрового персонажа на основе аудиосигнала, обеспечивая полное соответствие формы губ аудиоконтенту, что позволяет добиться более естественного эффекта синхронизации губ.

Создание кейсов: На рисунке ниже показан эффект цифрового человека, созданного MuseTalk. Как видите, MuseTalk превзошел SadTalker: движения головы и лица стали более естественными, а перекос краев уменьшился. Однако в тонкости анимации губ еще есть куда стремиться.

Требования к конфигурации: Аппаратные требования MuseTalk аналогичны требованиям SadTalker, а для более комфортной работы рекомендуется GPU с 6 ГБ видеопамяти. Для создания 1-минутного видео цифрового человека требуется около 10-20 минут.

4. Hallo: совместное производство Baidu и Fudan, ETH Zurich и Nanjing University, эффект потрясающий!

Hallo Hallo, проект цифрового человека, разработанный компанией Baidu в сотрудничестве с Фуданьским университетом, Цюрихской высшей технической школой и Нанкинским университетом, добился значительного прогресса в области создания анимации портретов с помощью звука. Hallo использует передовую технологию искусственного интеллекта для создания реалистичных и динамичных портретных видеороликов на основе голосового ввода. Технология глубоко анализирует голосовые данные, синхронизируя движения лица, включая губы, мимику и позу головы, в результате чего создается впечатляющий эффект цифрового человека.

Создание кейсов: На рисунке ниже показан Hallo Эффект сгенерированного цифрового человека. Сгенерированные Hallo фигуры - это качественный скачок по сравнению с предыдущими решениями в плане четкости, богатства движений головы и тонкости мимики.

Требования к конфигурацииHallo: Хотя Hallo обладает выдающимися эффектами, она также требует высокой производительности оборудования. Согласно моему обзору, для его бесперебойной работы рекомендуется использовать GPU с более чем 10 ГБ видеопамяти. Для создания 1-минутного видео с цифровым человеком требуется 30-40 минут времени обработки.

5.LivePortrait: Racer с открытым исходным кодом, многосимвольная бесшовная сшивка

LivePortrait это привлекательный проект цифрового человека, открытый Racer. Его уникальность заключается в том, что он может не только точно контролировать направление взгляда персонажа, открытие и закрытие губ, но и создавать несколько портретов людей, органично сшитых вместе.

Создание кейсов: На рисунке ниже показан LivePortrait Сгенерированный эффект цифровых людей. Как видите, LivePortrait обрабатывает сцены с несколькими людьми с очень плавными и естественными переходами между персонажами, без резких границ или следов сращивания.

Требования к конфигурацииПо сравнению с Hallo, LivePortrait имеет более низкие требования к аппаратному обеспечению, обеспечивая при этом отличные результаты генерации. По моим оценкам, GPU с 8 ГБ оперативной памяти может работать с ним без проблем, а GPU с 6 ГБ оперативной памяти - с трудом. Для создания 1-минутного видео с цифровым человеком требуется около 10-20 минут.

6. EchoMimic: двойной диск аудио и видео, более реалистичный и естественный

Традиционные цифровые технологии работы с людьми основаны либо на использовании звука, либо на использовании лицевых клавиш, каждая из которых имеет свои преимущества и недостатки. В то время как EchoMimic Вместо этого он умело сочетает эти два метода управления, чтобы добиться более реалистичного и естественного создания динамических портретов за счет двойного обучения аудио- и лицевым ключевым точкам.
你的专属数字人？六大开源数字人方案终极PK：效果对比一目了然！

Создание кейсовНа следующем рисунке показан эффект цифрового человека, сгенерированного EchoMimic. Как видите, мимика и движения тела цифрового человека, сгенерированного EchoMimic, настолько естественны и плавны, что отличить настоящего человека от подделки практически невозможно.

Требования к конфигурацииРезультаты генерации EchoMimic были значительно улучшены без существенного повышения требований к аппаратному обеспечению: GPU с 8 ГБ оперативной памяти работает без проблем. Однако время генерации немного увеличилось, и для создания 1-минутного видео с цифровым человеком требуется около 15-30 минут времени обработки.

Резюме и перспективы

Скорость развития цифровых человеческих технологий просто поражает, постоянно преодолевая границы воображения людей. Для того чтобы более наглядно показать эффект от различных усовершенствований цифровых человеческих технологий с открытым исходным кодом, автор создал сравнительную таблицу технологического прогресса:

Поскольку технологии ИИ продолжают развиваться, у нас есть основания полагать, что в будущем будут появляться все более мощные проекты цифровых людей с открытым исходным кодом. Если вам интересна технология цифровых людей и вы хотите испытать на себе ее потрясающие эффекты, то сейчас самое время сделать это. Давайте вместе понаблюдаем за процветающим развитием и безграничными возможностями технологии цифровых людей!

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Агенты второго пилота Встречи на рабочем месте: новый любовный интерес генерального директора

Новости ИИ

1 год назад

042.2K

Кризис в "тикающем" звуке, умный ИИ для обнаружения утечек воды

Новости ИИ

1 год назад

049.4K

Глубокий анализ рынка агентов стоимостью 300 миллиардов долларов с примерами из практики

Новости ИИ

1 год назад

041.8K

Поисковая система с искусственным интеллектом Perplexity собирается запустить новый браузер Comet.

Новости ИИ

1 год назад

041.9K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Ваш эксклюзивный цифровой человек? Окончательная оценка шести решений для цифровых людей с открытым исходным кодом: сравнение результатов с первого взгляда!

Цифровые люди: "горячие цыпочки" пространства ИИ

Какая технология цифрового человека с открытым исходным кодом самая лучшая? Хардкорная оценка шести проектов

1. Wav2lip: представитель первого поколения цифровых человеческих технологий

2. SadTalker: усовершенствованная программа для более естественных движений лица

3. MuseTalk: от Tencent, синхронизация губ более точная

4. Hallo: совместное производство Baidu и Fudan, ETH Zurich и Nanjing University, эффект потрясающий!

5.LivePortrait: Racer с открытым исходным кодом, многосимвольная бесшовная сшивка

6. EchoMimic: двойной диск аудио и видео, более реалистичный и естественный

Резюме и перспективы

o3 Практическая демонстрация превосходства общих моделей вывода над специализированными моделями программирования в области программирования

Baidu одумалась, и платформа Wenshin Intelligent Body Platform получит полный доступ к DeepSeek!

Похожие статьи

Агенты второго пилота Встречи на рабочем месте: новый любовный интерес генерального директора

Кризис в "тикающем" звуке, умный ИИ для обнаружения утечек воды

Глубокий анализ рынка агентов стоимостью 300 миллиардов долларов с примерами из практики

Поисковая система с искусственным интеллектом Perplexity собирается запустить новый браузер Comet.

Нет комментариев

Последние коллекции

Последние статьи

Ваш эксклюзивный цифровой человек? Окончательная оценка шести решений для цифровых людей с открытым исходным кодом: сравнение результатов с первого взгляда!

Цифровые люди: "горячие цыпочки" пространства ИИ

Какая технология цифрового человека с открытым исходным кодом самая лучшая? Хардкорная оценка шести проектов

1. Wav2lip: представитель первого поколения цифровых человеческих технологий

2. SadTalker: усовершенствованная программа для более естественных движений лица

3. MuseTalk: от Tencent, синхронизация губ более точная

4. Hallo: совместное производство Baidu и Fudan, ETH Zurich и Nanjing University, эффект потрясающий!

5.LivePortrait: Racer с открытым исходным кодом, многосимвольная бесшовная сшивка

6. EchoMimic: двойной диск аудио и видео, более реалистичный и естественный

Резюме и перспективы

o3 Практическая демонстрация превосходства общих моделей вывода над специализированными моделями программирования в области программирования

Baidu одумалась, и платформа Wenshin Intelligent Body Platform получит полный доступ к DeepSeek!

Похожие статьи

Агенты второго пилота Встречи на рабочем месте: новый любовный интерес генерального директора

Кризис в "тикающем" звуке, умный ИИ для обнаружения утечек воды

Глубокий анализ рынка агентов стоимостью 300 миллиардов долларов с примерами из практики

Поисковая система с искусственным интеллектом Perplexity собирается запустить новый браузер Comet.

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи