HeyGem: продукт с открытым исходным кодом для цифровых человеческих щипцов Heygen от Silicon Intelligence

Последние ресурсы по искусственному интеллектуОбновлено 10 месяцев назад Круг обмена ИИ

132.4K 00

Общее введение

HeyGem - это полностью автономный инструмент для компоновки видео для Windows, разработанный командой GuijiAI и размещенный на GitHub. Он использует передовые алгоритмы искусственного интеллекта для точного клонирования внешности и голоса пользователя, создавая реалистичные аватары, и поддерживает создание персонализированных видео, управляемых текстом или голосом. Инструмент не требует подключения к Интернету, все операции выполняются локально, чтобы обеспечить конфиденциальность и безопасность пользователя. HeyGem поддерживает многоязычный сценарий (включая английский, японский, корейский, китайский и другие восемь языков), простой и интуитивно понятный интерфейс, подходящий для пользователей без технического образования, чтобы быстро начать работу, и предоставляет открытый API, что удобно для разработчиков для расширения функциональности. Несколько месяцев назад компания Silicon Intelligence выпустила мобильную версию цифрового человека с открытым исходным кодом. DUIX: интеллектуальные цифровые люди для взаимодействия в реальном времени, поддерживающие многоплатформенное развертывание в один клик.

Официальный адрес для скачивания HeyGem: https://heygem.ai/.

Список функций

Точное клонирование внешности и голосаТехнология искусственного интеллекта улавливает черты лица и детали голоса, создавая высокоточные аватары и голоса с поддержкой настройки параметров.
Виртуальный образ, управляемый текстом: После ввода текста инструмент автоматически генерирует естественную речь и управляет аватаром с помощью синхронизации губ и мимических движений.
Производство видео с использованием голоса: Создавайте динамичные видеоролики, управляя тоном и ритмом аватара с помощью голосового ввода пользователя.
Полностью автономная работаНе требуется подключение к сети, все данные обрабатываются локально для обеспечения конфиденциальности и безопасности.
Поддержка нескольких языков: Поддерживаются восемь языковых сценариев: английский, японский, корейский, китайский, французский, немецкий, арабский и испанский.
Эффективный видеокомпозитинг: Интеллектуальная оптимизация синхронизации аудио и видео обеспечивает естественное соответствие между формой губ и голосом.
Интерфейс API с открытым исходным кодом: Предоставляет API для обучения моделей и композитинга видео, с настраиваемыми функциями для разработчиков.

Использование помощи

Процесс установки

Приведенный ниже процесс установки строго соответствует официальным инструкциям с сохранением оригинального текста и адресов изображений:

Пререквизиты

Должен быть диск D: В основном для хранения цифровых изображений и проектных данных.
- Требование к свободному пространству: более 30 ГБ
Диск C: Используется для хранения файлов служебных изображений
- Требование к свободному пространству: более 100 ГБ
- Если у вас менее 100 ГБ свободного места, после установки Docker вы можете выбрать папку на диске с более чем 100 ГБ свободного места в указанном ниже месте:
системные требования::
- В настоящее время поддерживается Windows 10 19042.1526 или более поздняя версия
Рекомендуемые конфигурации::
- Процессор: Intel Core i5-13400F 13-го поколения
- Память: 32 ГБ
- Графическая карта: RTX-4070
Убедитесь, что у вас есть видеокарта NVIDIA и что драйверы установлены правильно.
- Ссылка на загрузку драйвера NVIDIA: https://www.nvidia.cn/drivers/lookup/

Установка Windows Docker

Использование команд wsl --list --verbose Проверьте, установлен ли WSL. На следующем рисунке показано, что он установлен и его не нужно переустанавливать:
- Команды установки WSL:wsl --install
- Возможны сбои из-за проблем с сетью, попробуйте несколько раз.
- В процессе установки необходимо задать и запомнить новое имя пользователя и пароль.
пользоваться wsl --update Обновление WSL:
Загрузите Docker для Windows и выберите программу установки, соответствующую архитектуре вашего процессора.
Этот экран свидетельствует об успешной установке:
Запустите Docker:
Принимает протокол и пропускает вход в систему при первом запуске:

Установка сервера

Установите следующие компоненты с помощью Docker и docker-compose:

docker-compose.yml Файл находится в папке /deploy Каталог.
существовать /deploy каталог для выполнения docker-compose up -d.
Терпеливо подождите (около получаса, в зависимости от скорости интернета), загрузка будет занимать около 70 Гб трафика, убедитесь, что вы используете WiFi.
Об успехе свидетельствует появление в Docker трех сервисов:

Клиент

Build Script npm run build:winПосле выполнения он будет находиться в dist Создание каталога HeyGem-1.0.0-setup.exe.
двойной щелчок HeyGem-1.0.0-setup.exe Выполните установку.

Зависимости

Nodejs 18
Образ Docker:
- docker pull guiji2025/fun-asr:1.0.1
- docker pull guiji2025/fish-speech-ziming:1.0.39
- docker pull guiji2025/heygem.ai:0.0.7_sdk_slim

Основные функции

1. клонирование внешности и голоса

Подготовьте материал
- Запишите чистый голос (10-30 секунд в формате WAV) и поместите его в D:\heygem_data\voice\data.
- Сделайте фотографию лицевой стороны с высоким разрешением и поместите ее в D:\heygem_data\face2face(Пути можно найти в docker-compose.yml (С поправкой на).
Запуск функции клонирования
- Запустите клиент, откройте интерфейс и выберите "Обучение модели".
- Вызов API http://127.0.0.1:18180/v1/preprocess_and_tran, входные параметры, такие как:
```
{
"format": ".wav",
"reference_audio": "D:/heygem_data/voice/data/sample.wav",
"lang": "zh"
}
```
- Получите результаты (например, звуковую дорожку и текст) и сохраните их для последующего использования.

2. Виртуальные изображения, управляемые текстом

текст ввода

Выберите "Audio Synthesis" в клиентском интерфейсе и вызовите API. http://127.0.0.1:18180/v1/invoke, входные параметры, такие как:

{
"speaker": "unique-uuid",
"text": "欢迎体验 HeyGem.ai",
"format": "wav",
"topP": 0.7,
"max_new_tokens": 1024,
"chunk_length": 100,
"repetition_penalty": 1.2,
"temperature": 0.7,
"need_asr": false,
"streaming": false,
"is_fixed_seed": 0,
"is_norm": 0,
"reference_audio": "返回的音频路径",
"reference_text": "返回的文本"
}

Создать видео
- Использование интерфейса синтеза http://127.0.0.1:8383/easy/submit, входные параметры, такие как:
```
{
"audio_url": "生成的音频路径",
"video_url": "D:/heygem_data/face2face/sample.mp4",
"code": "unique-uuid",
"chaofen": 0,
"watermark_switch": 0,
"pn": 1
}
```
- Поинтересуйтесь, как продвигается работа:http://127.0.0.1:8383/easy/query?code=unique-uuid.
Сохранить результаты
- После завершения видеофайл сохраняется локально по указанному пути.

3. Производство видео с использованием голоса

записывать голос
- Запишите свой голос в клиенте или загрузите WAV-файлы прямо в D:\heygem_data\voice\data.
Создать видео
- Вызовите описанные выше API для композитинга аудио и видео, чтобы сгенерировать видео с аватаром и действиями.
Предварительный просмотр и настройка
- Эффект предварительно просматривается через клиент и может быть восстановлен после настройки параметров.

Советы и рекомендации

потребность в материалах: Фотографии должны быть равномерно освещены, а в речи не должно быть шумов.
Поддержка нескольких языков: задается в параметрах API lang код соответствующего языка (например, "zh" для китайского).
Поддержка разработчиков: Справочник src/main/service Под кодом настраивайте функциональность.

предостережение

Система должна удовлетворять требованиям к пространству: 100 ГБ для диска C и 30 ГБ для диска D.
Перед установкой Docker убедитесь, что WSL включена.
Для загрузки образа требуется 70 ГБ трафика. Рекомендуется стабильный WiFi.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI Digital Man

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

TestDriver: интеллектуальный инструмент для автоматизации тестирования программного обеспечения с помощью искусственного интеллекта

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct

1 год назад

053.9K

Recraft：专业图像画布，多类细分模型，Recraft V3模型|矢量图|3D图像|插画|图像转SVG

Recraft: профессиональный холст для изображений, многоклассовые сегментированные модели, Recraft V3 Models | Vector Graphics | 3D Images | Illustrations | Images to SVG

Последние ресурсы по искусственному интеллекту # AI Image Style Control # AI онлайн генерация изображений # AI Canvas

1 год назад

055.2K

Recraft V3: усовершенствованный генератор изображений AI с поддержкой ввода длинного текста

Последние ресурсы по искусственному интеллекту # AI Open Services

1 год назад

053.2K

SongBloom - модель генерации песен с открытым исходным кодом от Tencent в сотрудничестве с HKCS и NTU

Последние ресурсы по искусственному интеллекту

6 месяцев назад

036.6K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

HeyGem: продукт с открытым исходным кодом для цифровых человеческих щипцов Heygen от Silicon Intelligence

Общее введение

Список функций