HeyGem: продукт с открытым исходным кодом для цифровых человеческих щипцов Heygen от Silicon Intelligence
Общее введение
HeyGem - это полностью автономный инструмент для компоновки видео для Windows, разработанный командой GuijiAI и размещенный на GitHub. Он использует передовые алгоритмы искусственного интеллекта для точного клонирования внешности и голоса пользователя, создавая реалистичные аватары, и поддерживает создание персонализированных видео, управляемых текстом или голосом. Инструмент не требует подключения к Интернету, все операции выполняются локально, чтобы обеспечить конфиденциальность и безопасность пользователя. HeyGem поддерживает многоязычный сценарий (включая английский, японский, корейский, китайский и другие восемь языков), простой и интуитивно понятный интерфейс, подходящий для пользователей без технического образования, чтобы быстро начать работу, и предоставляет открытый API, что удобно для разработчиков для расширения функциональности. Несколько месяцев назад компания Silicon Intelligence выпустила мобильную версию цифрового человека с открытым исходным кодом. DUIX: интеллектуальные цифровые люди для взаимодействия в реальном времени, поддерживающие многоплатформенное развертывание в один клик.

Официальный адрес для скачивания HeyGem: https://heygem.ai/.
Список функций
- Точное клонирование внешности и голосаТехнология искусственного интеллекта улавливает черты лица и детали голоса, создавая высокоточные аватары и голоса с поддержкой настройки параметров.
- Виртуальный образ, управляемый текстом: После ввода текста инструмент автоматически генерирует естественную речь и управляет аватаром с помощью синхронизации губ и мимических движений.
- Производство видео с использованием голоса: Создавайте динамичные видеоролики, управляя тоном и ритмом аватара с помощью голосового ввода пользователя.
- Полностью автономная работаНе требуется подключение к сети, все данные обрабатываются локально для обеспечения конфиденциальности и безопасности.
- Поддержка нескольких языков: Поддерживаются восемь языковых сценариев: английский, японский, корейский, китайский, французский, немецкий, арабский и испанский.
- Эффективный видеокомпозитинг: Интеллектуальная оптимизация синхронизации аудио и видео обеспечивает естественное соответствие между формой губ и голосом.
- Интерфейс API с открытым исходным кодом: Предоставляет API для обучения моделей и композитинга видео, с настраиваемыми функциями для разработчиков.
Использование помощи
Процесс установки
Приведенный ниже процесс установки строго соответствует официальным инструкциям с сохранением оригинального текста и адресов изображений:
Пререквизиты
- Должен быть диск D: В основном для хранения цифровых изображений и проектных данных.
- Требование к свободному пространству: более 30 ГБ
- Диск C: Используется для хранения файлов служебных изображений
- Требование к свободному пространству: более 100 ГБ
- Если у вас менее 100 ГБ свободного места, после установки Docker вы можете выбрать папку на диске с более чем 100 ГБ свободного места в указанном ниже месте:
- системные требования::
- В настоящее время поддерживается Windows 10 19042.1526 или более поздняя версия
- Рекомендуемые конфигурации::
- Процессор: Intel Core i5-13400F 13-го поколения
- Память: 32 ГБ
- Графическая карта: RTX-4070
- Убедитесь, что у вас есть видеокарта NVIDIA и что драйверы установлены правильно.
- Ссылка на загрузку драйвера NVIDIA: https://www.nvidia.cn/drivers/lookup/
- Ссылка на загрузку драйвера NVIDIA: https://www.nvidia.cn/drivers/lookup/
Установка Windows Docker
- Использование команд
wsl --list --verbose
Проверьте, установлен ли WSL. На следующем рисунке показано, что он установлен и его не нужно переустанавливать:- Команды установки WSL:
wsl --install
- Возможны сбои из-за проблем с сетью, попробуйте несколько раз.
- В процессе установки необходимо задать и запомнить новое имя пользователя и пароль.
- Команды установки WSL:
- пользоваться
wsl --update
Обновление WSL: - Загрузите Docker для Windows и выберите программу установки, соответствующую архитектуре вашего процессора.
- Этот экран свидетельствует об успешной установке:
- Запустите Docker:
- Принимает протокол и пропускает вход в систему при первом запуске:
Установка сервера
Установите следующие компоненты с помощью Docker и docker-compose:
docker-compose.yml
Файл находится в папке/deploy
Каталог.- существовать
/deploy
каталог для выполненияdocker-compose up -d
. - Терпеливо подождите (около получаса, в зависимости от скорости интернета), загрузка будет занимать около 70 Гб трафика, убедитесь, что вы используете WiFi.
- Об успехе свидетельствует появление в Docker трех сервисов:
Клиент
- Build Script
npm run build:win
После выполнения он будет находиться вdist
Создание каталогаHeyGem-1.0.0-setup.exe
. - двойной щелчок
HeyGem-1.0.0-setup.exe
Выполните установку.
Зависимости
- Nodejs 18
- Образ Docker:
docker pull guiji2025/fun-asr:1.0.1
docker pull guiji2025/fish-speech-ziming:1.0.39
docker pull guiji2025/heygem.ai:0.0.7_sdk_slim
Основные функции
1. клонирование внешности и голоса
- Подготовьте материал
- Запишите чистый голос (10-30 секунд в формате WAV) и поместите его в
D:\heygem_data\voice\data
. - Сделайте фотографию лицевой стороны с высоким разрешением и поместите ее в
D:\heygem_data\face2face
(Пути можно найти вdocker-compose.yml
(С поправкой на).
- Запишите чистый голос (10-30 секунд в формате WAV) и поместите его в
- Запуск функции клонирования
- Запустите клиент, откройте интерфейс и выберите "Обучение модели".
- Вызов API
http://127.0.0.1:18180/v1/preprocess_and_tran
, входные параметры, такие как:{ "format": ".wav", "reference_audio": "D:/heygem_data/voice/data/sample.wav", "lang": "zh" }
- Получите результаты (например, звуковую дорожку и текст) и сохраните их для последующего использования.
2. Виртуальные изображения, управляемые текстом
- текст ввода
- Выберите "Audio Synthesis" в клиентском интерфейсе и вызовите API.
http://127.0.0.1:18180/v1/invoke
, входные параметры, такие как:{ "speaker": "unique-uuid", "text": "欢迎体验 HeyGem.ai", "format": "wav", "topP": 0.7, "max_new_tokens": 1024, "chunk_length": 100, "repetition_penalty": 1.2, "temperature": 0.7, "need_asr": false, "streaming": false, "is_fixed_seed": 0, "is_norm": 0, "reference_audio": "返回的音频路径", "reference_text": "返回的文本" }
- Выберите "Audio Synthesis" в клиентском интерфейсе и вызовите API.
- Создать видео
- Использование интерфейса синтеза
http://127.0.0.1:8383/easy/submit
, входные параметры, такие как:{ "audio_url": "生成的音频路径", "video_url": "D:/heygem_data/face2face/sample.mp4", "code": "unique-uuid", "chaofen": 0, "watermark_switch": 0, "pn": 1 }
- Поинтересуйтесь, как продвигается работа:
http://127.0.0.1:8383/easy/query?code=unique-uuid
.
- Использование интерфейса синтеза
- Сохранить результаты
- После завершения видеофайл сохраняется локально по указанному пути.
3. Производство видео с использованием голоса
- записывать голос
- Запишите свой голос в клиенте или загрузите WAV-файлы прямо в
D:\heygem_data\voice\data
.
- Запишите свой голос в клиенте или загрузите WAV-файлы прямо в
- Создать видео
- Вызовите описанные выше API для композитинга аудио и видео, чтобы сгенерировать видео с аватаром и действиями.
- Предварительный просмотр и настройка
- Эффект предварительно просматривается через клиент и может быть восстановлен после настройки параметров.
Советы и рекомендации
- потребность в материалах: Фотографии должны быть равномерно освещены, а в речи не должно быть шумов.
- Поддержка нескольких языков: задается в параметрах API
lang
код соответствующего языка (например, "zh" для китайского). - Поддержка разработчиков: Справочник
src/main/service
Под кодом настраивайте функциональность.
предостережение
- Система должна удовлетворять требованиям к пространству: 100 ГБ для диска C и 30 ГБ для диска D.
- Перед установкой Docker убедитесь, что WSL включена.
- Для загрузки образа требуется 70 ГБ трафика. Рекомендуется стабильный WiFi.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...