HeyGem: продукт с открытым исходным кодом для цифровых человеческих щипцов Heygen от Silicon Intelligence

Общее введение

HeyGem - это полностью автономный инструмент для компоновки видео для Windows, разработанный командой GuijiAI и размещенный на GitHub. Он использует передовые алгоритмы искусственного интеллекта для точного клонирования внешности и голоса пользователя, создавая реалистичные аватары, и поддерживает создание персонализированных видео, управляемых текстом или голосом. Инструмент не требует подключения к Интернету, все операции выполняются локально, чтобы обеспечить конфиденциальность и безопасность пользователя. HeyGem поддерживает многоязычный сценарий (включая английский, японский, корейский, китайский и другие восемь языков), простой и интуитивно понятный интерфейс, подходящий для пользователей без технического образования, чтобы быстро начать работу, и предоставляет открытый API, что удобно для разработчиков для расширения функциональности. Несколько месяцев назад компания Silicon Intelligence выпустила мобильную версию цифрового человека с открытым исходным кодом. DUIX: интеллектуальные цифровые люди для взаимодействия в реальном времени, поддерживающие многоплатформенное развертывание в один клик.

HeyGem:硅基智能开源的 Heygen 数字人平替产品

Официальный адрес для скачивания HeyGem: https://heygem.ai/.

 

Список функций

  • Точное клонирование внешности и голосаТехнология искусственного интеллекта улавливает черты лица и детали голоса, создавая высокоточные аватары и голоса с поддержкой настройки параметров.
  • Виртуальный образ, управляемый текстом: После ввода текста инструмент автоматически генерирует естественную речь и управляет аватаром с помощью синхронизации губ и мимических движений.
  • Производство видео с использованием голоса: Создавайте динамичные видеоролики, управляя тоном и ритмом аватара с помощью голосового ввода пользователя.
  • Полностью автономная работаНе требуется подключение к сети, все данные обрабатываются локально для обеспечения конфиденциальности и безопасности.
  • Поддержка нескольких языков: Поддерживаются восемь языковых сценариев: английский, японский, корейский, китайский, французский, немецкий, арабский и испанский.
  • Эффективный видеокомпозитинг: Интеллектуальная оптимизация синхронизации аудио и видео обеспечивает естественное соответствие между формой губ и голосом.
  • Интерфейс API с открытым исходным кодом: Предоставляет API для обучения моделей и композитинга видео, с настраиваемыми функциями для разработчиков.

 

Использование помощи

Процесс установки

Приведенный ниже процесс установки строго соответствует официальным инструкциям с сохранением оригинального текста и адресов изображений:

Пререквизиты

  1. Должен быть диск D: В основном для хранения цифровых изображений и проектных данных.
    • Требование к свободному пространству: более 30 ГБ
  2. Диск C: Используется для хранения файлов служебных изображений
    • Требование к свободному пространству: более 100 ГБ
    • Если у вас менее 100 ГБ свободного места, после установки Docker вы можете выбрать папку на диске с более чем 100 ГБ свободного места в указанном ниже месте:
      HeyGem:硅基智能开源的 Heygen 数字人平替产品
  3. системные требования::
    • В настоящее время поддерживается Windows 10 19042.1526 или более поздняя версия
  4. Рекомендуемые конфигурации::
    • Процессор: Intel Core i5-13400F 13-го поколения
    • Память: 32 ГБ
    • Графическая карта: RTX-4070
  5. Убедитесь, что у вас есть видеокарта NVIDIA и что драйверы установлены правильно.
    • Ссылка на загрузку драйвера NVIDIA: https://www.nvidia.cn/drivers/lookup/
      HeyGem:硅基智能开源的 Heygen 数字人平替产品

Установка Windows Docker

  1. Использование команд wsl --list --verbose Проверьте, установлен ли WSL. На следующем рисунке показано, что он установлен и его не нужно переустанавливать:
    HeyGem:硅基智能开源的 Heygen 数字人平替产品

    • Команды установки WSL:wsl --install
    • Возможны сбои из-за проблем с сетью, попробуйте несколько раз.
    • В процессе установки необходимо задать и запомнить новое имя пользователя и пароль.
  2. пользоваться wsl --update Обновление WSL:
    HeyGem:硅基智能开源的 Heygen 数字人平替产品
  3. Загрузите Docker для Windows и выберите программу установки, соответствующую архитектуре вашего процессора.
  4. Этот экран свидетельствует об успешной установке:
    HeyGem:硅基智能开源的 Heygen 数字人平替产品
  5. Запустите Docker:
    HeyGem:硅基智能开源的 Heygen 数字人平替产品
  6. Принимает протокол и пропускает вход в систему при первом запуске:
    HeyGem:硅基智能开源的 Heygen 数字人平替产品
    HeyGem:硅基智能开源的 Heygen 数字人平替产品
    HeyGem:硅基智能开源的 Heygen 数字人平替产品

Установка сервера

Установите следующие компоненты с помощью Docker и docker-compose:

  1. docker-compose.yml Файл находится в папке /deploy Каталог.
  2. существовать /deploy каталог для выполнения docker-compose up -d.
  3. Терпеливо подождите (около получаса, в зависимости от скорости интернета), загрузка будет занимать около 70 Гб трафика, убедитесь, что вы используете WiFi.
  4. Об успехе свидетельствует появление в Docker трех сервисов:
    HeyGem:硅基智能开源的 Heygen 数字人平替产品

Клиент

  1. Build Script npm run build:winПосле выполнения он будет находиться в dist Создание каталога HeyGem-1.0.0-setup.exe.
  2. двойной щелчок HeyGem-1.0.0-setup.exe Выполните установку.

Зависимости

  1. Nodejs 18
  2. Образ Docker:
    • docker pull guiji2025/fun-asr:1.0.1
    • docker pull guiji2025/fish-speech-ziming:1.0.39
    • docker pull guiji2025/heygem.ai:0.0.7_sdk_slim

Основные функции

1. клонирование внешности и голоса

  • Подготовьте материал
    • Запишите чистый голос (10-30 секунд в формате WAV) и поместите его в D:\heygem_data\voice\data.
    • Сделайте фотографию лицевой стороны с высоким разрешением и поместите ее в D:\heygem_data\face2face(Пути можно найти в docker-compose.yml (С поправкой на).
  • Запуск функции клонирования
    • Запустите клиент, откройте интерфейс и выберите "Обучение модели".
    • Вызов API http://127.0.0.1:18180/v1/preprocess_and_tran, входные параметры, такие как:
      {
      "format": ".wav",
      "reference_audio": "D:/heygem_data/voice/data/sample.wav",
      "lang": "zh"
      }
      
    • Получите результаты (например, звуковую дорожку и текст) и сохраните их для последующего использования.

2. Виртуальные изображения, управляемые текстом

  • текст ввода
    • Выберите "Audio Synthesis" в клиентском интерфейсе и вызовите API. http://127.0.0.1:18180/v1/invoke, входные параметры, такие как:
      {
      "speaker": "unique-uuid",
      "text": "欢迎体验 HeyGem.ai",
      "format": "wav",
      "topP": 0.7,
      "max_new_tokens": 1024,
      "chunk_length": 100,
      "repetition_penalty": 1.2,
      "temperature": 0.7,
      "need_asr": false,
      "streaming": false,
      "is_fixed_seed": 0,
      "is_norm": 0,
      "reference_audio": "返回的音频路径",
      "reference_text": "返回的文本"
      }
      
  • Создать видео
    • Использование интерфейса синтеза http://127.0.0.1:8383/easy/submit, входные параметры, такие как:
      {
      "audio_url": "生成的音频路径",
      "video_url": "D:/heygem_data/face2face/sample.mp4",
      "code": "unique-uuid",
      "chaofen": 0,
      "watermark_switch": 0,
      "pn": 1
      }
      
    • Поинтересуйтесь, как продвигается работа:http://127.0.0.1:8383/easy/query?code=unique-uuid.
  • Сохранить результаты
    • После завершения видеофайл сохраняется локально по указанному пути.

3. Производство видео с использованием голоса

  • записывать голос
    • Запишите свой голос в клиенте или загрузите WAV-файлы прямо в D:\heygem_data\voice\data.
  • Создать видео
    • Вызовите описанные выше API для композитинга аудио и видео, чтобы сгенерировать видео с аватаром и действиями.
  • Предварительный просмотр и настройка
    • Эффект предварительно просматривается через клиент и может быть восстановлен после настройки параметров.

Советы и рекомендации

  • потребность в материалах: Фотографии должны быть равномерно освещены, а в речи не должно быть шумов.
  • Поддержка нескольких языков: задается в параметрах API lang код соответствующего языка (например, "zh" для китайского).
  • Поддержка разработчиков: Справочник src/main/service Под кодом настраивайте функциональность.

предостережение

  • Система должна удовлетворять требованиям к пространству: 100 ГБ для диска C и 30 ГБ для диска D.
  • Перед установкой Docker убедитесь, что WSL включена.
  • Для загрузки образа требуется 70 ГБ трафика. Рекомендуется стабильный WiFi.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...