AIパーソナル・ラーニング
と実践的なガイダンス
ビーンバッグ・マースコード1

HeyGem:シリコン・インテリジェンスのオープンソースHeygenデジタル・ヒューマン・ピンクッション製品

はじめに

HeyGemは、GuijiAIチームによって開発され、GitHubでオープンソース化されたWindows用の完全オフラインのビデオ合成ツールです。高度なAIアルゴリズムを使用して、ユーザーの外見と声を正確にクローンしてリアルなアバターを作成し、テキストや音声によってパーソナライズされたビデオの作成をサポートします。このツールはインターネットに接続する必要がなく、すべての操作はユーザーのプライバシーとセキュリティを確保するためにローカルで行われる。 HeyGemは多言語スクリプト(英語、日本語、韓国語、中国語、その他の8言語を含む)をサポートし、シンプルで直感的なインターフェイスは、技術的なバックグラウンドを持たないユーザーがすぐに使い始めるのに適しており、開発者が機能を拡張するのに便利なオープンAPIを提供している。数ヶ月前、シリコン・インテリジェンスのオープンソース・モバイル版デジタル・パーソン DUIX: リアルタイムのインタラクションを実現するインテリジェントなデジタルピープル、マルチプラットフォームのワンクリック導入をサポート.

HeyGem:シリコン・インテリジェンスのオープンソースHeygenデジタル・ヒューマン・ピンクッション・プロジェクト-1

HeyGem公式ダウンロードアドレス:https://heygem.ai/


 

機能一覧

  • 正確な外見と声のクローニングAIテクノロジーは、顔の特徴や声のディテールをとらえ、忠実度の高いアバターと声を生成し、パラメーターの調整もサポートします。
  • テキスト主導の仮想イメージテキストが入力されると、ツールは自動的に自然な音声を生成し、リップシンクや表情の動きによってアバターを動かします。
  • ボイス・ドリブン・ビデオ制作ユーザーの音声入力によってアバターのトーンやリズムをコントロールし、ダイナミックな動画を生成します。
  • 完全オフライン操作ネットワーク接続は不要で、すべてのデータはプライバシーとセキュリティのためにローカルで処理されます。
  • 多言語サポート英語、日本語、韓国語、中国語、フランス語、ドイツ語、アラビア語、スペイン語の8言語に対応。
  • 効率的なビデオ合成音声と映像の同期をインテリジェントに最適化することで、唇の形と声の自然なマッチングを実現します。
  • オープンソースAPIインターフェース開発者向けにカスタマイズ可能な機能を備えた、モデルトレーニングとビデオ合成のためのAPIを提供します。

 

ヘルプの使用

設置プロセス

以下のインストール手順は、オリジナルのテキストと画像のアドレスを保持したまま、公式の指示に厳密に従います:

前提条件

  1. ディスクD必須主にデジタル画像やプロジェクトデータの保存用
    • 必要な空き容量:30GB以上
  2. Cディスクサービス・イメージ・ファイルの保存に使用
    • 必要な空き容量:100GB以上
    • 空き容量が100GB未満の場合は、Dockerをインストールした後、100GB以上の空き容量があるディスク上の以下の場所にあるフォルダを選択してください:
      HeyGem:デジタルピープルのためのHeygenオープンソースピントプロジェクト-1
  3. システム要件::
    • 現在、Windows 10 19042.1526以降をサポートしています。
  4. 推奨構成::
    • CPU:第13世代インテル Core i5-13400F
    • メモリー:32GB
    • グラフィックカード:RTX-4070
  5. NVIDIAグラフィックカードがあり、ドライバが正しくインストールされていることを確認してください。
    • NVIDIAドライバダウンロードリンク:https://www.nvidia.cn/drivers/lookup/
      HeyGem: デジタルピープルのためのHeygenオープンソースピントプロジェクト -2

Windows Dockerのインストール

  1. コマンドの使用 wsl --list --verbose WSLがインストールされていることを確認する。下図はインストールされていることを示しており、再インストールの必要はない:
    HeyGem:デジタルピープルのためのHeygenオープンソースピントプロジェクト-3

    • WSL インストールコマンド:wsl --install
    • ネットワークの問題で失敗することがあります。
    • インストール時に新しいユーザー名とパスワードの設定と保存が必要です。
  2. 利用する wsl --update WSLを更新:
    HeyGem:デジタルピープルのためのHeygenオープンソースピントプロジェクト-4
  3. Windows用のDockerをダウンロードし、お使いのCPUアーキテクチャに合ったインストーラーを選択する。
  4. この画面は正常にインストールされたことを示します:
    HeyGem: デジタルピープルのためのHeygenオープンソースピントプロジェクト -5
  5. Dockerを実行する:
    HeyGem:デジタルピープルのためのHeygenオープンソースピントプロジェクト - 6
  6. 初回実行時にプロトコルを受け入れ、ログインをスキップする:
    HeyGem:デジタルピープルのためのHeygenオープンソースピントプロジェクト-7
    HeyGem:デジタルピープルのためのHeygenオープンソースピントプロジェクト -8
    HeyGem:デジタルピープル9のためのヘイゲン・オープンソース・ピント・プロジェクト

サーバーのインストール

Dockerとdocker-composeを使って以下をインストールする:

  1. docker-compose.yml このファイルは /deploy カタログ
  2. ある /deploy ディレクトリで実行する。 docker-compose up -d.
  3. ダウンロードには約70GBの通信量がかかりますので、必ずWiFiをご利用ください。
  4. Dockerに3つのサービスが表示されれば成功だ:
    HeyGem: デジタルピープルのためのHeygenオープンソースピントプロジェクト-10

クライアント

  1. ビルドスクリプト npm run build:win実行後は dist カタログ作成 HeyGem-1.0.0-setup.exe.
  2. ダブルクリック HeyGem-1.0.0-setup.exe インストールを実行する。

依存関係

  1. Nodejs 18
  2. Dockerイメージ:
    • docker pull guiji2025/fun-asr:1.0.1
    • docker pull guiji2025/fish-speech-ziming:1.0.39
    • docker pull guiji2025/heygem.ai:0.0.7_sdk_slim

主な機能

1.外見と声のクローン

  • 材料の準備
    • 明瞭な音声を録音し(WAV形式で10~30秒)、それを D:\heygem_data\voice\data.
    • 正面の高解像度の写真を撮り、それを D:\heygem_data\face2face(パスは docker-compose.yml (で調整)。
  • クローン機能の実行
    • クライアントを起動し、インターフェイスを開いて「モデルトレーニング」を選択します。
    • APIの呼び出し http://127.0.0.1:18180/v1/preprocess_and_tranなどの入力パラメータがある:
      {
      "format": ".wav",
      "reference_audio": "D:/heygem_data/voice/data/sample.wav",
      "lang": "zh"
      }
      
    • 返された結果(オーディオパスやテキストなど)を取得し、後で使用するために保存します。

2.テキスト主導の仮想イメージ

  • 入力テキスト
    • クライアント・インターフェースで "Audio Synthesis "を選択し、APIを呼び出す。 http://127.0.0.1:18180/v1/invokeなどの入力パラメータがある:
      {
      "speaker": "unique-uuid",
      "text": "欢迎体验 HeyGem.ai",
      "format": "wav",
      "topP": 0.7,
      "max_new_tokens": 1024,
      "chunk_length": 100,
      "repetition_penalty": 1.2,
      "temperature": 0.7,
      "need_asr": false,
      "streaming": false,
      "is_fixed_seed": 0,
      "is_norm": 0,
      "reference_audio": "返回的音频路径",
      "reference_text": "返回的文本"
      }
      
  • ビデオの作成
    • 合成インターフェースを使う http://127.0.0.1:8383/easy/submitなどの入力パラメータがある:
      {
      "audio_url": "生成的音频路径",
      "video_url": "D:/heygem_data/face2face/sample.mp4",
      "code": "unique-uuid",
      "chaofen": 0,
      "watermark_switch": 0,
      "pn": 1
      }
      
    • 進捗状況を問い合わせるhttp://127.0.0.1:8383/easy/query?code=unique-uuid.
  • 結果を保存
    • 終了すると、ビデオファイルは指定したパスにローカルに保存されます。

3.ボイス・ドリブン・ビデオ制作

  • レコード音声
    • クライアントであなたの声を録音するか、WAVファイルを直接 D:\heygem_data\voice\data.
  • ビデオの作成
    • 上記のオーディオおよびビデオ合成APIを呼び出して、アクション付きのアバター・ビデオを生成します。
  • プレビューと調整
    • エフェクトはクライアントを介してプレビューされ、パラメータを調整した後に再生成することができます。

ヒントとコツ

  • 材料要件写真には均一な光が必要だし、スピーチにはノイズが必要だ。
  • 多言語サポートAPIパラメータで設定 lang は対応する言語コード(例えば中国語なら "zh")。
  • 開発者サポート参考 src/main/service コードの下で、機能をカスタマイズする。

ほら

  • システムには、Cドライブに100GB、Dドライブに30GBの空き容量が必要です。
  • Dockerをインストールする前に、WSLが有効になっていることを確認する。
  • イメージのダウンロードには70GBの通信量が必要です。 安定したWiFiを推奨します。
無断転載を禁じます:チーフAIシェアリングサークル " HeyGem:シリコン・インテリジェンスのオープンソースHeygenデジタル・ヒューマン・ピンクッション製品
ja日本語