HeyGem：シリコン・インテリジェンスのオープンソースHeygenデジタル・ヒューマン・ピンクッション製品

3.1K 00

はじめに

HeyGemは、GuijiAIチームによって開発され、GitHubでオープンソース化されたWindows用の完全オフラインのビデオ合成ツールです。高度なAIアルゴリズムを使用して、ユーザーの外見と声を正確にクローンしてリアルなアバターを作成し、テキストや音声によってパーソナライズされたビデオの作成をサポートします。このツールはインターネットに接続する必要がなく、すべての操作はユーザーのプライバシーとセキュリティを確保するためにローカルで行われる。 HeyGemは多言語スクリプト（英語、日本語、韓国語、中国語、その他の8言語を含む）をサポートし、シンプルで直感的なインターフェイスは、技術的なバックグラウンドを持たないユーザーがすぐに使い始めるのに適しており、開発者が機能を拡張するのに便利なオープンAPIを提供している。数ヶ月前、シリコン・インテリジェンスのオープンソース・モバイル版デジタル・パーソン DUIX: リアルタイムのインタラクションを実現するインテリジェントなデジタルピープル、マルチプラットフォームのワンクリック導入をサポート.

HeyGem公式ダウンロードアドレス：https://heygem.ai/

機能一覧

正確な外見と声のクローニングAIテクノロジーは、顔の特徴や声のディテールをとらえ、忠実度の高いアバターと声を生成し、パラメーターの調整もサポートします。
テキスト主導の仮想イメージテキストが入力されると、ツールは自動的に自然な音声を生成し、リップシンクや表情の動きによってアバターを動かします。
ボイス・ドリブン・ビデオ制作ユーザーの音声入力によってアバターのトーンやリズムをコントロールし、ダイナミックな動画を生成します。
完全オフライン操作ネットワーク接続は不要で、すべてのデータはプライバシーとセキュリティのためにローカルで処理されます。
多言語サポート英語、日本語、韓国語、中国語、フランス語、ドイツ語、アラビア語、スペイン語の8言語に対応。
効率的なビデオ合成音声と映像の同期をインテリジェントに最適化することで、唇の形と声の自然なマッチングを実現します。
オープンソースAPIインターフェース開発者向けにカスタマイズ可能な機能を備えた、モデルトレーニングとビデオ合成のためのAPIを提供します。

ヘルプの使用

設置プロセス

以下のインストール手順は、オリジナルのテキストと画像のアドレスを保持したまま、公式の指示に厳密に従います：

前提条件

ディスクD必須主にデジタル画像やプロジェクトデータの保存用
- 必要な空き容量：30GB以上
Cディスクサービス・イメージ・ファイルの保存に使用
- 必要な空き容量：100GB以上
- 空き容量が100GB未満の場合は、Dockerをインストールした後、100GB以上の空き容量があるディスク上の以下の場所にあるフォルダを選択してください：
システム要件::
- 現在、Windows 10 19042.1526以降をサポートしています。
推奨構成::
- CPU：第13世代インテル Core i5-13400F
- メモリー：32GB
- グラフィックカード：RTX-4070
NVIDIAグラフィックカードがあり、ドライバが正しくインストールされていることを確認してください。
- NVIDIAドライバダウンロードリンク：https://www.nvidia.cn/drivers/lookup/

Windows Dockerのインストール

コマンドの使用 wsl --list --verbose WSLがインストールされていることを確認する。下図はインストールされていることを示しており、再インストールの必要はない：
- WSL インストールコマンド：wsl --install
- ネットワークの問題で失敗することがあります。
- インストール時に新しいユーザー名とパスワードの設定と保存が必要です。
利用する wsl --update WSLを更新：
Windows用のDockerをダウンロードし、お使いのCPUアーキテクチャに合ったインストーラーを選択する。
この画面は正常にインストールされたことを示します：
Dockerを実行する：
初回実行時にプロトコルを受け入れ、ログインをスキップする：

サーバーのインストール

Dockerとdocker-composeを使って以下をインストールする：

docker-compose.yml このファイルは /deploy カタログ
ある /deploy ディレクトリで実行する。 docker-compose up -d.
ダウンロードには約70GBの通信量がかかりますので、必ずWiFiをご利用ください。
Dockerに3つのサービスが表示されれば成功だ：

クライアント

ビルドスクリプト npm run build:win実行後は dist カタログ作成 HeyGem-1.0.0-setup.exe.
ダブルクリック HeyGem-1.0.0-setup.exe インストールを実行する。

依存関係

Nodejs 18
Dockerイメージ：
- docker pull guiji2025/fun-asr:1.0.1
- docker pull guiji2025/fish-speech-ziming:1.0.39
- docker pull guiji2025/heygem.ai:0.0.7_sdk_slim

主な機能

1.外見と声のクローン

材料の準備
- 明瞭な音声を録音し（WAV形式で10～30秒）、それを D:\heygem_data\voice\data.
- 正面の高解像度の写真を撮り、それを D:\heygem_data\face2face(パスは docker-compose.yml (で調整）。
クローン機能の実行
- クライアントを起動し、インターフェイスを開いて「モデルトレーニング」を選択します。
- APIの呼び出し http://127.0.0.1:18180/v1/preprocess_and_tranなどの入力パラメータがある：
```
{
"format": ".wav",
"reference_audio": "D:/heygem_data/voice/data/sample.wav",
"lang": "zh"
}
```
- 返された結果（オーディオパスやテキストなど）を取得し、後で使用するために保存します。

2.テキスト主導の仮想イメージ

入力テキスト

クライアント・インターフェースで "Audio Synthesis "を選択し、APIを呼び出す。 http://127.0.0.1:18180/v1/invokeなどの入力パラメータがある：

{
"speaker": "unique-uuid",
"text": "欢迎体验 HeyGem.ai",
"format": "wav",
"topP": 0.7,
"max_new_tokens": 1024,
"chunk_length": 100,
"repetition_penalty": 1.2,
"temperature": 0.7,
"need_asr": false,
"streaming": false,
"is_fixed_seed": 0,
"is_norm": 0,
"reference_audio": "返回的音频路径",
"reference_text": "返回的文本"
}

ビデオの作成
- 合成インターフェースを使う http://127.0.0.1:8383/easy/submitなどの入力パラメータがある：
```
{
"audio_url": "生成的音频路径",
"video_url": "D:/heygem_data/face2face/sample.mp4",
"code": "unique-uuid",
"chaofen": 0,
"watermark_switch": 0,
"pn": 1
}
```
- 進捗状況を問い合わせるhttp://127.0.0.1:8383/easy/query?code=unique-uuid.
結果を保存
- 終了すると、ビデオファイルは指定したパスにローカルに保存されます。

3.ボイス・ドリブン・ビデオ制作

レコード音声
- クライアントであなたの声を録音するか、WAVファイルを直接 D:\heygem_data\voice\data.
ビデオの作成
- 上記のオーディオおよびビデオ合成APIを呼び出して、アクション付きのアバター・ビデオを生成します。
プレビューと調整
- エフェクトはクライアントを介してプレビューされ、パラメータを調整した後に再生成することができます。

ヒントとコツ

材料要件写真には均一な光が必要だし、スピーチにはノイズが必要だ。
多言語サポートAPIパラメータで設定 lang は対応する言語コード（例えば中国語なら "zh"）。
開発者サポート参考 src/main/service コードの下で、機能をカスタマイズする。

ほら

システムには、Cドライブに100GB、Dドライブに30GBの空き容量が必要です。
Dockerをインストールする前に、WSLが有効になっていることを確認する。
イメージのダウンロードには70GBの通信量が必要です。安定したWiFiを推奨します。

文章版权归 AIシェアリングサークル所有，未经允许请勿转载。

Circumference Travel - パーソナライズされた旅程を自動生成するAI旅行計画アプリ

最新のAIリソース

1ヶ月前

01.4K

Hika AI: 深い洞察とインテリジェントなナレッジグラフを提供する無料のAI検索エンジン

最新のAIリソース # AI検索ツール

8ヶ月前

01.9K

Sync：AIビデオマウス同期ツールのオンライン多言語サポート（オンラインWav2Lip）

最新のAIリソース #ポート同期

8ヶ月前

02.8K

LlamaCoder: プロンプトワードを使って小さなウェブアプリケーションを素早く生成・公開

8ヶ月前

03.8K

コメントなし

コメントに参加するにはログインが必要です！

今すぐログイン

コメントはありません

HeyGem：シリコン・インテリジェンスのオープンソースHeygenデジタル・ヒューマン・ピンクッション製品

はじめに

機能一覧

ヘルプの使用

設置プロセス

前提条件

Windows Dockerのインストール

サーバーのインストール

クライアント

依存関係

主な機能

1.外見と声のクローン

2.テキスト主導の仮想イメージ

3.ボイス・ドリブン・ビデオ制作

ヒントとコツ

ほら

NGCBot：ニュースプッシュ、AI対話、グループチャット管理のためのWeChatボット

複数の大型モデルが人狼推理ゲームで競い合い、誰が最高の推理力を持っているかをテストする様子をご覧ください！

関連記事

Circumference Travel - パーソナライズされた旅程を自動生成するAI旅行計画アプリ

Hika AI: 深い洞察とインテリジェントなナレッジグラフを提供する無料のAI検索エンジン

Sync：AIビデオマウス同期ツールのオンライン多言語サポート（オンラインWav2Lip）

LlamaCoder: プロンプトワードを使って小さなウェブアプリケーションを素早く生成・公開

コメントなし

最新コレクション

最新記事

HeyGem：シリコン・インテリジェンスのオープンソースHeygenデジタル・ヒューマン・ピンクッション製品

はじめに

機能一覧

ヘルプの使用

設置プロセス

前提条件

Windows Dockerのインストール

サーバーのインストール

クライアント

依存関係

主な機能

1.外見と声のクローン

2.テキスト主導の仮想イメージ

3.ボイス・ドリブン・ビデオ制作

ヒントとコツ

ほら

NGCBot：ニュースプッシュ、AI対話、グループチャット管理のためのWeChatボット

複数の大型モデルが人狼推理ゲームで競い合い、誰が最高の推理力を持っているかをテストする様子をご覧ください！

関連記事

Circumference Travel - パーソナライズされた旅程を自動生成するAI旅行計画アプリ

Hika AI: 深い洞察とインテリジェントなナレッジグラフを提供する無料のAI検索エンジン

Sync：AIビデオマウス同期ツールのオンライン多言語サポート（オンラインWav2Lip）

LlamaCoder: プロンプトワードを使って小さなウェブアプリケーションを素早く生成・公開

コメントなし

厳選されたAIツール

最新コレクション

最新記事