はじめに
FitDiTは、Diffusion Transformersに基づいた忠実度の高いバーチャルフィッティングシステムである。Tencent AI Labによって開発されたこのプロジェクトは、従来のバーチャル・フィッティング・システムが服のディテールを表示する際の限界に対処することを目的としています。FitDiTは、服の本物のディテールをより良く保持する新しいアルゴリズム・アーキテクチャを革新的に提案し、バーチャル・フィッティング効果をよりリアルにします。このプロジェクトは完全にオープンソースであり、オンラインデモ、事前学習済みモデル、完全なコード実装を提供し、学術研究や商業的事前研究のために研究者や開発者をサポートしている。本プロジェクトは、2024年11月に論文を発表し、12月にはオンラインデモ、データセット、モデルの重みを順次公開し、学術界や産業界から広く注目を集めた。
機能一覧
- 完全自動バーチャルフィッティング生成機能
- インテリジェントなフィッティング・エリア・マスク生成
- 手動マスク調整と編集ツール
- マルチ解像度のフィッティング効果をサポート
- 衣服のディテール忠実度の最適化
- オンライン・プレゼンテーション・プラットフォームのサポート(Gradioインターフェース)
- ローカル展開のサポート(複数のパフォーマンス構成に対応)
- 複合バーチャル・ドレッシング・データセット(CVDD)データセット
- 完全なモデル・トレーニングおよび推論コード
- ハギング・フェイス・モデル・ホスティングの統合
ヘルプの使用
1.オンラインアクセス
FitDiTには、オンラインで利用する2つの方法がある:
- ハギング・フェイス・スペース オンライン・デモ:https://huggingface.co/spaces/BoyuanJiang/FitDiT
- 公式オンライン・デモ・プラットフォーム:http://demo.fitdit.byjiang.com/
使用方法
ステップ1:フィッティングエリアマスクの生成
- 着替えたい人の写真をアップロードする。
- 試着したいウェアの写真をアップロードする
- Step1: Run Mask "ボタンをクリックして初期マスクを生成します。
- マスクの範囲を調整する必要があれば、可能です:
- スライダーでマスク範囲を調整する:
- mask offset top: 上部のボーダーを調整します。
- マスクオフセットボトム:下側のボーダーを調整する
- マスク・オフセット・レフト:左のボーダーを調整する
- mask offset right: 右のボーダーを調整します。
- ブラシツールを使ってマスク領域を手動で修正する
- 消しゴムツールを使ってマスクのエッジを微調整する。
- スライダーでマスク範囲を調整する:
ステップ2:フィッティング結果の生成
- ご希望のフィッティング解像度をお選びください。
- Step2: Run Try-on "をクリックして生成を開始する。
- フィッティング結果を見るには、モデルの処理が終わるのを待つ。
2.現地での展開方法
環境要件:
トーチ==2.3.0
トーチビジョン=0.18.0
ディフューザー=0.31.0
トランスフォーマー==4.39.3
gradio==5.8.0
onnxruntime-gpu==1.20.1
展開のステップ:
- FitDiTモデルウェイトへのアクセスをリクエストする:
- https://huggingface.co/BoyuanJiang/FitDiT
- アクセス後、モデルをローカルカタログにダウンロードする。
- ローカルのGradioサービスを実行する:
ハードウェア構成に応じて4つの動作モードを選択できます:# 最速モード(より大きなビデオメモリが必要): python gradio_sd3.py --model_path local_model_dir # FP16精度モード: python gradio_sd3.py --model_path local_model_dir --fp16 # CPU アシストモード (中速、中程度のビデオメモリ): python gradio_sd3.py --model_path local_model_dir --fp16 --offload # Radical CPU load mode (最も遅いスピード、最も少ないビデオメモリ使用): python gradio_sd3.py --model_path local_model_dir --fp16 --aggressive_offload
3.開発者向け使用説明書
- このプロジェクトはCC BY-NC-SA-4.0ライセンスに準拠しています。
- 非商用利用のみ
- 商用ライセンスについては、byronjiang@tencent.com までお問い合わせください。
- モデルのトレーニングコードとデータセットはすべてオープンソースです。
- ハギング・フェイスによる事前学習済みモデルの使用をサポート