IDProtector：AIが生み出すテクノロジーの悪用から肖像画を守る方法

42.5K 00

1.背景と課題

人工知能（AI）技術の急速な発展に伴い、特に、その技術革新は著しい。拡散モデルの進歩により、AIは非常にリアルなポートレート画像を生成できるようになった。例えばインスタントIDこのような技術では、同じ識別特性を持つ複数の新しい画像を生成するために、たった1枚の写真を必要とする。この技術は、パーソナライズされたアバターの作成など、多くの応用シーンがある一方で、新たなプライバシーリスクももたらす：

無許可の虐待詐欺やなりすまし、その他の悪意のある目的のために、この技術を使用して偽の個人写真を生成することができます。
プライバシー侵害個人のプライバシーを侵害する様々な画像を生成するために、人々の写真が無断で使用される可能性がある。

そのため、この技術の悪用から肖像画をどう守るかが喫緊の課題となっている。

2.既存の方法論の欠点

現在、肖像画を生成するAI手法は大きく2つに分類される：

2.1 ファインチューニングに基づくアプローチ

代表的な技術DreamBooth、LoRAなど。
理論AIモデルを微調整することで、キャラクター固有の画像を生成できるようにした。
欠点学習には複数の画像が必要であり、複雑で時間のかかるプロセスであるため、迅速な生成や大規模なアプリケーションには適していない。

2.2 エンコーダーに基づく方法

代表的な技術InstantID、IP-Adapterなど。
理論事前に訓練された顔エンコーダを用いて、1枚のポートレート写真からアイデンティティ特徴を抽出し、同じアイデンティティ特徴を持つ新しい画像を生成する。
バンテージ必要なのは写真1枚だけで、手続きは素早く簡単です。
欠点複雑なトレーニングが不要なため、悪用しやすい。

既存の保護方法は、主に微調整ベースの技術を目的としており、エンコーダーベースの方法に対する効果的な保護が欠けている。

3.IDProtector：新しい保護プログラム

上記の問題を解決するために、本稿では、次のような手法を提案する。IDプロテクター新しい方法論である。その方法の核となる考え方は以下の通りである：

画像に知覚不可能な敵対的ノイズを加えるそのため、AI生成モデルが画像内の人物の身元を正しく識別できず、元画像の身元に類似した画像が生成されるのを防ぐことができる。

3.1 主な特徴

効率IDProtectorは、**ViT（Visual Transformer）**に基づくエンコーダを採用しており、敵対的なノイズを高速に生成するため、画像を保護するのにかかる時間はわずか0.2秒と、他の既存の方法よりもはるかに高速です。
多用途このアプローチは、InstantID、IP-Adapter、IP-Adapter Plus、PhotoMakerなど、幅広いエンコーダーベースのAI生成モデルに最適化されており、より包括的な保護を提供します。
堅牢性IDProtectorが生成する敵対的ノイズは、以下のような一般的な画像処理に耐性があります：
- JPEG圧縮画像を圧縮してもノイズは有効です。
- トリミングとサイズ変更画像をトリミングしたり、サイズを変更しても、ノイズは機能します。
- フェースアライメントAI生成モデルによる顔の整列処理の影響に抵抗する。
無感覚追加されたノイズは人間の視覚システムには見えず、映像の品質に影響を与えない。

3.2 動作原理

入力画像の前処理入力されたポートレート写真を224 x 224ピクセルにリサイズし、IDProtectorモデルに入力します。
逆境ノイズの生成IDProtectorモデルは、オリジナルマップと同じ次元のノイズマップを生成し、オリジナルマップに追加する。
保護画像生成ノイズが加わると、AI生成モデルによる顔の特徴の抽出プロセスが中断され、元の画像と同じような画像を生成することができなくなります。
図1：IDProtector法の概略図。入力画像はまず224×224ピクセルにリサイズされ、敵対的ノイズエンコーダーモデルに入力されます。このモデルはノイズ画像を出力し、これを元画像に追加して保護画像を得る。この画像は、AI生成モデルが顔の特徴を正しく抽出して保護効果を得るのを妨げる。

4.実験結果

4.1 保護効果

アイデンティティの類似性の低下IDProtectorは、生成された画像と元の画像との間の同一性類似度を、既存の方法よりも大幅に低減することができます。例えば、InstantIDモデルにおいて、IDProtectorは類似度を0.4以上減少させますが、他の方法ではせいぜい0.1しか減少させることができません。
顔検出率また、評価の包括性を確保するために、InsightFace検出器を使用して、生成された画像内の顔を検出しました。その結果、IDProtectorは顔検出率に影響を与えず、保護効果の信頼性が実証されました。
図2：ベースライン法との定性的比較。IDProtectorは、同じ摂動範囲において、より大きな顔の違いをもたらす。

4.2 時間と画質

より速くIDProtectorは、画像1枚あたり平均0.173秒を保護し、既存の最速の方法の1%を下回ります。
より高い画質IDProtectorは他の方法よりも画質破壊が少なく、PSNRとSSIMの値が高い。

4.3 未知のデータやモデルへの汎化能力

未知のデータセットへの一般化能力IDProtectorは、トレーニング中に見られなかったVGG Faceデータセットでテストされ、その結果、IDProtectorの保護機能はデータセット間でほとんど変わらないことが示され、強力な汎化能力を持っていることが示唆されました。
未知のモデルへの汎化能力IDProtectorは、トレーニングで使用したモデルに加え、いくつかの独自モデル（MidjourneyやJing Gouなど）を含む他のAI生成モデルもテストし、同様に満足のいく結果を得ました。