AIパーソナル・ラーニング
と実践的なガイダンス

TokenVerse: Google、複数の画像スタイルをミックスするクリエイティブツール「Whisk」をオープンソース化

1.はじめに:画像生成の新時代

今日のデジタル時代において、画像生成技術は目覚ましい進歩を遂げています。あなたがデザイナーであれ、アーティストであれ、パーソナライズされたコンテンツを作りたい一般人であれ、画像生成ツールはあなたのアイデアに命を吹き込むのに役立ちます。しかし、従来の画像生成方法には、複雑なビジュアル要素の組み合わせを扱うのに苦労したり、面倒な手順が必要だったりと、しばしば限界がありました。

東建バース 画像生成の登場は、まったく新しい可能性を切り開いた。1枚または複数の写真からさまざまな視覚的要素を抽出できるだけでなく、これらの要素を自由に組み合わせて新しい創造的な画像を生成することもできる。さらにエキサイティングなのはTokenVerseはWhiskのオープンソースフレームワークです。つまり、Whiskのパワーと柔軟性を受け継ぎながら、ユーザーにカスタマイズと拡張の余地を提供しているのだ。


原文ママhttps://arxiv.org/pdf/2501.12224

 

2.TokenVerseとは?

想像してみてほしい。あなたは、次のようなイメージを作りたい。大好きな子犬が入っている、お気に入りのおもちゃのボール。という特別な背景がある。日当たりの良い公園のように。従来の方法では、次のようなことが必要だった。これらは別途作成してください。要素だ。その後、手動で組み立てる。だが、今は違う。解決策がある! 東建バースこれだけのことが簡単にできる。

東建バース は画像生成の新しいアプローチである。これにより、1枚のシートからリストを作成したり複数の写真から抽出することはできません。同じ視覚的要素(よりオブジェクトなどだ、姿勢だ、軽い、材料など)。これらの要素を自由に組み合わせる新しいものを作ろう、クリエイティブなイメージ

中核機能:

1.多元素抽出::1枚以上の写真からの違いを識別し、抽出する。の視覚的要素である。
2.フリーコンビネーション::これらの要素をシームレスに組み合わせた全く新しいイメージを作り出す。
3.複雑な操作は不要::手動で画像を分割する必要がないあるいは、洗練されたヒントを提供する言葉だ。

 

3.TokenVerseの仕組みは?

3.1 画像とテキストを理解する

東建バース というメソッドを使う。 DiT(ディフュージョン・トランスフォーマー) 先進モデルの。このモデルは同時に画像とテキストメッセージの処理メッセージ具体的にはお客様のニーズを理解するために、以下のステップを踏みます:

1.テキストプロンプトの分析::説明を入力する場合公園で遊ぶ子犬。ボール")このモデルは、それぞれの単語の意味を分析する。
2.視覚的要素を特定する::モデルはテキストを認識するで言及されているさまざまなビジョン。要素だ。子犬」のように、「ボール」と「パーク」。
3.個人志向の学習::各ビジュアル要素に対してモデルは 変調空間 の仮想空間を見つける。特定の方向へ。この方向性は、次のことを表している。元素のユニークな特徴。

3.2 変調空間:画像生成の秘密兵器

変調空間は次のような特別な空間である。モデルはここでイメージを微調整する。このスペースに向きを変えることでモデルは、以下のような画像の特定の特徴を変更することができる。例えば、色だ、形だ、姿勢など

  • グローバル変調空間(M)::画像全体のすべての要素に影響を与える。しかし、それは望ましくない変化をもたらすかもしれない。
  • 各マーカーの変調空間(M+)::特定の視覚的要素にのみ影響を与える。より正確なコントロールを実現。
TokenVerse: Google、マルチイメージスタイルミキシングクリエイティブツール「Whisk-1」をオープンソース化

図2 各マーカーのグローバル変調空間( M )と変調空間( M + )の向き。

 

3.3 概念上の分離:要素間の干渉を避ける

各ビジュアルを確実にするためにすべての要素を正確に挙げることができる。取ることと組み合わせること。東建バース というメソッドを使う。 概念的隔離 技術だ。これは各要素に別の"部屋」である。互いに干渉しないようにする。

 

4.TokenVerseの利点

4.1 ウィスクのようなパワー

  • 高画質画像生成Whiskはその高品質な画像生成機能で知られており、TokenVerseはそれを継承している。
  • リッチテキスト処理機能Whiskは複雑なテキストプロンプトを扱うことができ、TokenVerseは複雑な説明的テキストを理解することができる。
  • スケーラビリティオープンソースプロジェクトであるTokenVerseの拡張性により、ユーザーのニーズに応じてカスタマイズや拡張が可能です。

4.2 使いやすさ

  • 専門スキルは不要プロのデザイナーやプログラマーでなくても簡単に使えます。
  • 複雑な操作は不要TokenVerseに必要なのは、簡単なテキストの説明と数枚の参考画像を提供することだけで、あとはTokenVerseがやってくれる。

4.3 強力なパーソナライゼーション能力

  • マルチエレメント対応オブジェクト、ポーズ、マテリアル、照明条件など、TokenVerseなら何でも対応できます。
  • シームレスアセンブリさまざまな要素を自由に組み合わせて、ユニークなイメージを作り出すことができます。

4.4 柔軟な創造的アプローチ

  • 1枚の画像から複数の要素を抽出例えば、写真から人物、衣服、背景を抽出する。
  • 複数の画像から要素を組み合わせる例えば、異なる写真の要素を組み合わせて、まったく新しいイメージにする。

 

5.実用的なアプリケーション

5.1 ストーリーテリング

TokenVerseを使用すると、同じキャラクターやシーンを含みながら、プロットや詳細が異なる一連のストーリーの画像を生成することができます。

TokenVerse: Google、複数の画像スタイルをミックスできるクリエイティブツール「Whisk-2」をオープンソース化

図19 ストーリーテリングの結果。左側はストーリーに登場するすべてのキャラクター、シーン、ポーズを示す。右側は言語モデル(LLM)によって生成されたストーリー。その後、LLMはストーリーを再処理し、付随する画像を作成するために使用されるプロンプトを生成した。

 

5.2 パーソナライズされたコンテンツ作成

パーソナライズされたバースデーカード、カスタマイズされた製品ディスプレイ、ユニークなデジタルアートワークなど、TokenVerseなら簡単に作成できます。

5.3 業務用アプリケーション

  • 広告デザインより魅力的な広告画像を作成する。
  • プロダクトマーケティングオンラインやオフラインのプロモーション用に、高品質な商品画像を作成します。
  • ゲーム開発ゲーム内のキャラクター、シーン、小道具を素早く生成。

 

6.注意事項

6.1 コンセプトの対立

場合によっては、2つの画像に同じ名前の要素が含まれていると(たとえば2つの異なる「人形」)、モデルが混乱してしまうことがあります。これを避けるために、各要素を異なる名前で識別することをお勧めします。

TokenVerse: Google、複数の画像スタイルをミックスできるクリエイティブツール「Whisk-3」をオープンソース化

(a) 相違する見出し (b) 適切な見出しの使用

 

6.2 エレメントの互換性

例えば、手足が極端に短い人形に、腕や脚が必要なポーズを取らせるなど、要素の組み合わせによっては相性が悪い場合がある。その結果、望ましくない出力が発生する可能性がある。

 

7.まとめ

東建バース は、Whiskのオープンソースフレームワークをベースとし、そのパワーと柔軟性を継承した強力な画像生成ツールです。TokenVerseは、あなたのテキストキューと参照画像を理解することにより、あなたのニーズを満たすユニークな画像を作成するために、さまざまな視覚的要素を抽出し、組み合わせることができます。

7.1 主要な強み

  • オープンソース・ウィスクの力高品質な画像生成、豊富なテキスト処理機能、拡張性。
  • シンプルで使いやすい専門的な技術や複雑な操作は必要ありません。
  • 強力なパーソナライズ機能マルチエレメントサポート、シームレスなコンビネーション。
  • 柔軟なクリエイティブ・アプローチ単一または複数の画像から要素を抽出し、結合します。

7.2 将来の展望

TokenVerseフレームワークが進化し続け、コミュニティが貢献し続けることで、TokenVerseの機能はさらに向上し、アプリケーションのシナリオはさらに広まるでしょう。より多くのユーザーがTokenVerseを使って素晴らしい画像を作成するのを楽しみにしています。

無断転載を禁じます:チーフAIシェアリングサークル " TokenVerse: Google、複数の画像スタイルをミックスするクリエイティブツール「Whisk」をオープンソース化

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語