はじめに
Text2Editは、GitHub上でホストされているオープンソースのプロジェクトであり、効率的なテキスト編集や広告生成機能を提供することを目指しています。Text2Editプロジェクトは開発者グループによって管理されており、コードベースはオープンで、ユーザーは自由にアクセスして貢献することができます。プロジェクトの主なプログラミング言語にはJavaScript、HTML、CSSが含まれ、クロスプラットフォームの互換性と優れたユーザーエクスペリエンスを保証します。
技術的特徴
1.マルチモーダル大規模言語モデル(MLLM)
マルチモーダルビッグ言語モデルは、テキスト、画像、動画など複数のモダリティの情報を同時に処理することができるプロジェクトの基盤である。
2.ハイフレームレートサンプリングと低速処理技術
映像の時空間情報をよりよく理解するために、このプロジェクトでは高フレームレートのサンプリングと低速-高速処理技術を使用している:
- 高フレームレートサンプリング:ビデオフレームを毎秒2フレーム(fps)の頻度でサンプリングすることで、モデルは映像の時間的変化をより敏感に捉えることができます。このアプローチにより、ビデオダイナミクスの変化を理解するモデルの能力が大幅に向上します。
- 低速-高速処理技術:このモデルは、2つのパスを同時に使用してビデオフレームを処理する。
- スローパス:フレームは低いフレームレート(例えば0.5fps)で処理されるが、詳細な時空間情報をキャプチャするためにフレームごとに多くのトークンが割り当てられる。
- 高速パス:高フレームレート(例えば2fps)でフレームを処理するが、フレームあたりのトークンの割り当ては少なく、急速に変化するシーンのキャプチャに重点を置く。このデュアルパス戦略は、ビデオの時空間情報と意味情報のバランスをとり、ビデオの内容に対するモデルの理解を大幅に向上させる。
3.テキスト主導の編集
テキスト主導の編集メカニズムにより、ユーザーはテキスト入力を通じてビデオ編集の結果を正確にコントロールできる。ユーザーは、ビデオの長さ、ストーリーライン、ターゲット層、脚本スタイル、強調したい商品のセールスポイントなどを指定することができます。このモデルは、これらのテキストによるプロンプトに基づいて、ユーザーのニーズに合ったビデオ編集のドラフトを生成し、アウトプットの高度なコントロールと多様性を保証します。
4.ビデオ編集の具体的な実施
- ビデオフレームの埋め込みと処理:ビデオフレームは、まずCLIPやOpenCLIPなどのビジュアルコーダーによって埋め込みベクトルに変換される。これらのベクトルは、テキスト埋め込みベクトルとともにLLMに入力され、モデルは自己調整メカニズムによってこれらの埋め込みベクトルを処理し、ビデオ編集用のドラフトを生成する。
- ドラフト生成と後処理:モデルからのドラフト出力には、ビデオクリップ、吹き替えスクリプト、装飾要素(サウンドトラック、デジタル人物画像など)の配置が含まれる。これらのドラフトは、ポスト処理(音声合成、音楽検索など)によって処理され、最終的にレンダリング可能な映像が生成される。