Paper2Video - 論文のデモビデオを自動生成するNUSのオープンソースプロジェクト

23.3K 00

Paper2Videoとは

Paper2Videoは、シンガポール国立大学のShow Labによる、学術論文のプレゼンテーションビデオを自動生成するオープンソースプロジェクトです。PaperTalkerマルチインテリジェンスフレームワークを使用し、論文はスライド、字幕、ナレーション、スピーカーアバターを含む完全なプレゼンテーションビデオに変換される。このフレームワークは、スライドビルダー、字幕ビルダー、カーソルビルダー、スピーカービルダーの4つのモジュールで構成され、それぞれスライド生成、字幕生成、カーソル位置決め、スピーカービデオ生成を担当する。paper2videoは、101の論文とそれに対応する著者のプレゼンテーションビデオ、スライド、その他のデータを含む、学術プレゼンテーションビデオの最初の高品質ベンチマークを提供する。

Paper2Videoの特徴

デモビデオの自動生成スライド、字幕、音声、カーソルの動き、話者のアバターなど、様々な要素を網羅した完全なプレゼンテーションビデオを、学術論文から直接自動生成することができます。
マルチインテリジェンス・コラボレーションのフレームワークPaperTalkerのマルチ・インテリジェンス・フレームワークは、効率的で柔軟なビデオ生成プロセスのために、専門化されたモジュール（スライドビルダー、字幕ビルダー、カーソルビルダー、スピーカービルダーなど）にさまざまなタスクを割り当てるために使用される。
質の高いベンチマークと評価指標101の論文とそれに対応する著者のプレゼンテーションビデオとスライドを含む、初の高品質な学術プレゼンテーションビデオのベンチマークデータセットが利用可能であり、Meta Similarity、PresentArena、PresentQuiz、IP Memoryのメトリクスは、プレゼンテーションビデオの品質を包括的に測定するために設計されている。
パーソナル・スピーカー・ジェネレーション作者の顔写真と音声サンプルを使って、パーソナライズされた話者のアバターと音声を生成。
並列処理で効率アップビデオ生成タスクをスライドごとに分割して並列処理することで、生成時間が大幅に短縮され、全体の効率が向上します。
使いやすく、拡張しやすい研究者や開発者がすぐに始められるように、完全なコード実装と詳細な使用ガイドラインを提供し、必要に応じてカスタマイズや拡張が可能です。

Paper2Videoの強み

効率的で時間節約学術論文からデモビデオを自動生成し、手作業でビデオを作成する時間と労力を大幅に削減します。
高品質出力生成された映像は、内容の正確さ、視覚効果、音声表現など、プレゼンテーションの質を高める高いレベルを実現しています。
パーソナライゼーション作者の肖像画や音声サンプルに基づいて、パーソナライズされたスピーカーのアバターや音声を生成し、ビデオの信憑性とプロフェッショナリズムを高めます。
確立された評価システム生成された動画の品質と有効性を包括的に測定できる、専門的なベンチマークデータセットと評価指標を提供する。
効率的な並列処理並列処理技術は、ビデオ生成のスピードアップと効率化のために使用されます。