SongGeneration - テンセントAIラボによる音楽生成モデル
SongGenerationとは?
SongGenerationは、テンセントAIラボが立ち上げた高品質な楽曲生成プロジェクトだ。LeLM(Large Language Model for Music)フレームワークをベースに、SongGenerationはボーカルとバックトラックを並行して生成し、両者の調和を実現する。SongGenerationは、幅広い音楽スタイルと感情表現をサポートし、高品質で多様な楽曲を生成する。技術的なアーキテクチャは、ハイブリッドおよび2トラックタギングを組み合わせ、生成されたタグは音楽コーデックによってオーディオとして再構成されます。作曲、映画やテレビのサウンドトラック、ゲーム音楽などの分野に適しており、クリエイターに効率的でクリエイティブなソリューションを提供します。

ソングジェネレーションの主な機能
- ボーカルとバッキング・トラックの共同制作SongGenerationはボーカルとバッキングトラックを同時に生成するため、リズム、メロディー、エモーショナルな一体感が得られます。ミックストークンやダブルトラックトークンでは、ボーカルとバッキングボーカルが自然に混ざり合い、従来の生成方法で発生していたボーカルとバッキングボーカルが分離することを防ぎます。
- マルチスタイルとマルチモーションに対応SongGenerationは、様々なシナリオやユーザーのニーズに応えるために、これらの記述に基づいて曲を生成することができる。
- マルチトラック生成SongGenerationは、メロディー、構造、リズム、オーケストラの高度なマッチングを保証しながら、ボーカルとバッキングのトラックを自動的に生成します。
- 柔軟な入力方法ユーザーは歌詞を入力することができる。
[Verse]
そして[Chorus]
など)、説明テキスト、または生成のガイドとなる参考音声を入力することができます。多様な入力方法は、ユーザーにとって大きな利便性をもたらし、専門家でないユーザーでも簡単に使い始めることができます。 - 高品質の音楽出力SongGenerationは、オープンソースの音楽生成モデルを凌駕し、業界トップクラスのシステムに匹敵する高品質なオーディオパフォーマンスで楽曲を生成します。生成された楽曲は、作曲、映画やテレビのサウンドトラック、ゲーム音楽、その他の場面で直接使用することができます。
- 効率的なキャパシティの創出SongGenerationは、高効率なLeLMフレームワークに基づいており、完全な楽曲を素早く生成することができるため、作成効率が大幅に向上し、作成の敷居が下がるため、音楽作成がより簡単で効率的になります。
ソングジェネレーションプロジェクト住所
- GitHubリポジトリ:: https://github.com/tencent-ailab/SongGeneration
- HuggingFaceモデルライブラリ:: https://huggingface.co/tencent/SongGeneration
- arXivテクニカルペーパー:: https://arxiv.org/pdf/2506.07520
- オンライン体験デモ:: https://huggingface.co/spaces/tencent/SongGeneration
使用方法
- オンライン体験: SongGenerationモデルは現在Hugging Faceで利用可能で、ユーザーはオンライン体験を通じて利用することができます。
- 機能の使い方
- テキストコントロールSongGenerationの音楽は、キーワードテキスト(例:"ハッピーポップ"、"激しいロック")に基づいて高品質のフルレングス音楽を作成することができるユニークで強力なツールです。
- スタイルに従うSongGenerationは、ポップス、ロック、中国語など幅広いジャンルをカバーし、ユーザーが10秒以上の参考音声をアップロードすると、SongGenerationが同じスタイルのフルレングスの新曲を自動生成する。
- マルチトラック生成SongGenerationは、メロディー、構造、リズム、オーケストラの高度なマッチングを保証しながら、ボーカルとバッキングのトラックを自動的に生成します。
- 音色SongGeneration:SongGenerationは、リファレンス・オーディオに基づくトーン・フォローをサポートし、自然でエモーショナルに聞こえる "トーン・クローン "レベルのボーカル・パフォーマンスを持つ楽曲を生成します。
- ローカルユースSongGenerationをローカルで使用する必要がある場合、GithubリポジトリとHugging Faceモデルリポジトリからコードとモデルを入手することができます。 ユーザーはコードとモデルウェイトをダウンロードし、プロジェクトドキュメントの指示に従ってインストールと設定を行い、SongGenerationをローカルで実行して音楽を生成することができます。
ソングジェネレーションの技術的優位性
- 低ビットレートの音楽エンコードとデコードSongGenerationは革新的に、超低ビットレート(25Hz)や超低ビットレート(0.35kbps)で高品質な音楽再生を実現し、48kHzの2チャンネル音楽を効率的に圧縮・復元します。
- 複数のプリファレンス・アラインメントSongGenerationは、Direct Preference Optimisation (DPO)と多次元プリファレンス・アライメントにより、音楽性、歌詞の整合性、キューの整合性など、複数の次元を正確に調整することができます。生成された楽曲は、音質的に優れているだけでなく、メロディ、構成、感情表現など、よりユーザーのニーズに近いものとなります。
- 多カテゴリ・トークンの並列予測ソングジェネレーションは「ハイブリッド・ファースト、デュアル・トラック・セカンド」戦略を採用し、異なるタイプのプログラムの必要性を回避している。 トークン タイプ間の干渉。
- 3段階のトレーニングパラダイムSongGenerationは、事前トレーニング、モジュラー拡張トレーニング、マルチプリファレンス・アライメント・トレーニングの3段階のトレーニングパラダイムを採用している。
- 高いパフォーマンスと競争力SongGenerationの性能は、商用モデルやオープンソースモデルと比較して、コンテンツの評価、コンテンツの実用性、制作品質など、いくつかの重要な側面において優れていた。生成された楽曲は、音質、メロディー、構成、感情表現の面で強い競争力を示している。
SongGenerationの対象者
- 音楽クリエイタープロのミュージシャンでもアマチュアでも、SongGenerationはクリエイティブな作業を強力にサポートします。メロディ作成、アレンジ、歌詞合わせなど、クリエイターの創作時間を短縮し、インスピレーションを与え、高品質な楽曲を素早く生成することができます。クリエイターは、自分の創造性に応じて歌詞や説明を入力し、スタイルと感情のニーズを満たす完全な曲を生成することができます。
- 映画プロデューサーSongGenerationは、映画やテレビ作品に要求される情緒的な雰囲気やスタイルに合った音楽を素早く生成することができます。例えば、SongGenerationは、映画、テレビドラマ、広告、ショートビデオに適したBGMを生成し、作品全体の効果を高めることができます。
- ゲーム開発者ゲーム音楽は、ゲームシーンや雰囲気と密接に融合する必要があります。 SongGenerationは、ゲームのスタイル(ファンタジー、SF、アドベンチャーなど)や感情的なニーズ(緊張感、喜び、神秘的など)に応じて、ゲームシーンにマッチした音楽を生成し、プレイヤーの没入感を高めます。
- コンテンツクリエーターSongGenerationは、コンテンツのスタイルや感情的なニーズに合わせて素早く音楽を生成し、著作権問題を回避しながら、コンテンツの魅力を高めることができます。
- 音楽教育者と学生SongGenerationは、生徒が様々な音楽スタイル、感情表現、作曲テクニックを理解するための音楽教育教材として使用できます。教育者は、様々なスタイルや感情の効果を示すためのサンプル音楽を生成したり、生徒の学習への興味を刺激するために使用することができます。
© 著作権表示
記事の著作権 AIシェアリングサークル 無断転載はご遠慮ください。
関連記事
コメントはありません