Matrix-3D - 崑崙ワールドワイドオープンソース3D世界生成フレームワーク
Matrix-3Dは、Skywork AIチームによるオープンソースのフレームワークで、探索可能なパノラマ3D世界の生成に特化している。このフレームワークは、パノラマビデオ生成と3D再構成技術を組み合わせて、1枚の画像やテキストプロンプトから高品質で全方位探索可能な3D世界を生成します。
GLM-4.5V - Smart Spectrumによるマルチモーダル・オープンソース視覚推論モデル
GLM-4.5Vは、Smart Spectrumによって導入された世界有数のオープンソース視覚推論モデルであり、1060億の総パラメータと120億の活性化パラメータを持つ。このモデルは、新世代のテキストベースモデルGLM-4.5-Airをベースに学習され、強力な視覚理解・推論能力を持ち、画像、動画...
ジーニー3 - グーグルのユニバーサル世界モデル
Genie 3は、Google DeepMindが提供する新世代のユニバーサルワールドモデルで、高度にダイナミックで一貫性のある仮想世界をリアルタイムで生成することができます。Genie 3は、物理現象や自然生態系をシミュレートし、ファンタジーや歴史的なシナリオの作成をサポートします。テキストプロンプトにより、ユーザーは...
Claude Opus 4.1 - Anthropicの最強プログラミングモデル
Claude Opus 4.1は、複雑なタスクを効率的に処理するために設計された、Anthropicによる最先端の大規模言語モデルです。このモデルはプログラミング領域で優れており、高品質のコードを生成し、最大32kの単一出力をサポートし、幅広いプログラミングスタイルに適応します。
gpt-oss - OpenAIによるオープンソースの推論モデルファミリー
gpt-ossはOpenAIのオープンソース推論モデルファミリーで、開発者向けに効率的で柔軟かつ容易に導入できるAIソリューションを可能にします。
MiDashengLM - シャオミのオープンソース音理解モデル
MiDashengLMは、Xiaomiのオープンソースの効率的なサウンド理解のための大規模なモデルであり、特定のパラメータバージョンMiDashengLM-7Bは、オーディオ処理と理解に焦点を当てています。このモデルは、Xiaomi DashengオーディオエンコーダとQwen2.5-オム...
MOSS-TTSD - 清華研究所のオープンソース二ヶ国語対話音声生成モデル
MOSS-TTSDは清華大学のSpeech and Language Labによって開発されたオープンソースの音声対話モデルです。MOSS-TTSDはテキスト対話スクリプトを自然で滑らかな表現力豊かな対話音声に変換することができ、英語と中国語のバイリンガル生成に対応しています。
AudioGen-Omni - Racerのマルチモーダル音声生成モデル
AudioGen-Omniは、Racerのマルチモーダルオーディオ生成モデルで、ビデオやテキストなどの入力に基づいて高品質のオーディオ、スピーチ、歌を生成します。AudioGen-Omniは、マルチモーダル拡散トランスフォーマーや位相整合トランスフォーマーなどの高度な技術に基づいています。
RedOne - リトルレッドブックの最新ソーシャルメガモデル
RedOneは、Little Red Bookによって導入されたソーシャルネットワーク用に調整された大規模言語モデルである。RedOneは、社会的・文化的知識を取り入れ、マルチタスク能力を強化し、人間の嗜好を調整する3段階の学習戦略によって学習される。RedOneは、社会的タスクのパフォーマンス、有害コンテンツの検出とブラウジングにおいて、基本モデルを大幅に上回る。
FastDeploy - Baiduの高性能大規模モデル推論・展開ツール
FastDeployはFlying Paddle (PaddlePaddle)フレームワークに基づいて開発され、様々なハードウェアプラットフォームをサポートしています。