CombatVLA - アモイ・グループによる効率的なVLAモデル
CombatVLAは、3Bパラメトリックスケールで構築されたビジョン-言語-アクション(VLA)モデルで、モーショントラッカーを通して人間のプレイヤーを収集します。
DeepSeek V3.1 - DeepSeekの最新のオープンソースAIモデル
DeepSeek V3.1は、DeepSeekが導入した新世代のAIモデルで、前モデルのV3をベースに重要なアップグレードが施されています。 DeepSeek V3.1は、思考モードと非思考モードを柔軟に切り替えることができるハイブリッド推論アーキテクチャを導入しており、思考...
Qwen-Image-Edit - Ali Tongyi オープンソース画像編集モデル
Qwen-Image-Editは、Ali Tongyiによって導入された、200億のパラメータを持つQwen-Imageアーキテクチャ上に構築された、万能画像編集モデルです。このモデルはセマンティック編集と外観編集の両方の機能を兼ね備えており、画像に対して低レベルの視覚的外観編集を行うことができます(例:追加、削除...
MoE-TTS - 崑崙微の最新音声生成フレームワーク
MoE-TTSは、KunlunWanweiによって導入された音声合成フレームワークで、事前に訓練された大規模言語モデル(LLM)と音声専門家モジュールを組み合わせたMixed Expert(MoE)アーキテクチャに基づいています。MoE-TTSは、テキストモジュールのパラメータを凍結し、音声モジュールのパラメータのみを更新することにより、強力なテキスト推論を保持します...
Mureka V7.5 - クインテッセンスの先進AI音楽制作モデル
Mureka V7.5は、崑崙ワールドワイドが提供する、中国歌曲に特化した最先端のAI音楽生成モデルです。このモデルは、音色と演奏テクニックを正確に再現し、自然で滑らかで感情的なボーカルを生成します。最適化された自動音声認識(ASR)技術に基づき、Mureka V...
Skywork Deep Research Agent v2 - 崑崙のDeep Research Intelligenceのアップグレード版。
Skywork Deep Research Agent v2は、Kunlun Waveが発表したマルチモーダル情報の統合と分析に特化したディープリサーチインテリジェントボディです。
Hunyuan-GameCraft - Tencent Hunyuanのオープンソースフレームワーク。
Hunyuan-GameCraftはTencent Hunyuanチームのオープンソースインタラクティブゲームビデオ生成フレームワークです。1枚の画像とプロンプトから、非常にダイナミックなゲームビデオを生成するフレームワークで、キーボードとマウスを使ってリアルタイムでビデオコンテンツを制御するユーザーをサポートします。
Skywork UniPic 2.0 - オープンソースの効率的なマルチモーダルモデリング by KunlunWanwei
Skywork UniPic 2.0は、Quintessenceによってオープンソース化された効率的なマルチモーダルモデルであり、画像生成、編集、理解に焦点を当てている。このモデルは、2BパラメータのSD3.5-Mediumアーキテクチャに基づいており、事前学習、漸進的なデュアルタスク強化戦略、共同学習によって実現される。
RynnRCP - アリ・ダルマ研究所による初のオープンソース・ロボティクス・コンテキスト・プロトコル
RynnRCPは、Ali Dharma Instituteによるオープンソースのロボットコンテキストプロトコル(RCP)であり、身体化された知能の開発の敷居を下げ、開発プロセス全体を開放します。RynnRCPは、RCPフレームワークとRobotMotionモジュールで構成されています。RCPフレームワークは、能力の抽象化とマルチプロトコルのサポートを通じて、...
RynnEC - アリ・ダルマ・インスティテュートのオープンソース世界理解モデル
RynnECはAlibaba Dharma Instituteが導入した世界理解モデルで、具現化知能タスクに焦点を当てている。このモデルは、映像データと自然言語を組み合わせたマルチモーダル融合技術に基づいており、シーン内のオブジェクトを多次元から解析し、オブジェクトの理解、空間認識、映像ターゲットのセグメンテーションなどの機能をサポートする。