ViMax - 香港大学のオープンソースマルチインテリジェントボディビデオ生成フレームワーク
ViMaxは、香港大学のデータサイエンス研究所が開発したオープンソースのマルチインテリジェンス・ボディ・ビデオ生成フレームワークで、クリエイティブな入力からビデオ出力までの全プロセスを自動化することができます。スクリプト生成、シーンデザイン、ショットプランニング、ビデオレンダリング機能を統合し、自然言語記述による首尾一貫した映画・テレビグレードのビデオ生成をサポートします。
FLUX.2 - Black Forest オープンソース画像生成・編集モデル
FLUX.2は、Black Forest Labsが公開したオープンソースの画像生成・編集モデルで、テキストによる生画像、複数画像の参照、より豊かなディテール、鮮明なテクスチャ、安定したライティングによる画像編集をサポートしています。4つのバージョンがあります:FLUX.2 [pro](クローズドソースのトップと同等...
Fara-7B - マイクロソフトのオープンソース・コンピュータ操作アシスタント・モデル
Fara-7Bは、Qwen 2.5-VL-7Bアーキテクチャに基づいた70億パラメータ規模のコンピュータ操作エージェント(CUA)モデルのマイクロソフトオープンソースリリースです。ウェブページのスクリーンショットを視覚的に解析し、画面上でクリックや入力などを実行することで、追加のアクセシビリティツリーや複数の大規模モデルに依存する必要がありません...
HunyuanOCR - テンセント混合元オープンソース光学式文字認識エキスパートモデル
HunyuanOCRは、Tencentハイブリッドチームによってオープンソース化された高性能な光学式文字認識モデルであり、わずか10億件の参照しかない。ハイブリッドマルチモーダルアーキテクチャに基づいて開発され、エンドツーエンドの設計を採用し、テキスト検出、認識、文書解析タスクを効率的に処理することができます。このモデルは複雑な文書のテストで94.1点を獲得し、...
Supertonic - オフラインで猛スピードで動作するオープンソースの高性能AI音声合成システム。
Supertonicは、オープンソースの高性能音声合成(TTS)システムで、ローカルデバイスでの迅速な音声生成に重点を置いている。ONNXランタイム・テクノロジーを使用しているため、携帯電話、コンピュータ、Raspberry Piなどのデバイスで動作し、23の言語と音声クローンをサポートし、ネットワークを必要としません。
MiMo-Embodied - シャオミのオープンソース・クロスドメイン具現化知能台座モデル
MiMo-Embodiedは、シャオミグループがオープンソース化した世界初のクロスエンボディベースモデルであり、エンボディドAIと自律走行の統合に成功している。エンボディドAIと自律走行間の知識移行問題を解決し、2つの領域におけるタスクの統一的なモデリングを実現する。
MOSS-Speech - 復旦大学オープンソース音声合成ビッグモデル
MOSS-Speechは復旦大学の邱西鵬教授のチームによるオープンソースの音声合成(Speech-to-Speech)ビッグモデルです。従来の音声処理の常識を打ち破り、テキストガイダンスを必要とせず、直接音声を理解・生成し、イントネーションや感情などの非テキスト要素を取り込み、...
Parallax - Gradientがオープンソース化した世界初の完全自律型AIオペレーティング・システム
Parallaxは、分散型AIラボのGradientがオープンソース化した、世界初の「完全自律型AIオペレーティング・システム」である。Mac、Windows、その他の異種デバイス上での大規模モデルのクロスプラットフォーム展開をサポートし、ユーザーはモデル、データ、AIメモリを完全に制御することができる。このシステムは、ネットワークを意識したビルトイン ...
HunyuanVideo 1.5 - Tencent混合元フリーオープンソース軽量ビデオ生成モデル
HunyuanVideo 1.5は、Tencentハイブリッドビッグモデルチームオープンソースの軽量ビデオ生成モデルであり、拡散トランスフォーマー(DiT)アーキテクチャに基づいて、パラメータの数は8.3Bです。
Awex - Antグループのオープンソース高性能ウェイト交換フレームワーク
Awexは、Ant Groupのオープンソース高性能重み交換フレームワークであり、強化学習における大規模なパラメータ同期のために設計されています。Awexは、テラバイトのパラメータ交換を数秒で完了させることができ、学習と推論の効率を大幅に向上させます。Awexの同期性能は非常に高速で、1,000枚のカードクラスタでは、1兆個のパラメータモデルを、全パラメータ量の6秒以内に完了させることができます。









