AIシェアリングサークル

AIは世界を変えようとしている!
Mistral 3 - Mistral AI发布开源的最新多模态大模型系列

Mistral 3 - Mistral AI、マルチモーダル大型モデルの最新シリーズをオープンソースでリリース

Mistral 3は、Mistral AIがオープンソースとしてリリースした最新のマルチモーダル大型モデルシリーズで、フラッグシップモデルのMistral Large 3(総パラメータ675B)と、Ministralシリーズの軽量版(3B/8B/14B)があり、いずれも画像理解に対応している。
6ヶ月前
025.9K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - ByteHopのオープンソース・マルチモーダルビデオ理解と大規模モデルの生成

Vidi2は、ByteDanceによってオープンソース化された第2世代のマルチモーダルビデオ理解・生成ビッグモデルであり、ビデオコンテンツの理解、分析、作成に焦点を当てている。テキスト、ビデオ、オーディオモダリティの共同入力をサポートし、画像コンテンツ、音声情報、自然言語コマンドを同時に理解することで、クロスモーダルなインタラクションを実現し、...
6ヶ月前
029.5K
Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1 - NVIDIAのオープンソース推論機能付き視覚言語アクションモデル

Alpamayo-R1は、NVIDIAが開発した推論機能付きVLA(Vision-Language-Action)モデルであり、複雑なシナリオにおける自律走行の意思決定能力を強化するために設計されている。因果連鎖の推論メカニズムを導入することで、シナリオの因果関係(例えば、「前...
6ヶ月前
037.1K
Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image - Ali AIDC-AIチームによるオープンソース・ベンチャーグラフモデル

Ovis-Imageは、Alibaba International Digital Commerce GroupのAIDC-AIチームによってオープンソース化された70億パラメータのテキスト生成グラフモデルで、高品質のテキストレンダリングに焦点を当てています。Ovis-U1アーキテクチャに基づき、高度なビジュアルデコーダーと双方向トークン精製機能を継承しています。
6ヶ月前
025K
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - 知恵源研究所オープンソース・マルチモーダル世界ビッグモデル

Wujie-Emu3.5は、北京Zhiyuan人工知能研究所のオープンソースのマルチモーダル世界マクロモデルであり、340億の参照とネイティブの世界モデリング機能を備えています。10兆個のマルチモーダル・トークン(790年分のビデオデータを含む)によって訓練され、物理法則をシミュレートし、グラフィック生成、視覚誘導を実現することができる。
6ヶ月前
028.5K
GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - StepsチームによるオープンソースのエンドサイドマルチモーダルGUIエージェントモデル

GELab-Zeroは、Step Leapチームによるオープンソースのエンドサイド・マルチモーダルGUIエージェントモデルで、Qwen3-VL-4B-Instructをベースに4Bパラメータで構築されています。UI要素を認識し、クリックやスライドなどの操作を実行することができ、アプリケーション間のタスク処理をサポートしています。
6ヶ月前
036.2K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

深さ何でも3 - ByteHopシードオープンソース用3Dビジュアル再構築モデル

Depth Anything 3(DA3)は、Byte Jump Seedチームによって開発され、オープンソース化された3D視覚再構成モデルです。単一のトランスフォーマーアーキテクチャを通して、どのような視点でも空間的なジオメトリの再構築を実現し、深度マップとレイマップを予測するだけで3Dシーンを復元することができます。
6ヶ月前
038K
DeepSeek-Math-V2 - DeepSeek开源的数学推理模型

DeepSeek-Math-V2 - DeepSeek オープンソース数理推論モデル

DeepSeek-Math-V2は、ファントムキューブ傘下のAI企業であるDeepSeek社のオープンソース数理推論モデルで、最新バージョンはDeepSeek-V3.2-Exp-Baseの改良をベースにしており、Gemini DeepThinkを上回るパフォーマンスで国際的なナンバーワンに達している。
6ヶ月前
030.6K
Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image - Ali Tongyi Labs オープンソース画像生成モデル

Z-Imageは、Ali Tongyi Labsによるオープンソースの画像生成モデルで、効率的で高速かつ強力な画像生成機能を備えています。シングルストリーム拡散トランスフォーマーアーキテクチャ(S3-DiT)を使用し、テキスト、ビジュアルセマンティクス、画像VAEトークンを統一された入力ストリームに統合します。
6ヶ月前
052.6K
ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK - アリババがオープンソースのサンドボックスで提供するインテリジェントな身体トレーニング環境

ROCK(Reinforcement Open Construction Kit)は、アリババのオープンソースサンドボックスで、インテリジェンスのトレーニング環境のためのもので、実環境ではインテリジェンスを大規模にトレーニングできないという問題を解決する。
6ヶ月前
028.6K