AIシェアリングサークル

AIは世界を変えようとしている!
PartCrafter - 北大联合字节开源的单图3D生成模型

PartCrafter - NU United Bytes オープンソース単体3D生成モデル

PartCrafterは、北京大学、ByteDance、カーネギーメロン大学が共同で提案した先進的な3D生成モデルです。単一のRGB画像から、複数の意味的に明示的で幾何学的に多様な3Dメッシュパーツを一度に生成することができる。このモデルは、組み合わせ可能なポテンシャル空間を通してモデル化され...
4ヶ月前
026.1K
GigaWorld-0 - 极佳视界开源的世界模型框架

GigaWorld-0 - GigaVision オープンソース世界モデリングフレームワーク

GigaWorld-0は、国内のEmbodied IntelligenceスタートアップGigaAIのオープンソース世界モデルフレームワークであり、主にEmbodied Intelligence (Embodied AI)分野のデータボトルネック問題を解決するために使用される。高品質で多様かつ物理的にリアルな学習データを効率的に生成し、プッシュ...
4ヶ月前
025K
Mistral 3 - Mistral AI发布开源的最新多模态大模型系列

Mistral 3 - Mistral AI、マルチモーダル大型モデルの最新シリーズをオープンソースでリリース

Mistral 3は、Mistral AIがオープンソースとしてリリースした最新のマルチモーダル大型モデルシリーズで、フラッグシップモデルのMistral Large 3(総パラメータ675B)と、Ministralシリーズの軽量版(3B/8B/14B)があり、いずれも画像理解に対応している。
4ヶ月前
023.2K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - ByteHopのオープンソース・マルチモーダルビデオ理解と大規模モデルの生成

Vidi2は、ByteDanceによってオープンソース化された第2世代のマルチモーダルビデオ理解・生成ビッグモデルであり、ビデオコンテンツの理解、分析、作成に焦点を当てている。テキスト、ビデオ、オーディオモダリティの共同入力をサポートし、画像コンテンツ、音声情報、自然言語コマンドを同時に理解することで、クロスモーダルなインタラクションを実現し、...
4ヶ月前
027K
Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1 - NVIDIAのオープンソース推論機能付き視覚言語アクションモデル

Alpamayo-R1は、NVIDIAが開発した推論機能付きVLA(Vision-Language-Action)モデルであり、複雑なシナリオにおける自律走行の意思決定能力を強化するために設計されている。因果連鎖の推論メカニズムを導入することで、シナリオの因果関係(例えば、「前...
4ヶ月前
034.9K
Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image - Ali AIDC-AIチームによるオープンソース・ベンチャーグラフモデル

Ovis-Imageは、Alibaba International Digital Commerce GroupのAIDC-AIチームによってオープンソース化された70億パラメータのテキスト生成グラフモデルで、高品質のテキストレンダリングに焦点を当てています。Ovis-U1アーキテクチャに基づき、高度なビジュアルデコーダーと双方向トークン精製機能を継承しています。
4ヶ月前
022.9K
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - 知恵源研究所オープンソース・マルチモーダル世界ビッグモデル

Wujie-Emu3.5は、北京Zhiyuan人工知能研究所のオープンソースのマルチモーダル世界マクロモデルであり、340億の参照とネイティブの世界モデリング機能を備えています。10兆個のマルチモーダル・トークン(790年分のビデオデータを含む)によって訓練され、物理法則をシミュレートし、グラフィック生成、視覚誘導を実現することができる。
4ヶ月前
026.5K
GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - StepsチームによるオープンソースのエンドサイドマルチモーダルGUIエージェントモデル

GELab-Zeroは、Step Leapチームによるオープンソースのエンドサイド・マルチモーダルGUIエージェントモデルで、Qwen3-VL-4B-Instructをベースに4Bパラメータで構築されています。UI要素を認識し、クリックやスライドなどの操作を実行することができ、アプリケーション間のタスク処理をサポートしています。
4ヶ月前
033.9K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

深さ何でも3 - ByteHopシードオープンソース用3Dビジュアル再構築モデル

Depth Anything 3(DA3)は、Byte Jump Seedチームによって開発され、オープンソース化された3D視覚再構成モデルです。単一のトランスフォーマーアーキテクチャを通して、どのような視点でも空間的なジオメトリの再構築を実現し、深度マップとレイマップを予測するだけで3Dシーンを復元することができます。
4ヶ月前
035.3K
DeepSeek-Math-V2 - DeepSeek开源的数学推理模型

DeepSeek-Math-V2 - DeepSeek オープンソース数理推論モデル

DeepSeek-Math-V2は、ファントムキューブ傘下のAI企業であるDeepSeek社のオープンソース数理推論モデルで、最新バージョンはDeepSeek-V3.2-Exp-Baseの改良をベースにしており、Gemini DeepThinkを上回るパフォーマンスで国際的なナンバーワンに達している。
4ヶ月前
028.3K