AIシェアリングサークル

AIは世界を変えようとしている!
VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - MiniMaxコンク・ビデオ・チームのオープンソース視覚的生成モデリング技術

VTP(Visual Tokenizer Pre-training)とは、MiniMax Conch Videoチームが提唱するビジュアル生成モデルのキーテクノロジーで、ビジュアル・トークナイザー(トークナイザー)の事前学習方法を改善することで、生成システムのパフォーマンスを向上させるものです。従来の方法...
3ヶ月前
030.6K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - グーグルのオープンソース次世代エンコーダー・デコーダーモデル

T5Gemma 2は、Googleがオープンソース化した新世代のエンコーダー・デコーダーモデルで、Gemma 3アーキテクチャをベースに、マルチモーダルおよびロングコンテキストの処理機能をアップグレードしたものである。テキストや画像を含む幅広いデータタイプをサポートし、非常に長いコンテキスト(最大128K)を処理することができる。
3ヶ月前
029.5K
FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - 関数呼び出しに最適化されたGoogleオープンソースの軽量AIモデル

FunctionGemmaは、Googleからの関数呼び出しに最適化された軽量AIモデルであり、2億7000万パラメータを持つGemma 3の基本モデルをベースに開発され、携帯電話やブラウザ、その他のデバイス上で自然言語をリアルタイムに実行可能なAPI命令に変換する。核となる機能は、ローカルのオフ...
3ヶ月前
028.8K
SHARP - 苹果开源的单目视图3D场景合成技术

SHARP - アップルのオープンソース単眼3Dシーン合成技術

SHARP(Sharp Monocular View Synthesis in Less Than a Second)は、アップルのオープンソース単眼ビュー合成技術です。1枚の写真からシーンのリアルな3D表現を1秒以内に素早く生成できる。
3ヶ月前
032.6K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - マイクロソフトのオープンソース大規模3D生成モデル

TRELLIS.2は、40億のパラメータを持つマイクロソフトのオープンソース大規模3Dジェネレーティブモデルです。革新的な "O-Voxel "スパースボクセル構造を使用して、複雑なトポロジーとシャープな特徴を効率的に処理し、完全なPBRマテリアルで高品質な3D情報を生成することができます。
3ヶ月前
039K
Step-GUI - 阶跃星辰开源的AI Agent系列模型

Step-GUI - ステップスターオープンソースAIエージェントシリーズモデル

Step-GUIはStep-StarのオープンソースAIエージェントシリーズで、クラウドモデルStep-GUI、GUIエージェントのための最初のMCPプロトコル、携帯電話の展開をサポートする業界初のオープンソースエンドサイドモデルStep-GUI Edgeを含みます。
4ヶ月前
037K
A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

A2UI - エージェント駆動型ユーザー・インタラクション・インターフェースのためのGoogleのオープンソース宣言型プロトコル

A2UI(Agent-to-User Interface)は、Googleがオープンソースで提供するエージェント駆動型インターフェース・プロトコルであり、AIエージェント向けに複雑な対話型インターフェースを生成する際の課題に対処する。AIエージェントがユーザーインターフェースの構造を記述できるようにする宣言的なJSONフォーマットを通じて、クライアントアプリケーションは、AIエージェントがユーザーインターフェースの構造を記述できるようにします。
4ヶ月前
043.5K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - オープンソースのマルチモーダル音声セグメンテーションモデル(Metaより

SAMオーディオは、複雑なオーディオミックスから任意のターゲット音を正確に分離する、Meta社のオープンソースのマルチモーダルオーディオセグメンテーションモデルです。テキスト、ビジュアル、時間次元のキューを組み合わせることで、オーディオ編集、ノイズ除去、音抽出、...といったタスクのための柔軟で効率的なオーディオ処理を可能にします。
4ヶ月前
031.8K
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

Mixed World Model 1.5 - Tencent Mixedオープンソースリアルタイム世界モデル生成フレームワーク

ハイブリッド世界モデル1.5(Tencent HY WorldPlay)は、Tencentがリリースした業界初のオープンソースリアルタイム世界モデルフレームワークであり、データ、トレーニング、ストリーミング推論の展開のフルチェーンをカバーする。コアとなるのはWorldPlay自己回帰拡散モデルで、Next-F...
4ヶ月前
032.4K
Molmo 2 - Ai2开源的多模态视频图像理解模型系列

Molmo 2 - Ai2オープンソース・マルチモーダル動画像理解モデルファミリー

Molmo 2は、Allen Institute for AI (Ai2)によって公開されたオープンソースのマルチモーダルモデルで、ビデオやマルチイメージの理解を向上させる。Molmo 2 (8B)、Molmo 2 (4B)、Molmo 2-O...の3種類があります。
4ヶ月前
037.5K