AIシェアリングサークル

最新のAI製品、プロジェクト、フレームワーク、論文解釈などを毎日共有〜。
Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型

Skywork UniPic 2.0 - オープンソースの効率的なマルチモーダルモデリング by KunlunWanwei

Skywork UniPic 2.0は、Quintessenceによってオープンソース化された効率的なマルチモーダルモデルであり、画像生成、編集、理解に焦点を当てている。このモデルは、2BパラメータのSD3.5-Mediumアーキテクチャに基づいており、事前学習、漸進的なデュアルタスク強化戦略、共同学習によって実現される。
8ヶ月前
045.1K
RynnRCP - 阿里达摩院推出的首个开源机器人上下文协议

RynnRCP - アリ・ダルマ研究所による初のオープンソース・ロボティクス・コンテキスト・プロトコル

RynnRCPは、Ali Dharma Instituteによるオープンソースのロボットコンテキストプロトコル(RCP)であり、身体化された知能の開発の敷居を下げ、開発プロセス全体を開放します。RynnRCPは、RCPフレームワークとRobotMotionモジュールで構成されています。RCPフレームワークは、能力の抽象化とマルチプロトコルのサポートを通じて、...
8ヶ月前
050.2K
RynnEC - 阿里达摩院开源的世界理解模型

RynnEC - アリ・ダルマ・インスティテュートのオープンソース世界理解モデル

RynnECはAlibaba Dharma Instituteが導入した世界理解モデルで、具現化知能タスクに焦点を当てている。このモデルは、映像データと自然言語を組み合わせたマルチモーダル融合技術に基づいており、シーン内のオブジェクトを多次元から解析し、オブジェクトの理解、空間認識、映像ターゲットのセグメンテーションなどの機能をサポートする。
8ヶ月前
051K
Matrix-3D - 昆仑万维开源的3D世界生成框架

Matrix-3D - 崑崙ワールドワイドオープンソース3D世界生成フレームワーク

Matrix-3Dは、Skywork AIチームによるオープンソースのフレームワークで、探索可能なパノラマ3D世界の生成に特化している。このフレームワークは、パノラマビデオ生成と3D再構成技術を組み合わせて、1枚の画像やテキストプロンプトから高品質で全方位探索可能な3D世界を生成します。
8ヶ月前
051.6K
GLM-4.5V - 智谱推出的多模态开源视觉推理模型

GLM-4.5V - Smart Spectrumによるマルチモーダル・オープンソース視覚推論モデル

GLM-4.5Vは、Smart Spectrumによって導入された世界有数のオープンソース視覚推論モデルであり、1060億の総パラメータと120億の活性化パラメータを持つ。このモデルは、新世代のテキストベースモデルGLM-4.5-Airをベースに学習され、強力な視覚理解・推論能力を持ち、画像、動画...
8ヶ月前
050.7K
Genie 3 - 谷歌推出的通用世界模型

ジーニー3 - グーグルのユニバーサル世界モデル

Genie 3は、Google DeepMindが提供する新世代のユニバーサルワールドモデルで、高度にダイナミックで一貫性のある仮想世界をリアルタイムで生成することができます。Genie 3は、物理現象や自然生態系をシミュレートし、ファンタジーや歴史的なシナリオの作成をサポートします。テキストプロンプトにより、ユーザーは...
8ヶ月前
045.2K
Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 - Anthropicの最強プログラミングモデル

Claude Opus 4.1は、複雑なタスクを効率的に処理するために設計された、Anthropicによる最先端の大規模言語モデルです。このモデルはプログラミング領域で優れており、高品質のコードを生成し、最大32kの単一出力をサポートし、幅広いプログラミングスタイルに適応します。
8ヶ月前
045.1K
gpt-oss - OpenAI推出的开源推理模型系列

gpt-oss - OpenAIによるオープンソースの推論モデルファミリー

gpt-ossはOpenAIのオープンソース推論モデルファミリーで、開発者向けに効率的で柔軟かつ容易に導入できるAIソリューションを可能にします。
8ヶ月前
043K
MiDashengLM - 小米开源的声音理解模型

MiDashengLM - シャオミのオープンソース音理解モデル

MiDashengLMは、Xiaomiのオープンソースの効率的なサウンド理解のための大規模なモデルであり、特定のパラメータバージョンMiDashengLM-7Bは、オーディオ処理と理解に焦点を当てています。このモデルは、Xiaomi DashengオーディオエンコーダとQwen2.5-オム...
8ヶ月前
045K
MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

MOSS-TTSD - 清華研究所のオープンソース二ヶ国語対話音声生成モデル

MOSS-TTSDは清華大学のSpeech and Language Labによって開発されたオープンソースの音声対話モデルです。MOSS-TTSDはテキスト対話スクリプトを自然で滑らかな表現力豊かな対話音声に変換することができ、英語と中国語のバイリンガル生成に対応しています。
8ヶ月前
047.8K