AIシェアリングサークル

AIは世界を変えようとしている!
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

中項InternVLA-A1 - 上海AIラボ、具現化された大型モデルの運用能力をオープンソースで統合

InternVLA-A1は、上海人工知能研究所によってオープンソース化された体現操作の大型モデルである。統合を理解し、想像し、実行する能力を持ち、タスクを正確に完了することができる。このモデルは、実際の操作データとシミュレーションされた操作データを融合し、大規模なバーチャルとリアルのハイブリッドシーン資産を通じて、大規模なマルチモーダルの構築を自動化する。
16時間前
0837
VoxCPM - 面壁智能联合清华开源的端到端TTS模型

中項VoxCPM - Facing Intelligenceと清華オープンソースのエンドツーエンドTTSモデル

VoxCPMはエンド・ツー・エンドの拡散自己回帰アーキテクチャを採用し、テキストから直接連続音声表現を生成することで、従来の離散的な曖昧性解消の限界を打ち破っている。階層的言語モデリングと有限状態量子化を通して...
17時間前
01.2K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

中項InternVLA-N1 - 上海AIラボ オープンソース エンドツーエンド デュアルシステムナビゲーション 大型モデル

InternVLA-N1は、上海人工知能研究所によってオープンソース化されたエンドツーエンドのデュアルシステム・ナビゲーション・マクロモデルである。デュアルシステムアーキテクチャを用い、システム2が言語コマンドの理解と長距離経路の計画を担当し、システム1が高周波応答と機敏な障害物回避に重点を置いている。このモデルの学習は、大規模なデジタルデータ処理による合成データに基づいて行われる。
17時間前
01.1K
VLAC - 上海AI Lab开源的具身奖励大模型

中項VLAC - 上海AIラボのオープンソース大型報酬体現モデル

VLACは、上海人工知能研究所のオープンソースの具現化報酬マクロモデルです。InternVLマルチモーダル・マクロモデルに基づき、インターネットのビデオデータとロボットの操作データを統合し、実世界におけるロボットの強化学習にプロセス報酬とタスク完了の推定を提供します。
23時間前
01K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

中項InternVLA-M1 - 上海AIラボのオープンソース・エンベディッド・デュアルシステム・オペレーション "ブレイン"

InternVLA-M1は、上海人工知能研究所のオープンソースの具現化されたオペレーティング「脳」であり、命令追従を指向する2システムオペレーションの大型モデルである。思考-行動-学習」をカバーする完全な閉ループを構築し、高レベルの空間推論とタスク計画を担当する。このモデルは2段階の訓練方針を採用している。
2日前
02.8K
PromptEnhancer - 腾讯混元开源的AI提示词增强工具

中項PromptEnhancer - TencentハイブリッドオープンソースAIプロンプト単語拡張ツール

PromptEnhancerは、TencentのMixed Metaチームによるオープンソースのプロンプト語強化ツールで、テキストから画像への変換(Text-to-Image、T2I)モデルの生成を改善します。推論の連鎖(Chain-of-Thought, CoT)アプローチにより、...
2日前
03.1K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - Yushu Technology オープンソースワールドモデルアクションアーキテクチャ

UnifoLM-WMA-0は、Yu Shu Technologyによる複数のクラスのロボットオントロジーにまたがるオープンソースのワールドモデル-アクションアーキテクチャであり、一般的なロボット学習のために設計されている。ワールドモデルとアクションアーキテクチャから構成され、ワールドモデルはロボットと環境の相互作用の物理法則を理解し、アクションアーキテクチャは特定の...
3日前
04.3K
InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - Mission Vision AI用オープンソース音声駆動ビデオ生成ツール

InfiniteTalkは、MeiGen-AIチームによって開発された音声駆動型の動画生成ツールで、入力された音声に基づいて長さ無制限のトーキング動画を生成する。主な特長は、正確なリップシンク技術で、音声とキャラクターの口の形を完全に一致させ、自然で滑らかな動画を生成します。
3日前
04.6K
ROMA - 开源的元Agent框架,自动分解复杂任务并行处理

ROMA - 並列処理のための複雑なタスクの自動分解のためのオープンソースメタエージェントフレームワーク

ROMA (Recursive-Open-Meta-Agent) は Sentient AGI によって開発されたオープンソースのメタエージェントフレームワークで、再帰的なタスク分解と並列処理によって複雑な問題を効率的に解決します。Python 3.12+、Docker、...をサポートしています。
3日前
04.4K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - 上海AIラボとHuawei Riseがオープンソース化したマルチモーダル大型モデル

Lumina-DiMOOは、上海人工知能研究所(SAL)が世界人工知能会議2025でファーウェイ・ライズと共同で発表した、マルチモーダル生成・理解のための新世代統一モデルである。Rise AI基本ハードウェア・ソフトウェアプラットフォームとMindSpeed MMマルチモーダル大規模モデルスイートをベースとし、...
3日前
03.8K