AIシェアリングサークル

AIは世界を変えようとしている!
Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

中項Ming-flash-omni-Preview - Antグループのオープンソースフルモーダルマクロモデル

Ming-flash-omni-Previewは、Ant Group inclusionAIによって公開されたオープンソースのフルモーダル・マクロモデルです。Ling 2.0のスパースMoEアーキテクチャに基づき、パラメータ規模は数千億、総パラメータは103B、アクティブ度は9Bです。
13時間前
01.3K
OmniVinci - NVIDIA开源的全模态大语言模型

中項オムニヴィンチ - NVIDIAのオープンソース全方位大規模言語モデル

OmniVinciは、NVIDIAによって開発されたオープンソースのフルモーダル大規模言語モデルであり、アーキテクチャの革新とデータの最適化を通じて、マルチモーダルモデルにおけるモーダルの断片化の問題を解決します。視覚と音声のエンベッディングのアライメントは、時間的に埋め込まれたグループキャプチャを利用するOmniAlignNetによって強化されます...
19時間前
01.3K
olmOCR 2 - AI2开源的多模态文档解析模型

中項olmOCR 2 - AI2 オープンソース・マルチモーダル文書解析モデル

olmOCR 2は、Allen Institute for Artificial Intelligence (AI2)によるオープンソースのマルチモーダル文書解析モデルで、olmOCRのアップグレード版である。デジタル化された印刷文書(PDFなど)を高...
2日前
03.8K
ValueCell - 开源的多智能体金融平台,多个Agent分工协作

中項ValueCell - 複数のエージェントが連携するオープンソースのマルチインテリジェンス金融プラットフォーム

ValueCellは、AI技術によって金融分析と投資管理の効率を向上させるオープンソースのマルチインテリジェント体金融アプリケーションプラットフォームです。プロの投資チームをシミュレートし、複数のAI知能が連携して、市場分析、センチメント分析、ファンダメンタルズ調査、自動売買などの機能をカバーし、ユーザーに包括的な...
2日前
03.7K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

中項Dexbotic-フォース・スピリット・マシンのオープンソースVLAモデル具現化知能ワンストップ研究サービス・プラットフォーム

Dexboticは、DexmalのオープンソースVisual-Linguistic-Action(VLA)モデルの具現化知能ワンストップ研究サービスプラットフォームであり、具現化知能分野の研究の断片化と低効率の問題を解決します。PyTorchをベースとしたDexboticは、具現化知能分野における研究の断片化と低効率の問題を解決するためのワンストップ研究サービスプラットフォームです...
2日前
02.5K
LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video - ミッションのLongCatオープンソースビデオ生成モデル

LongCat-Videoは、LongCatチームによる13.6億パラメータのビデオ生成モデルで、MITオープンソースプロトコルを使用し、テキスト生成ビデオ、グラフ生成ビデオ、ビデオ継続の3つの主要なタスクをサポートしています。このモデルは、"粗いものから細かいものへ "という生成戦略とブロック・スパース・アテンション・メカニズムにより、何分...
3日前
06.2K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - HKUSTオープンソース・マルチモーダルAI画像編集・生成モデル

DreamOmni2は、HKUSTのJiajiaチームによるオープンソースのマルチモーダルAI画像編集・生成モデルである。テキストと画像のコマンドを同時に処理することができ、複数の参照画像をサポートし、クリエイターにより柔軟な創作方法を提供する。このモデルは、3段階のデータ合成プロセスを使用して学習され、共同学習生成/編集...
6日前
08.9K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

混成世界モデル1.1 - テンセント混成世界オープンソース3D復元大型モデルリリース

WorldMirror 1.1(WorldMirror)は、TencentのWorldMirrorチームによってリリースされたオープンソースの大規模モデルの3D再構築であり、WorldMirrorシリーズのアップグレード版である。マルチビュー画像、動画、カメラ位置、内部参照、深度マップなどのマルチモーダル先験的入力をサポートしています。
1週間前
011.4K
DeepSeek-OCR - DeepSeek开源的光学字符识别模型

DeepSeek-OCR - DeepSeekオープンソース光学式文字認識モデル

DeepSeek-OCRは、DeepSeekチームによってオープンソース化された高度な光学式文字認識(OCR)モデルであり、「文脈光学圧縮」技術によってテキストを画像に変換し、圧縮と復号に視覚的トークンを使用することで、効率的な長文テキスト処理を実現する。
1週間前
011.5K
VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - MMT LongCatオープンソースインタラクティブエージェントレビューベンチマーク

VitaBenchは、MeituanのLongCatチームによってリリースされた、複雑な生活シナリオのための初の対話型エージェント評価ベンチマークであり、実際の生活シナリオにおける大規模なモデル知能の総合的な能力を評価する。テイクアウト注文、レストランでの食事、旅行という高頻度の3つの生活シナリオをキャリアとして、パッケージを構築する...
1週間前
09.2K