AIシェアリングサークル

AIは世界を変えようとしている！

深さ何でも3 - ByteHopシードオープンソース用3Dビジュアル再構築モデル

Depth Anything 3（DA3）は、Byte Jump Seedチームによって開発され、オープンソース化された3D視覚再構成モデルです。単一のトランスフォーマーアーキテクチャを通して、どのような視点でも空間的なジオメトリの再構築を実現し、深度マップとレイマップを予測するだけで3Dシーンを復元することができます。

最新のAIリソース

8ヶ月前

049K

DeepSeek-Math-V2 - DeepSeek オープンソース数理推論モデル

DeepSeek-Math-V2は、ファントムキューブ傘下のAI企業であるDeepSeek社のオープンソース数理推論モデルで、最新バージョンはDeepSeek-V3.2-Exp-Baseの改良をベースにしており、Gemini DeepThinkを上回るパフォーマンスで国際的なナンバーワンに達している。

最新のAIリソース

8ヶ月前

040.6K

Z-Image - Ali Tongyi Labs オープンソース画像生成モデル

Z-Imageは、Ali Tongyi Labsによるオープンソースの画像生成モデルで、効率的で高速かつ強力な画像生成機能を備えています。シングルストリーム拡散トランスフォーマーアーキテクチャ（S3-DiT）を使用し、テキスト、ビジュアルセマンティクス、画像VAEトークンを統一された入力ストリームに統合します。

最新のAIリソース

8ヶ月前

064.5K

ROCK - アリババがオープンソースのサンドボックスで提供するインテリジェントな身体トレーニング環境

ROCK（Reinforcement Open Construction Kit）は、アリババのオープンソースサンドボックスで、インテリジェンスのトレーニング環境のためのもので、実環境ではインテリジェンスを大規模にトレーニングできないという問題を解決する。

最新のAIリソース

8ヶ月前

043K

ViMax - 香港大学のオープンソースマルチインテリジェントボディビデオ生成フレームワーク

ViMaxは、香港大学のデータサイエンス研究所が開発したオープンソースのマルチインテリジェンス・ボディ・ビデオ生成フレームワークで、クリエイティブな入力からビデオ出力までの全プロセスを自動化することができます。スクリプト生成、シーンデザイン、ショットプランニング、ビデオレンダリング機能を統合し、自然言語記述による首尾一貫した映画・テレビグレードのビデオ生成をサポートします。

最新のAIリソース

8ヶ月前

0113.1K

FLUX.2 - Black Forest オープンソース画像生成・編集モデル

FLUX.2は、Black Forest Labsが公開したオープンソースの画像生成・編集モデルで、テキストによる生画像、複数画像の参照、より豊かなディテール、鮮明なテクスチャ、安定したライティングによる画像編集をサポートしています。4つのバージョンがあります：FLUX.2 [pro]（クローズドソースのトップと同等...

最新のAIリソース

8ヶ月前

040.8K

Fara-7B - マイクロソフトのオープンソース・コンピュータ操作アシスタント・モデル

Fara-7Bは、Qwen 2.5-VL-7Bアーキテクチャに基づいた70億パラメータ規模のコンピュータ操作エージェント（CUA）モデルのマイクロソフトオープンソースリリースです。ウェブページのスクリーンショットを視覚的に解析し、画面上でクリックや入力などを実行することで、追加のアクセシビリティツリーや複数の大規模モデルに依存する必要がありません...

最新のAIリソース

8ヶ月前

046.1K

HunyuanOCR - テンセント混合元オープンソース光学式文字認識エキスパートモデル

HunyuanOCRは、Tencentハイブリッドチームによってオープンソース化された高性能な光学式文字認識モデルであり、わずか10億件の参照しかない。ハイブリッドマルチモーダルアーキテクチャに基づいて開発され、エンドツーエンドの設計を採用し、テキスト検出、認識、文書解析タスクを効率的に処理することができます。このモデルは複雑な文書のテストで94.1点を獲得し、...

最新のAIリソース

8ヶ月前

048.8K

Supertonic - オフラインで猛スピードで動作するオープンソースの高性能AI音声合成システム。

Supertonicは、オープンソースの高性能音声合成（TTS）システムで、ローカルデバイスでの迅速な音声生成に重点を置いている。ONNXランタイム・テクノロジーを使用しているため、携帯電話、コンピュータ、Raspberry Piなどのデバイスで動作し、23の言語と音声クローンをサポートし、ネットワークを必要としません。

最新のAIリソース

8ヶ月前

042.4K

MiMo-Embodied - シャオミのオープンソース・クロスドメイン具現化知能台座モデル

MiMo-Embodiedは、シャオミグループがオープンソース化した世界初のクロスエンボディベースモデルであり、エンボディドAIと自律走行の統合に成功している。エンボディドAIと自律走行間の知識移行問題を解決し、2つの領域におけるタスクの統一的なモデリングを実現する。

最新のAIリソース

8ヶ月前

047.3K