AIシェアリングサークル

AIは世界を変えようとしている!
Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image - Ali Tongyi Labs オープンソース画像生成モデル

Z-Imageは、Ali Tongyi Labsによるオープンソースの画像生成モデルで、効率的で高速かつ強力な画像生成機能を備えています。シングルストリーム拡散トランスフォーマーアーキテクチャ(S3-DiT)を使用し、テキスト、ビジュアルセマンティクス、画像VAEトークンを統一された入力ストリームに統合します。
4ヶ月前
049.8K
ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK - アリババがオープンソースのサンドボックスで提供するインテリジェントな身体トレーニング環境

ROCK(Reinforcement Open Construction Kit)は、アリババのオープンソースサンドボックスで、インテリジェンスのトレーニング環境のためのもので、実環境ではインテリジェンスを大規模にトレーニングできないという問題を解決する。
4ヶ月前
026.9K
ViMax - 香港大学开源的多智能体视频生成框架

ViMax - 香港大学のオープンソースマルチインテリジェントボディビデオ生成フレームワーク

ViMaxは、香港大学のデータサイエンス研究所が開発したオープンソースのマルチインテリジェンス・ボディ・ビデオ生成フレームワークで、クリエイティブな入力からビデオ出力までの全プロセスを自動化することができます。スクリプト生成、シーンデザイン、ショットプランニング、ビデオレンダリング機能を統合し、自然言語記述による首尾一貫した映画・テレビグレードのビデオ生成をサポートします。
4ヶ月前
044K
FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2 - Black Forest オープンソース画像生成・編集モデル

FLUX.2は、Black Forest Labsが公開したオープンソースの画像生成・編集モデルで、テキストによる生画像、複数画像の参照、より豊かなディテール、鮮明なテクスチャ、安定したライティングによる画像編集をサポートしています。4つのバージョンがあります:FLUX.2 [pro](クローズドソースのトップと同等...
4ヶ月前
026.2K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - マイクロソフトのオープンソース・コンピュータ操作アシスタント・モデル

Fara-7Bは、Qwen 2.5-VL-7Bアーキテクチャに基づいた70億パラメータ規模のコンピュータ操作エージェント(CUA)モデルのマイクロソフトオープンソースリリースです。ウェブページのスクリーンショットを視覚的に解析し、画面上でクリックや入力などを実行することで、追加のアクセシビリティツリーや複数の大規模モデルに依存する必要がありません...
4ヶ月前
031.7K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - テンセント混合元オープンソース光学式文字認識エキスパートモデル

HunyuanOCRは、Tencentハイブリッドチームによってオープンソース化された高性能な光学式文字認識モデルであり、わずか10億件の参照しかない。ハイブリッドマルチモーダルアーキテクチャに基づいて開発され、エンドツーエンドの設計を採用し、テキスト検出、認識、文書解析タスクを効率的に処理することができます。このモデルは複雑な文書のテストで94.1点を獲得し、...
4ヶ月前
033.1K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

Supertonic - オフラインで猛スピードで動作するオープンソースの高性能AI音声合成システム。

Supertonicは、オープンソースの高性能音声合成(TTS)システムで、ローカルデバイスでの迅速な音声生成に重点を置いている。ONNXランタイム・テクノロジーを使用しているため、携帯電話、コンピュータ、Raspberry Piなどのデバイスで動作し、23の言語と音声クローンをサポートし、ネットワークを必要としません。
4ヶ月前
027.6K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - シャオミのオープンソース・クロスドメイン具現化知能台座モデル

MiMo-Embodiedは、シャオミグループがオープンソース化した世界初のクロスエンボディベースモデルであり、エンボディドAIと自律走行の統合に成功している。エンボディドAIと自律走行間の知識移行問題を解決し、2つの領域におけるタスクの統一的なモデリングを実現する。
4ヶ月前
032.7K
MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech - 復旦大学オープンソース音声合成ビッグモデル

MOSS-Speechは復旦大学の邱西鵬教授のチームによるオープンソースの音声合成(Speech-to-Speech)ビッグモデルです。従来の音声処理の常識を打ち破り、テキストガイダンスを必要とせず、直接音声を理解・生成し、イントネーションや感情などの非テキスト要素を取り込み、...
4ヶ月前
028.1K
Parallax - Gradient开源的全球首个全自主AI操作系统

Parallax - Gradientがオープンソース化した世界初の完全自律型AIオペレーティング・システム

Parallaxは、分散型AIラボのGradientがオープンソース化した、世界初の「完全自律型AIオペレーティング・システム」である。Mac、Windows、その他の異種デバイス上での大規模モデルのクロスプラットフォーム展開をサポートし、ユーザーはモデル、データ、AIメモリを完全に制御することができる。このシステムは、ネットワークを意識したビルトイン ...
4ヶ月前
083.8K