AIシェアリングサークル

AIは世界を変えようとしている!
ViMax - 香港大学开源的多智能体视频生成框架

ViMax - 香港大学のオープンソースマルチインテリジェントボディビデオ生成フレームワーク

ViMaxは、香港大学のデータサイエンス研究所が開発したオープンソースのマルチインテリジェンス・ボディ・ビデオ生成フレームワークで、クリエイティブな入力からビデオ出力までの全プロセスを自動化することができます。スクリプト生成、シーンデザイン、ショットプランニング、ビデオレンダリング機能を統合し、自然言語記述による首尾一貫した映画・テレビグレードのビデオ生成をサポートします。
6ヶ月前
073.7K
FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2 - Black Forest オープンソース画像生成・編集モデル

FLUX.2は、Black Forest Labsが公開したオープンソースの画像生成・編集モデルで、テキストによる生画像、複数画像の参照、より豊かなディテール、鮮明なテクスチャ、安定したライティングによる画像編集をサポートしています。4つのバージョンがあります:FLUX.2 [pro](クローズドソースのトップと同等...
6ヶ月前
028.9K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - マイクロソフトのオープンソース・コンピュータ操作アシスタント・モデル

Fara-7Bは、Qwen 2.5-VL-7Bアーキテクチャに基づいた70億パラメータ規模のコンピュータ操作エージェント(CUA)モデルのマイクロソフトオープンソースリリースです。ウェブページのスクリーンショットを視覚的に解析し、画面上でクリックや入力などを実行することで、追加のアクセシビリティツリーや複数の大規模モデルに依存する必要がありません...
6ヶ月前
034.1K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - テンセント混合元オープンソース光学式文字認識エキスパートモデル

HunyuanOCRは、Tencentハイブリッドチームによってオープンソース化された高性能な光学式文字認識モデルであり、わずか10億件の参照しかない。ハイブリッドマルチモーダルアーキテクチャに基づいて開発され、エンドツーエンドの設計を採用し、テキスト検出、認識、文書解析タスクを効率的に処理することができます。このモデルは複雑な文書のテストで94.1点を獲得し、...
6ヶ月前
035.5K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

Supertonic - オフラインで猛スピードで動作するオープンソースの高性能AI音声合成システム。

Supertonicは、オープンソースの高性能音声合成(TTS)システムで、ローカルデバイスでの迅速な音声生成に重点を置いている。ONNXランタイム・テクノロジーを使用しているため、携帯電話、コンピュータ、Raspberry Piなどのデバイスで動作し、23の言語と音声クローンをサポートし、ネットワークを必要としません。
6ヶ月前
030K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - シャオミのオープンソース・クロスドメイン具現化知能台座モデル

MiMo-Embodiedは、シャオミグループがオープンソース化した世界初のクロスエンボディベースモデルであり、エンボディドAIと自律走行の統合に成功している。エンボディドAIと自律走行間の知識移行問題を解決し、2つの領域におけるタスクの統一的なモデリングを実現する。
6ヶ月前
035K
MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech - 復旦大学オープンソース音声合成ビッグモデル

MOSS-Speechは復旦大学の邱西鵬教授のチームによるオープンソースの音声合成(Speech-to-Speech)ビッグモデルです。従来の音声処理の常識を打ち破り、テキストガイダンスを必要とせず、直接音声を理解・生成し、イントネーションや感情などの非テキスト要素を取り込み、...
6ヶ月前
030.4K
Parallax - Gradient开源的全球首个全自主AI操作系统

Parallax - Gradientがオープンソース化した世界初の完全自律型AIオペレーティング・システム

Parallaxは、分散型AIラボのGradientがオープンソース化した、世界初の「完全自律型AIオペレーティング・システム」である。Mac、Windows、その他の異種デバイス上での大規模モデルのクロスプラットフォーム展開をサポートし、ユーザーはモデル、データ、AIメモリを完全に制御することができる。このシステムは、ネットワークを意識したビルトイン ...
6ヶ月前
085.9K
HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型

HunyuanVideo 1.5 - Tencent混合元フリーオープンソース軽量ビデオ生成モデル

HunyuanVideo 1.5は、Tencentハイブリッドビッグモデルチームオープンソースの軽量ビデオ生成モデルであり、拡散トランスフォーマー(DiT)アーキテクチャに基づいて、パラメータの数は8.3Bです。
6ヶ月前
037.4K
Awex - 蚂蚁集团开源的高性能权重交换框架

Awex - Antグループのオープンソース高性能ウェイト交換フレームワーク

Awexは、Ant Groupのオープンソース高性能重み交換フレームワークであり、強化学習における大規模なパラメータ同期のために設計されています。Awexは、テラバイトのパラメータ交換を数秒で完了させることができ、学習と推論の効率を大幅に向上させます。Awexの同期性能は非常に高速で、1,000枚のカードクラスタでは、1兆個のパラメータモデルを、全パラメータ量の6秒以内に完了させることができます。
6ヶ月前
083.1K