AIシェアリングサークル

AIは世界を変えようとしている!
Logics-Parsing - 阿里开源的文档解析模型

Logics-Parsing - Ali オープンソース文書解析モデル

Logics-Parsingは、Qwen2.5-VL-7Bをベースとした、オープンソースのAliのエンドツーエンドの文書解析モデルです。 強化学習を通じて、文書のレイアウト解析と読み順推論を最適化し、PDF画像を構造化されたHTML出力に変換することができます。
1週間前
011.8K
Ring-1T-preview - 蚂蚁集团开源的万亿参数大模型

Ring-1T-preview - Antグループのオープンソースの兆パラメータ大規模モデル

Ring-1T-previewは、Ant Groupによるオープンソースの1兆パラメータマクロモデルであり、Ling2.0 MoEアーキテクチャに基づき、20Tコーパスで事前学習され、ASystem(自社開発の強化学習システム)によって推論能力が学習される。自然言語推論では...
1週間前
011.4K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - ウィズダムソース研究所 オープンソース ゼロサンプル クロスオントロジー 一般化体現モデル

RoboBrain-X0は、ウィズダムソース研究所がオープンソース化した世界初のサンプル数ゼロのクロスオントロジー汎化をサポートする具現化モデルであり、産業上大きな意義がある。異なる構成の複数の実ロボットを駆動し、微調整なしで基本的な操作タスクを完了させることができ、少量のサンプル微調整を行った後、ロボットの動作を再現する能力を発揮します。
1週間前
09.6K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - ByteHopのオープンソース高忠実度ビデオ生成モデル

Lynxは、ByteDanceによってオープンソース化された高忠実度のパーソナライズド・ビデオ生成モデルであり、1枚のポートレート写真だけで、アイデンティティに一貫性のあるビデオを生成することができます。ディフュージョントランスフォーマー(DiT)をベースモデルとしており、IDアダプターとRef-adapte...
2週間前
010.8K
DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - ディープシークの最新のオープンソース実験的AIモデル

DeepSeek-V3.2-Expは、DeepSeekがオープンソース化した実験的なAIモデルで、DeepSeek Sparse Attention(DSA)メカニズムを導入することで、長文処理の効率を大幅に向上させています。このモデルはDeepSeek...
2週間前
011.1K
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0 - Tencentオープンソースフリーマルチモーダル画像生成モデル

HunyuanImage 3.0(渾元画像3.0)は、テンセントがリリースし、オープンソース化したネイティブのマルチモーダル画像生成モデルである。モデルのパラメータサイズは80B、現在最高の評価結果、オープンソースの画像生成モデルの最大のパラメータ数です。Hybrid Image 3.0はリアルタイムの画像生成をサポートし、ユーザーはサイド...
2週間前
015.4K
Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

Hunyuan3D-Part - Tencentオープンソースフリー3Dコンポーネント生成モデル

Hunyuan3D-Part(ハイブリッド3D-Part)は、テンセントが公開し、オープンソース化した3D生成モデルである。P3 - SAMとX - Partで構成され、高精度で制御可能なコンポーネントベースの3D生成を初めて実現し、自動生成された50以上のコンポーネントをサポートしています。ユーザーは、まず...
2週間前
013.3K
AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - KU Xunfeiオープンソーステキスト生成サウンドAIモデル

AudioFlyは、KDDIが開発したテキストから効果音を生成するオープンソースのAIモデルです。AudioSet、AudioCaps、TUTなどの公開データセットと内部データセットを含む、大規模で多様な音声テキストデータセットで学習させた、10億個のパラメータを持つ潜在拡散モデルアーキテクチャに基づいています。
2週間前
012.9K
Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架

Hunyuan3D-Omni - テンセント混合ソースオープンソース3Dモデル生成フレームワーク

Hunyuan3D-Omni(ハイブリッド3D-オムニ)は、Tencentのハイブリッド3Dチームによるオープンソースの3Dアセット生成フレームワークで、複数の制御信号を通じて正確な3Dモデル生成を可能にする。Hunyuan3D 2.1アーキテクチャに基づき、点...
2週間前
012.6K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - 全二重音声対話モデル(FLM-Audio)は、南洋理工学院(NTI)と共同でWisdomSourceによってオープンソース化されました。

FLM-Audioは、Beijing Zhiyuan Artificial Intelligence Research InstituteとSpin Matrix、Nanyang Technological University of Singaporeが共同開発したネイティブ全二重音声対話マクロモデルで、中国語と英語の両方に対応している。ネイティブの全二重アーキテクチャを採用し、各時間ステップでリスニング、スピーキング、モノローグをマージすることができます...
2週間前
011.7K