AIシェアリングサークル

AIは世界を変えようとしている!
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0 - Tencentオープンソースフリーマルチモーダル画像生成モデル

HunyuanImage 3.0(渾元画像3.0)は、テンセントがリリースし、オープンソース化したネイティブのマルチモーダル画像生成モデルである。モデルのパラメータサイズは80B、現在最高の評価結果、オープンソースの画像生成モデルの最大のパラメータ数です。Hybrid Image 3.0はリアルタイムの画像生成をサポートし、ユーザーはサイド...
8ヶ月前
049.6K
Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

Hunyuan3D-Part - Tencentオープンソースフリー3Dコンポーネント生成モデル

Hunyuan3D-Part(ハイブリッド3D-Part)は、テンセントが公開し、オープンソース化した3D生成モデルである。P3 - SAMとX - Partで構成され、高精度で制御可能なコンポーネントベースの3D生成を初めて実現し、自動生成された50以上のコンポーネントをサポートしています。ユーザーは、まず...
8ヶ月前
050.9K
AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - KU Xunfeiオープンソーステキスト生成サウンドAIモデル

AudioFlyは、KDDIが開発したテキストから効果音を生成するオープンソースのAIモデルです。AudioSet、AudioCaps、TUTなどの公開データセットと内部データセットを含む、大規模で多様な音声テキストデータセットで学習させた、10億個のパラメータを持つ潜在拡散モデルアーキテクチャに基づいています。
8ヶ月前
043.8K
Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架

Hunyuan3D-Omni - テンセント混合ソースオープンソース3Dモデル生成フレームワーク

Hunyuan3D-Omni(ハイブリッド3D-オムニ)は、Tencentのハイブリッド3Dチームによるオープンソースの3Dアセット生成フレームワークで、複数の制御信号を通じて正確な3Dモデル生成を可能にする。Hunyuan3D 2.1アーキテクチャに基づき、点...
8ヶ月前
047.4K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - 全二重音声対話モデル(FLM-Audio)は、南洋理工学院(NTI)と共同でWisdomSourceによってオープンソース化されました。

FLM-Audioは、Beijing Zhiyuan Artificial Intelligence Research InstituteとSpin Matrix、Nanyang Technological University of Singaporeが共同開発したネイティブ全二重音声対話マクロモデルで、中国語と英語の両方に対応している。ネイティブの全二重アーキテクチャを採用し、各時間ステップでリスニング、スピーキング、モノローグをマージすることができます...
8ヶ月前
040.7K
CWM - Meta FAIR开源的代码世界语言模型

CWM - メタFAIRオープンソースコード世界言語モデル

CWM(Code World Model)は、Meta FAIRチームによって公開された320億パラメータのオープンソースの世界言語モデルで、コード生成と推論のために設計された。コードの実行過程をシミュレートし、変数の状態変化を予測し、推論を進めることができる「ワールドモデル」の概念を導入している。
8ヶ月前
037K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - Antオープンソースのインテリジェントプログラミングアシスタント

Neovate Codeは、アントグループのアリペイ・エクスペリエンス・テクノロジー部が開発したオープンソースのインテリジェント・プログラミング・アシスタントで、人工知能技術によって開発効率を向上させる。会話型の開発機能により、開発者は自然言語で要件を記述することができ、Neovate Codeはそれを理解し、対応する世代を生成することができます...
8ヶ月前
040.5K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face - NVIDIAのオープンソースAI 3Dフェイシャル・アニメーション生成モデル

Audio2Faceは、音声入力をリアルな3Dフェイシャル・アニメーションに変換できるNVIDIAのオープンソースAIツールです。音声に含まれる音素やイントネーションなどの音声特徴を分析することで、正確な唇の同期と微妙な感情表現を生成し、バーチャル・キャラクターに生き生きとした人間の表情を与えます。
8ヶ月前
041.7K
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL - AliCloud Tongyi Qianqian オープンソース・マルチモーダル視覚言語マクロモデル

Qwen3-VLは、AliCloud Tongyi Qianqianチームによるオープンソースのマルチモーダル視覚言語ラージモデルで、2,350億の参照と約471GBのモデルファイルを持っています。命令バージョンと思考バージョンを含み、強化されたMRopeインターリーブレイアウト、DeepStackなどの技術を採用し、視覚変換を効果的に使用することができます...
8ヶ月前
056.9K
Qwen3Guard - 阿里Qwen开源的安全模型

Qwen3Guard - Ali Qwenオープンソースセキュリティモデル

Qwen3Guardは、Qwen3の基本モデルに基づき、セキュリティ検出のために設計された、きめ細かいセキュリティ保護モデルです。Qwen3Guardは、2つのプロ...
8ヶ月前
045.7K