AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - 清華大学United Bytesオープンソース・マルチモーダルビデオ生成フレームワーク

HuMoは、清華大学とByteDance Intelligent Creation Labが共同でオープンソース化したマルチモーダル映像生成フレームワークで、人間中心の映像生成に焦点を当てている。HuMoは、テキスト、画像、音声などのマルチモーダル入力から、高品質かつきめ細かく制御可能な人物映像を生成することができる。
7ヶ月前
0119.8K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - FudanとAli Dharma Instituteとその他のオープンソースインテリジェント画像アニメーション生成フレームワーク

AnyI2Vは復旦大学、Alibaba Darmo Academyなどが共同で立ち上げた画像アニメーション生成フレームワークで、複雑な学習プロセスや大量のデータを必要とせずに、静的な条件画像(グリッド、点群など)を動的な動画に変換することをサポートする。
7ヶ月前
034.5K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

文信ビッグモデルX1.1 - 百度のより良い理解のための深層思考モデル

Wenxin Big Model X1.1は、バイドゥが発表したディープシンキングモデルで、ハイブリッド強化学習フレームワークに基づいており、言語理解と生成の向上に重点を置いている。このモデルは、複雑な質問の処理、指示に従うこと、知性の行動のシミュレーションに優れており、知識豊富な回答や高品質のテキストコンテンツを正確に提供することができる。
7ヶ月前
040.3K
混元图像2.1 - 腾讯推出的开源文生图模型

ハイブリッドイメージ2.1 - テンセントのオープンソース・ベンダーグラフ・モデル

HunyuanImage 2.1は、高品質の画像生成のために設計されたテンセントのオープンソースグラフィックモデルです。このモデルはネイティブ2K解像度をサポートし、複雑なシーンやディテールを正確にレンダリングすることができ、キャラクターの表情や動きを生き生きと再現することができます。
7ヶ月前
036.5K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - フリーのAIセマンティック文書スライスツール、動的スライス調整

AntSK FileChunk は、RAG (Retrieval Augmented Generation) アプリケーションのために設計された、無料のインテリジェントドキュメントスライスツールです。セマンティックを中核として、文書はインテリジェントに、意味的に完全で首尾一貫したセグメントにスライスされ、多言語をサポートし、文脈の一貫性を保証するためにスライスのサイズを動的に調整します。
7ヶ月前
040.6K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - Facing Face Intelligenceによる超高効率エンドサイドマクロモデリング

MiniCPM4.1は、Facade Intelligenceが導入した超高効率エンドサイド大規模言語モデルです。InfLLM v2スパース・アテンション・アーキテクチャにより、各辞素は5%個以下の語彙との相関を計算するだけでよく、長文の処理オーバーヘッドを大幅に削減します。128K長文のシナリオでは...
7ヶ月前
035.6K
WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - Tencent WeChatオープンソースドキュメント理解と意味検索フレームワーク

WeKnoraはTencent WeChatチームのオープンソースで、Large Language Model (LLM)文書理解と意味検索フレームワークに基づいており、複雑な異種文書コンテンツシナリオの構造のために設計され、モジュラーアーキテクチャを使用するように設計されており、マルチモーダル前処理、セマンティックベクターインデキシング、インテリジェントリコールと大規模なモデルの生成推論の統合...
7ヶ月前
077.3K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Shanghai AI Lab オープンソース大規模モデルトレーニングエンジン

XTuner V1は、上海人工知能研究所によってオープンソース化された新世代の大規模モデル学習エンジンであり、超大規模スパース混合エキスパート(MoE)モデル学習用に設計されている。PyTorch FSDPをベースに開発され、メモリ、通信、負荷の多次元最適化により高性能を実現しています。
7ヶ月前
036.2K
人工智能治理(AI Governance)是什么,一文看懂

人工知能ガバナンス(AIガバナンス)とは何か?

AIガバナンスとは、技術、倫理、法律、社会を網羅する包括的な枠組みであり、AIシステムの設計から開発、導入、最終利用までのライフサイクル全体を効果的に指導、管理、監督するものである。中心的な目標は、技術革新を妨げることではなく、AI技術の開発と応用が確実に始まるようにすることである。
7ヶ月前
044.4K
半监督学习(Semi-Supervised Learning)是什么,一文看懂

半教師付き学習(SSL)とは何か?

半教師付き学習は機械学習の分野で重要な分野であり、学習効果と汎化能力を向上させるために、少量のラベル付きデータと大量のラベルなしデータを用いてモデルを共学習させる。
7ヶ月前
042.6K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - Tongyi Qianqianのフラッグシップ・ビッグ言語モデル

Qwen3-Max-Previewは、Tongyi Qianwenがリリースした最新のフラッグシップ大規模言語モデルです。Qwen3ファミリーの中で最大のパラメータ数を持つモデルであり、パラメータサイズは1兆を超える。推論、命令追従、多言語サポート、ロングテール知識カバレッジが大幅に改善されています。
7ヶ月前
040.8K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - Meituanと上海交通大学のオープンソース・マルチモーダルモデル

OneCATは、Meituanが上海交通大学と共同で発表した新しい統一マルチモーダルモデルで、マルチモーダル理解、テキスト画像生成、画像編集機能をシームレスに統合した純粋なデコーダーアーキテクチャを採用している。このモデルは、外部の視覚コーダーや曖昧性解消器に依存する従来のマルチモーダルモデルの設計を放棄し、モダリティに特化した...
7ヶ月前
039.2K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman(インフィニティ・ヒューマン):バイトがZJUと共同で立ち上げた長編ビデオ・デジタル・ヒューマン・ジェネレーション・モデル

InfinityHumanは、ByteDanceと浙江大学が共同で発表した商用レベルの長時間音声駆動型キャラクター動画生成モデルである。このモデルは音声駆動型であり、高解像度、長時間、視覚的に一貫性のあるキャラクター動画を生成することができる。
7ヶ月前
037.3K
Kimi K2-0905 - 月之暗面推出的最新模型版本

Kimi K2-0905 - Dark Side of Moonの最新モデル!

Kimi K2-0905は、Dark Side of the Moon Technologies Ltd.の先進的なAIモデルであり、プログラミング支援に優れ、効率的にコードを生成し、フロントエンド開発において整然とした標準化されたコードの生成をサポートします。モデルのコンテキスト長は256Kまで拡張され、複雑なタスクにも対応します。
7ヶ月前
074.7K
强化学习 (Reinforcement Learning)是什么,一文看懂

強化学習とは何か?

強化学習は機械学習の重要な一分野であり、インテリジェンスが環境との継続的な相互作用を通じて、長期的な累積報酬を最大化するために最適な決定を下す方法を自律的に学習できるようにすることに主眼が置かれている。
7ヶ月前
036K
监督学习(Supervised Learning)是什么,一文看懂

教師あり学習(SL)とは何か?

教師あり学習は、機械学習の最も一般的で基本的な手法のひとつであり、その核となる考え方は、「正解」のある既存のデータセットを使って、予測や判断を行う方法をコンピューターモデルに教えることである。
7ヶ月前
038.2K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager-テンセントオープンソースの超長距離ローミングワールドモデル

HunyuanWorld-Voyager(略してHunyuan Voyager)は、テンセントがリリースした業界初のネイティブ3D再構成をサポートする超長距離ローミングワールドモデルである。1枚の画像からユーザーが定義したカメラパスの3D点群シーケンスを生成する新しいビデオ拡散フレームワークであり、...
7ヶ月前
040.3K
Step-Audio 2 mini - 阶跃星辰开源的语音大模型

Step-Audio 2 mini - Step-Star オープンソース音声マクロモデリング

Step-Audio 2 miniは、Step-Audioによるオープンソースのエンドツーエンド音声マクロモデルです。従来の音声モデル構造を打破し、真のエンド・ツー・エンド・マルチモーダルアーキテクチャを採用しており、生の音声入力をより低遅延で音声応答出力に直接変換し、パラ言語情報と非音声信号を理解します。
7ヶ月前
046.3K
MobileCLIP2 - 苹果公司开源的高效端侧多模态模型

MobileCLIP2 - アップルのオープンソースによる効率的なエンドサイド・マルチモーダルモデル

MobileCLIP2は、Appleの研究者によって導入された効率的なエンドサイド・マルチモーダルモデルであるMobileCLIPのアップグレード版です。マルチモーダル強化トレーニング用に最適化され、DFNデータセットでより良いパフォーマンスをトレーニングすることでCLIP教師モデルを統合し、グラフィカルな生成機能を改善しました。
7ヶ月前
050.1K
InternVL3.5 - 上海AI实验室开源的多模态大模型

InternVL3.5 - 上海AIラボ オープンソース マルチモーダル大規模モデル

InternVL3.5(Shusheng-Wanxiang3.5)は、上海人工知能研究所のオープンソース・マルチモーダル大型モデルであり、一般的な能力、推論能力、展開効率の面で完全にアップグレードされ、10億から2410億パラメータまでの9つのサイズのバージョンを提供し、厚さを含むさまざまなリソース需要シナリオをカバーする。
7ヶ月前
048.7K
FastVLM - 苹果公司推出的视觉语言模型

FastVLM - Appleのビジュアル言語モデリング

FastVLM(Fast Vision Language Model)は、アップルが導入した効率的な視覚言語モデルである。FastViTHDハイブリッド視覚コーダーをコアとし、畳み込みとトランスフォーマーアーキテクチャを組み込むことで、視覚言語を大幅に...
7ヶ月前
046.3K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - 模範的な指示に従う能力を評価するためのMeeseeksオープンソース評価セット

Meeseeksは、MeituanのM17チームがモデルの指示に従う能力を評価するために使用しているオープンソースの大規模モデル評価セットです。Meeseeksは、モデルがマクロレベルからミクロレベルまでユーザーの指示に厳密に従った回答を生成できるかどうかを総合的に測定するために3段階の評価フレームワークを使用しており、回答内容の知識をプラス評価することはありません...
7ヶ月前
041.1K
gpt-realtime - OpenAI最新推出的AI语音模型

gpt-realtime - OpenAIの最新AIスピーチモデル

gpt-realtimeはOpenAIの高度な音声モデルで、自然で滑らかな音声を生成するための直接音声処理をサポートしています。このモデルは複数の言語とスタイルをサポートし、笑いなどの非言語的な合図を理解し、言語を切り替えることができます。
7ヶ月前
042.7K
HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型

HunyuanVideo-フォーリー - テンセントのオープンソース動画音源生成モデル

HunyuanVideo-Foleyは、TencentのMixed Yuanチームによるオープンソースのビデオサウンド生成モデルで、無音ビデオに正確にマッチした効果音を追加することをサポートします。このモデルは、大規模なデータセットのトレーニングに基づいており、マルチモーダル拡散コンバータアーキテクチャと、アライメント損失関数の表現とオーディオVAE最適化技術を組み合わせています...
7ヶ月前
052K
MiniCPM-V 4.5 - 面壁智能开源的8B参数多模态模型

MiniCPM-V 4.5 - ファセット・インテリジェント・オープンソース8Bパラメータ・マルチモーダルモデル

MiniCPM-V 4.5は、Qwen3-8BとSigLIP2-400Mをベースに構築された、画像や動画を効率的に処理できるオープンソースのファサードインテリジェンス用8Bパラメトリックマルチモーダルモデルです。ビジュアル・トークンの消費量や処理速度に優れたパフォーマンスを発揮します。
7ヶ月前
052.4K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - Ask o4が導入した、8つの思考経路を同時に開くパラレル思考モデル

Ask White o4は、8つの思考経路を同時に開き、問題を多角的に分析し、最適解を自動的にフィルタリングする革新的な並列思考モデルです。このモデルには、高度なLong-CoT強化学習とプロセス報酬学習技術が組み込まれており、強力な深層推論機能を持ち、複雑なタスクで優れたパフォーマンスを発揮します。
7ヶ月前
037.4K
SpatialGen - 群核科技推出的开源3D场景生成模型

SpatialGen - Qunar Technologiesのオープンソース3Dシーン生成モデル

SpatialGenはQunar Technologyのオープンソース3Dシーン生成モデルであり、拡散モデルアーキテクチャに基づき、テキスト記述、参照画像、3D空間レイアウトに基づいて時空間的に一貫性のあるマルチビュー画像の生成をサポートし、さらに3Dガウスシーンの生成とローミングビデオのレンダリングを行う。
7ヶ月前
043.2K
人工智能伦理 (AI Ethics)是什么,一文看懂

AI倫理とは何か?

人工知能倫理(AI Ethics)は、AIシステムの開発、展開、使用において従うべき倫理原則、価値観、社会的責任を検討する学際的な分野である。
7ヶ月前
040.5K
Fun-ASR - 钉钉、通义联合推出的新一代语音识别模型

Fun-ASR - ネイルとTongyiが共同で発表した新世代の音声認識モデル

Fun-ASRはNailとTongyi Labsが共同で発表した音声認識の大型モデルです。このモデルは膨大な音声データで学習され、インターネット、テクノロジー、家庭装飾などの多業種の専門用語を正確に識別することができ、認識精度が大幅に向上している。このモデルは推論最適化のためにNailの企業情報と組み合わされ、ファントム...
7ヶ月前
065.7K
Squibler - AI小说辅助写作平台,助力构思到创作全过程

Squibler - アイデアから創作までの全プロセスを支援するAI小説執筆プラットフォーム

Squiblerは、作家のために設計された強力なAI支援ライティング・プラットフォームで、構想から創作、出版までの全プロセスを支援します。このプラットフォームは、小説、脚本、短編小説などをカバーするさまざまなストーリー・テンプレートを提供します。ユーザーは最初のコンセプトを入力するだけで、AIがアウトライン、キャラクター、シーンを生成します。
7ヶ月前
045.9K
91写作 - 开源的AI智能小说创作平台

91Writing - オープンソースAIインテリジェント小説作成プラットフォーム

91Writingは、Vue 3とElement Plusをベースに開発された完全オープンソースのAI小説作成ツールで、GPT、Claude、Geminiなどの様々な高度なAIモデルを統合しています。このツールは、プロジェクトの作成を含む、アイデアからテキストまでの完全な作成ツールチェーンをクリエイターに提供します...
7ヶ月前
046.6K
Aivilization - 港科大推出的多Agent社会模拟平台

Aivilization - HKUSTが立ち上げたマルチエージェント社会シミュレーションプラットフォーム

Aivilizationは、香港科学技術大学が開発した世界初のAI多知能体社会シミュレーション・プラットフォームである。ユーザーが何千ものAI知能を作成・誘導し、未来の人間とAI共存の社会進化を観察できるビジュアルデジタルサンドボックスを構築する。このプラットフォームがサポートするのは...
7ヶ月前
081.6K
弱人工智能(Narrow AI)是什么,一文看懂

弱小AI(ナローAI)とは何か?

弱い人工知能(Narrow AI)は現在、現実世界におけるAI技術開発の主流である。弱いAIは、特定の、明確に定義されたタスクを、その特定の領域において人間を凌駕するかもしれない知能レベルで実行するように設計され、訓練される。
7ヶ月前
045.5K
Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

Grok 2.5 - マスクのxAIオープンソースAIモデル

Grok 2.5は、イーロン・マスクのxAIによるオープンソースのAIモデルである。2,690億のパラメータを持ち、強力なパフォーマンスと推論のためのMixed Expertise(MoE)アーキテクチャに基づいています。このモデルは、大学院レベルの科学知識(GPQA)、汎用知識(MMLU、MM...
7ヶ月前
047.2K
MIT最新报告《生成式AI鸿沟:2025年商业人工智能现状》

MITの新しいレポート『The Generative AI Divide: The State of Business AI in 2025』。

MITの最新レポート『The Generative AI Divide: The State of Business AI in 2025』は、300を超えるAIプロジェクトに関する詳細な調査、52の組織へのインタビュー、153人の経営幹部へのアンケート調査を実施することで、企業が経験しているジェネレーティブAI(GenAI)導入プロセスの核心を明らかにしている。
8ヶ月前
080.1K
AutoClip - 开源的AI视频切片工具,一键生成专题视频合集

AutoClip - ワンクリックでテーマ別のビデオコレクションを生成するオープンソースの AI ビデオスライスツール!

AutoClipは、自動化されたビデオ処理の完全なプロセスを達成するために高度なAI技術に基づいて、オープンソースのAIビデオ編集ツールです。ツールは自動的にビデオのハイライトを識別することができ、貴重なコンテンツの正確な抽出は、コンテンツのコレクションを生成するために、インテリジェントなクラスタリングのテーマの類似性に基づいて行うことができます。
8ヶ月前
063.1K
《动手学AI:人工智能通识与实践》 - 阿里云推出的免费AI通识课程

ハンズオンAI:人工知能の一般知識と実践 - AliCloudによる無料のAI一般知識コース

AliCloudの "Hands-On Learning AI: Artificial Intelligence General Knowledge and Practice "は、Superstar Erlangと共同で、様々な専門的背景を持つ学習者のための体系的なAI学習コースです。このコースは、5つの一流大学のマスター教師が指導し、AIの発展の歴史、コア技術から倫理的安全性まで、総合的な知識を身につけることができます。
8ヶ月前
043.9K
Seed-OSS - 字节跳动团队开源的全新AI模型

Seed-OSS - Wordpressチームがオープンソース化した新しいAIモデル

Seed-OSSは、Byte Jump Seedチームによってオープンソース化された大規模な言語モデルのファミリーで、長いテキストと推論タスクに焦点を当てています。Seed-OSSは、複雑な論理的推論や多段階推論で高い精度を発揮し、難しい問題を効率的に解くことができます。Seed-OSSは、最大512Kまでの長いテキストコンテキストをサポートしています。
8ヶ月前
050.2K
Intern-S1-mini - 上海AI Lab开源的轻量化科学多模态模型

Intern-S1-mini - Shanghai AI Labによるオープンソースの軽量科学的マルチモーダルモデル

Intern-S1-miniは、上海人工知能研究所(SAL)が発表したパラメータスケール8Bの軽量科学用マルチモーダル・マクロモデルである。Intern-S1の強力な機能を継承し、汎用的な機能と特殊な科学的機能の両方を兼ね備えており、迅速な展開や二次開発に適している。性能面では、I...
8ヶ月前
043.8K
人工智能 AI(Artificial Intelligence)是什么,一文看懂

人工知能 AI(人工知能)とは何か?

人工知能(AI)とは、人間の知能をシミュレートし、拡張し、さらにはそれを凌駕するような理論的・技術的システムを構築することを目的とするコンピューター科学の中核的な一分野である。
7ヶ月前
057.6K
Nano Banana - 谷歌推出的AI图像编辑模型

ナノ・バナナ - GoogleのAI画像編集モデル

ナノ・バナナは、ジェミニ2.5フラッシュイメージのコードネームです。ジェミニは、Googleが提供するAI画像生成・編集モデルで、シンプルなテキストプロンプトに基づいて詳細で写実的な画像を生成し、既存の画像に高品質な修正を加えます。
7ヶ月前
069.7K
Qwen-Image-Edit - 阿里通义开源的图像编辑模型

Qwen-Image-Edit - Ali Tongyi オープンソース画像編集モデル

Qwen-Image-Editは、Ali Tongyiによって導入された、200億のパラメータを持つQwen-Imageアーキテクチャ上に構築された、万能画像編集モデルです。このモデルはセマンティック編集と外観編集の両方の機能を兼ね備えており、画像に対して低レベルの視覚的外観編集を行うことができます(例:追加、削除...
8ヶ月前
044.6K
MoE-TTS - 昆仑万维推出的最新语音生成框架

MoE-TTS - 崑崙微の最新音声生成フレームワーク

MoE-TTSは、KunlunWanweiによって導入された音声合成フレームワークで、事前に訓練された大規模言語モデル(LLM)と音声専門家モジュールを組み合わせたMixed Expert(MoE)アーキテクチャに基づいています。MoE-TTSは、テキストモジュールのパラメータを凍結し、音声モジュールのパラメータのみを更新することにより、強力なテキスト推論を保持します...
8ヶ月前
043.8K
Genie Envisioner - 智元联合北航等开源的通用机器人操作平台

Genie Envisioner - Jiyuanのオープンソース汎用ロボットプラットフォーム、Beihangなどと共同開発

Genie Envisioner(GE)は、Genie Roboticsチームがシンガポール国立大学、北京航空航天大学などと共同で開発したロボット操作のための統合プラットフォーム。まず想像し、それから行動する」ことで、ロボットがタスクをよりよく理解し、実行することを可能にする。
8ヶ月前
044.8K
DINOv3 - Meta AI推出的新一代自监督视觉基础模型

DINOv3 - Meta AIの次世代自己教師付き視覚ベースモデル

DINOv3は、Meta AIが開発した次世代の自己教師付き視覚ベースモデルであり、自己教師付き学習パラダイムを使用して、ラベル付けデータなしで画像の特徴を学習する。データ準備の改善とGramアンカリングの導入により、特徴量の劣化問題を解決し、汎化能力を向上させている。
8ヶ月前
054.9K
Hunyuan-GameCraft - 腾讯混元开源的下一代游戏交互式视频生成框架

Hunyuan-GameCraft - Tencent Hunyuanのオープンソースフレームワーク。

Hunyuan-GameCraftはTencent Hunyuanチームのオープンソースインタラクティブゲームビデオ生成フレームワークです。1枚の画像とプロンプトから、非常にダイナミックなゲームビデオを生成するフレームワークで、キーボードとマウスを使ってリアルタイムでビデオコンテンツを制御するユーザーをサポートします。
8ヶ月前
047.6K
Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型

Skywork UniPic 2.0 - オープンソースの効率的なマルチモーダルモデリング by KunlunWanwei

Skywork UniPic 2.0は、Quintessenceによってオープンソース化された効率的なマルチモーダルモデルであり、画像生成、編集、理解に焦点を当てている。このモデルは、2BパラメータのSD3.5-Mediumアーキテクチャに基づいており、事前学習、漸進的なデュアルタスク強化戦略、共同学習によって実現される。
8ヶ月前
044.8K
RynnRCP - 阿里达摩院推出的首个开源机器人上下文协议

RynnRCP - アリ・ダルマ研究所による初のオープンソース・ロボティクス・コンテキスト・プロトコル

RynnRCPは、Ali Dharma Instituteによるオープンソースのロボットコンテキストプロトコル(RCP)であり、身体化された知能の開発の敷居を下げ、開発プロセス全体を開放します。RynnRCPは、RCPフレームワークとRobotMotionモジュールで構成されています。RCPフレームワークは、能力の抽象化とマルチプロトコルのサポートを通じて、...
8ヶ月前
049.7K
RynnEC - 阿里达摩院开源的世界理解模型

RynnEC - アリ・ダルマ・インスティテュートのオープンソース世界理解モデル

RynnECはAlibaba Dharma Instituteが導入した世界理解モデルで、具現化知能タスクに焦点を当てている。このモデルは、映像データと自然言語を組み合わせたマルチモーダル融合技術に基づいており、シーン内のオブジェクトを多次元から解析し、オブジェクトの理解、空間認識、映像ターゲットのセグメンテーションなどの機能をサポートする。
8ヶ月前
050.2K
Matrix-3D - 昆仑万维开源的3D世界生成框架

Matrix-3D - 崑崙ワールドワイドオープンソース3D世界生成フレームワーク

Matrix-3Dは、Skywork AIチームによるオープンソースのフレームワークで、探索可能なパノラマ3D世界の生成に特化している。このフレームワークは、パノラマビデオ生成と3D再構成技術を組み合わせて、1枚の画像やテキストプロンプトから高品質で全方位探索可能な3D世界を生成します。
8ヶ月前
051.3K
GLM-4.5V - 智谱推出的多模态开源视觉推理模型

GLM-4.5V - Smart Spectrumによるマルチモーダル・オープンソース視覚推論モデル

GLM-4.5Vは、Smart Spectrumによって導入された世界有数のオープンソース視覚推論モデルであり、1060億の総パラメータと120億の活性化パラメータを持つ。このモデルは、新世代のテキストベースモデルGLM-4.5-Airをベースに学習され、強力な視覚理解・推論能力を持ち、画像、動画...
8ヶ月前
050.3K
Matrix-Game 2.0 - 昆仑万维开源自研的交互式世界模型

マトリックスゲーム2.0 - KunlunWeiによって開発されたインタラクティブな世界モデル

Matrix-Game 2.0は、Kunlun SkyWork AIがリリースした自社開発のインタラクティブワールドモデルです。Matrix-Game 2.0は、業界初のオープンソース、リアルタイム、長シーケンスの汎用シナリオ用インタラクティブ生成モデルであり、複数のシナリオを25FPSで動作させることができる。
8ヶ月前
050.2K
Qwen-Flash - 通义千问推出的高性能、低成本语言模型

Qwen-Flash - Tongyi Chien-quanによる高性能、低コストの言語モデル

Qwen-Flashは、アリババ「同義千問」シリーズに導入された高性能・低価格の言語モデルで、高速レスポンスとシンプルなタスクの効率的な処理のために設計されています。高度なMoE(Mixture-of-Experts)アーキテクチャに基づき、スパースエキスパートネットワークによって実現されています。
8ヶ月前
046.4K
SkyReels-A3 - 昆仑万维推出的音频驱动数字人创作工具

SkyReels-A3 - 崑崙王維の音声駆動型デジタル人間創造ツール

SkyReels-A3は、崑崙ワールドワイドグループが開発した音声駆動型デジタルヒューマンクリエーションツールです。SkyReels-A3は、音声駆動型デジタル人体作成ツールで、簡単な入力(例:肖像画像と音声)で高品質の動的ビデオコンテンツを生成したり、静止画を「生き生きと」させたり、既存のビデオのセリフを新しいリップシンクに置き換えてキャラクターが自動的に合わせることができます...
8ヶ月前
041.9K
通用人工智能 AGI(Artificial General Intelligence)是什么,一文看懂

AGI(人工知能)とは何か?

一般人工知能(AGI)とは、あらゆる認知タスクにおいて人間と同様、あるいはそれ以上に理解し、学習し、推論し、適応し、創造することができる知的システムのことである。
7ヶ月前
043.4K
MiniMax Speech 2.5 - MiniMax推出的语音生成模型

MiniMax Speech 2.5 - MiniMaxの音声生成モデル

MiniMax Speech 2.5は、MiniMaxチームによって開発された高度な音声生成モデルです。音声合成の分野において、特に多言語の表現力、音色の再現精度、言語カバー率の点で大きな進歩を遂げています。このモデルは40の言語をサポートしています。
8ヶ月前
049.1K
Genie 3 - 谷歌推出的通用世界模型

ジーニー3 - グーグルのユニバーサル世界モデル

Genie 3は、Google DeepMindが提供する新世代のユニバーサルワールドモデルで、高度にダイナミックで一貫性のある仮想世界をリアルタイムで生成することができます。Genie 3は、物理現象や自然生態系をシミュレートし、ファンタジーや歴史的なシナリオの作成をサポートします。テキストプロンプトにより、ユーザーは...
8ヶ月前
044.9K
Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 - Anthropicの最強プログラミングモデル

Claude Opus 4.1は、複雑なタスクを効率的に処理するために設計された、Anthropicによる最先端の大規模言語モデルです。このモデルはプログラミング領域で優れており、高品質のコードを生成し、最大32kの単一出力をサポートし、幅広いプログラミングスタイルに適応します。
8ヶ月前
044.6K
AudioGen-Omni - 快手推出的多模态音频生成模型

AudioGen-Omni - Racerのマルチモーダル音声生成モデル

AudioGen-Omniは、Racerのマルチモーダルオーディオ生成モデルで、ビデオやテキストなどの入力に基づいて高品質のオーディオ、スピーチ、歌を生成します。AudioGen-Omniは、マルチモーダル拡散トランスフォーマーや位相整合トランスフォーマーなどの高度な技術に基づいています。
8ヶ月前
047.1K
LangExtract - 谷歌开源的Python库,提取结构化信息

LangExtract - 構造化情報を抽出するためのGoogleのオープンソースPythonライブラリ

LangExtractは、大規模言語モデル(LLM)を使用して、構造化されていないテキストから構造化された情報を抽出するGoogleオープンソースのPythonライブラリです。ユーザー定義のコマンドと少ないサンプル数で、...からの臨床メモのような重要な詳細を効率的に識別し、整理することができます。
8ヶ月前
052.3K
Qwen-Image - 通义千问推出开源的文生图基础模型

Qwen-Image - Tongyi Qianqian、Qwen-Imageのオープンソース基本モデルを発表

Qwen-Imageは、Alibaba Tongyi Qianqianチームによってリリースされたオープンソースの画像生成ベースモデルです。200億のパラメータを持ち、マルチモーダル理解、高解像度コーディング、拡散モデリングの3つのモジュールを組み込んだマルチモーダル拡散変換アーキテクチャ(MMDiT)を採用しています。
8ヶ月前
046.8K