最新のAIリソース

共 3094 篇文章
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - 上海AIラボのオープンソース・エンベディッド・デュアルシステム・オペレーション "ブレイン"

InternVLA-M1は、上海人工知能研究所のオープンソースの具現化されたオペレーティング「脳」であり、命令追従を指向する2システムオペレーションの大型モデルである。思考-行動-学習」をカバーする完全な閉ループを構築し、高レベルの空間推論とタスク計画を担当する。このモデルは2段階の訓練方針を採用している。
7ヶ月前
035.8K
浙江大学免费PDF资料《大模型基础》 - 附下载链接

浙江大学から大型モデルの基礎の無料PDF - ダウンロードリンク付き

ファンダメンタルズ・オブ・ラージ・モデルは、ラージ・ランゲージ・モデル(LLM)のコア技術と実用的な道筋を詳細に分析する。言語モデリングの基礎理論から始まり、統計的、リカレントニューラルネットワーク(RNN)、トランスフォーマーアーキテクチャに基づくモデル設計の原理を、3つの主要な大規模言語モデルに焦点を当てて体系的に解説しています。
7ヶ月前
049.3K
LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO - ロジックインテリジェンスによる業界初の完全オープンソース音声モデル

LLaSOは、北京深層論理知能科技有限公司によって発表されたオープンソースの音声モデルで、音声データとテキストデータを統合し、アライメントデータセット、コマンド微調整データセット、評価ベンチマークを提供することで、大規模音声言語モデリングの分野におけるデータの分散と不十分なタスクカバレッジの問題を解決します。
7ヶ月前
032K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - Yushu Technology オープンソースワールドモデルアクションアーキテクチャ

UnifoLM-WMA-0は、Yu Shu Technologyによる複数のクラスのロボットオントロジーにまたがるオープンソースのワールドモデル-アクションアーキテクチャであり、一般的なロボット学習のために設計されている。ワールドモデルとアクションアーキテクチャから構成され、ワールドモデルはロボットと環境の相互作用の物理法則を理解し、アクションアーキテクチャは特定の...
7ヶ月前
051.1K
InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - Mission Vision AI用オープンソース音声駆動ビデオ生成ツール

InfiniteTalkは、MeiGen-AIチームによって開発された音声駆動型の動画生成ツールで、入力された音声に基づいて長さ無制限のトーキング動画を生成する。主な特長は、正確なリップシンク技術で、音声とキャラクターの口の形を完全に一致させ、自然で滑らかな動画を生成します。
7ヶ月前
059.8K
GPT-5-Codex - OpenAI推出的最强编程模型

GPT-5-Codex-OpenAIが導入した最強のプログラミングモデル

GPT-5-Codexは、OpenAIの強力なプログラミング最適化モデルで、GPT-5によってさらに強化され、ソフトウェアエンジニアのために設計されています。このモデルは、高品質なコードを迅速に生成し、複数のプログラミング言語をサポートし、パフォーマンスを向上させるために既存のコードを最適化します。
7ヶ月前
033.4K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - 上海AIラボとHuawei Riseがオープンソース化したマルチモーダル大型モデル

Lumina-DiMOOは、上海人工知能研究所(SAL)が世界人工知能会議2025でファーウェイ・ライズと共同で発表した、マルチモーダル生成・理解のための新世代統一モデルである。Rise AI基本ハードウェア・ソフトウェアプラットフォームとMindSpeed MMマルチモーダル大規模モデルスイートをベースとし、...
7ヶ月前
043.8K
Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - オープンソースのローカルファーストAI会議メモツール

Hyprnoteは、ユーザーのプライバシーを保護し、会議の効率を向上させるために専門家のために設計された、オープンソースのローカルファーストAI会議メモツールです。ローカルファースト」の原則を採用し、データの保存と処理はすべてユーザーのローカルデバイス上で行われるため、データの安全性が確保され、オフラインでの操作もサポートされます。
7ヶ月前
042.8K
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - メタ・オープンソース特殊効率推論モデルシリーズ

MobileLLM-R1は、数学的推論、プログラミング推論、科学的推論のために設計されたMetaのオープンソースの効率的推論モデルシリーズです。ベースモデルとファイナルモデルがあり、それぞれ1億4千万、3億6千万、9億5千万のパラメータがあります。このモデルは一般的なチャットモデルではなく、教師ありファインチューニング(SFT...
7ヶ月前
035K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - 上海交通大学オープンソースモバイルインテリジェントボディフルスタック構築フレームワーク

MobiAgentは、上海交通大学IPADS研究室が開発したオープンソースのモバイルインテリジェントボディツールチェーンで、ユーザーが独自のモバイルインテリジェントアシスタントを構築することを支援する。ユーザーの操作軌跡を記録し、高品質なデータを生成することで、自然言語コマンドを理解できる知的体を育成する。コア機能には、効率的な...
7ヶ月前
041.1K
PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - 百度の次世代テキスト認識用オープンソースAIモデル

PP-OCRv5は、百度がリリースした最新世代のテキスト認識AIモデルである。軽量設計とわずか0.07Bの参照数で、CPUやエッジデバイスでの効率的な動作に適しており、1秒間に370文字以上を処理できる。このモデルは、簡体字中国語、繁体字中国語、英語、日本語、ピンインをサポートしている。
7ヶ月前
064.5K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Tencent Youtu Labs オープンソースグラフ検索拡張生成フレームワーク

Youtu-GraphRAGは、Tencent Youtu Labsが提供するオープンソースのグラフ検索拡張生成フレームワークで、大規模な言語モデルが複雑なQ&Aタスクをより正確に処理できるようにする。4層の知識ツリーを構築することで、知識を属性、関係、キーワード、コミュニティの4つのレベルに分解し、行為の自...
7ヶ月前
043.2K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

スタンドイン - Tencent WeChat Visualオープンソース軽量動画生成フレームワーク

Stand-Inは、テンセントのWeChat Visionチームが開発した、軽量でプラグアンドプレイのID保持動画生成フレームワークである。動画生成において特定のアイデンティティ特徴を保持することに重点を置き、ベースモデル1%の追加パラメータを学習するだけで、顔の類似性と自然さにおいて優れた結果を得ることができる。
7ヶ月前
040.8K
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制

IndexTTS2 - B局オープンソースのフリーTTSモデル。

IndexTTS2は、Bステーション音声チームによってオープンソース化された新しいフリー音声合成(TTS)モデルで、感情表現と継続時間制御の大きなブレークスルーを達成し、正確な継続時間制御をサポートする初の自己回帰型TTSモデルです。ゼロサンプルの音声クローニングをサポートし、1つの音声ファイルだけで正確に音声をコピーできます。
8ヶ月前
0103.6K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - MiniMaxの最新AI音楽生成モデル!

MiniMax Music 1.5は、ユーザーの自然言語による記述に基づいて最大4分の音楽を生成する、高度なAI音楽生成ツールです。このモデルは、幅広い音楽スタイルとムードのカスタマイズをサポートし、自然で完全なボーカルトーン、スムーズなトランジション、豊かなレイヤーアレンジを生成します...
8ヶ月前
043K
HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - 清華大学United Bytesオープンソース・マルチモーダルビデオ生成フレームワーク

HuMoは、清華大学とByteDance Intelligent Creation Labが共同でオープンソース化したマルチモーダル映像生成フレームワークで、人間中心の映像生成に焦点を当てている。HuMoは、テキスト、画像、音声などのマルチモーダル入力から、高品質かつきめ細かく制御可能な人物映像を生成することができる。
8ヶ月前
0124.8K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - FudanとAli Dharma Instituteとその他のオープンソースインテリジェント画像アニメーション生成フレームワーク

AnyI2Vは復旦大学、Alibaba Darmo Academyなどが共同で立ち上げた画像アニメーション生成フレームワークで、複雑な学習プロセスや大量のデータを必要とせずに、静的な条件画像(グリッド、点群など)を動的な動画に変換することをサポートする。
8ヶ月前
036.8K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

文信ビッグモデルX1.1 - 百度のより良い理解のための深層思考モデル

Wenxin Big Model X1.1は、バイドゥが発表したディープシンキングモデルで、ハイブリッド強化学習フレームワークに基づいており、言語理解と生成の向上に重点を置いている。このモデルは、複雑な質問の処理、指示に従うこと、知性の行動のシミュレーションに優れており、知識豊富な回答や高品質のテキストコンテンツを正確に提供することができる。
8ヶ月前
043.6K
混元图像2.1 - 腾讯推出的开源文生图模型

ハイブリッドイメージ2.1 - テンセントのオープンソース・ベンダーグラフ・モデル

HunyuanImage 2.1は、高品質の画像生成のために設計されたテンセントのオープンソースグラフィックモデルです。このモデルはネイティブ2K解像度をサポートし、複雑なシーンやディテールを正確にレンダリングすることができ、キャラクターの表情や動きを生き生きと再現することができます。
8ヶ月前
039.9K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - フリーのAIセマンティック文書スライスツール、動的スライス調整

AntSK FileChunk は、RAG (Retrieval Augmented Generation) アプリケーションのために設計された、無料のインテリジェントドキュメントスライスツールです。セマンティックを中核として、文書はインテリジェントに、意味的に完全で首尾一貫したセグメントにスライスされ、多言語をサポートし、文脈の一貫性を保証するためにスライスのサイズを動的に調整します。
8ヶ月前
043.7K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - Facing Face Intelligenceによる超高効率エンドサイドマクロモデリング

MiniCPM4.1は、Facade Intelligenceが導入した超高効率エンドサイド大規模言語モデルです。InfLLM v2スパース・アテンション・アーキテクチャにより、各辞素は5%個以下の語彙との相関を計算するだけでよく、長文の処理オーバーヘッドを大幅に削減します。128K長文のシナリオでは...
8ヶ月前
039.3K
WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - Tencent WeChatオープンソースドキュメント理解と意味検索フレームワーク

WeKnoraはTencent WeChatチームのオープンソースで、Large Language Model (LLM)文書理解と意味検索フレームワークに基づいており、複雑な異種文書コンテンツシナリオの構造のために設計され、モジュラーアーキテクチャを使用するように設計されており、マルチモーダル前処理、セマンティックベクターインデキシング、インテリジェントリコールと大規模なモデルの生成推論の統合...
8ヶ月前
081.3K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Shanghai AI Lab オープンソース大規模モデルトレーニングエンジン

XTuner V1は、上海人工知能研究所によってオープンソース化された新世代の大規模モデル学習エンジンであり、超大規模スパース混合エキスパート(MoE)モデル学習用に設計されている。PyTorch FSDPをベースに開発され、メモリ、通信、負荷の多次元最適化により高性能を実現しています。
8ヶ月前
039.3K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - Tongyi Qianqianのフラッグシップ・ビッグ言語モデル

Qwen3-Max-Previewは、Tongyi Qianwenがリリースした最新のフラッグシップ大規模言語モデルです。Qwen3ファミリーの中で最大のパラメータ数を持つモデルであり、パラメータサイズは1兆を超える。推論、命令追従、多言語サポート、ロングテール知識カバレッジが大幅に改善されています。
8ヶ月前
044.1K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - Meituanと上海交通大学のオープンソース・マルチモーダルモデル

OneCATは、Meituanが上海交通大学と共同で発表した新しい統一マルチモーダルモデルで、マルチモーダル理解、テキスト画像生成、画像編集機能をシームレスに統合した純粋なデコーダーアーキテクチャを採用している。このモデルは、外部の視覚コーダーや曖昧性解消器に依存する従来のマルチモーダルモデルの設計を放棄し、モダリティに特化した...
8ヶ月前
042.5K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman(インフィニティ・ヒューマン):バイトがZJUと共同で立ち上げた長編ビデオ・デジタル・ヒューマン・ジェネレーション・モデル

InfinityHumanは、ByteDanceと浙江大学が共同で発表した商用レベルの長時間音声駆動型キャラクター動画生成モデルである。このモデルは音声駆動型であり、高解像度、長時間、視覚的に一貫性のあるキャラクター動画を生成することができる。
8ヶ月前
040.6K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager-テンセントオープンソースの超長距離ローミングワールドモデル

HunyuanWorld-Voyager(略してHunyuan Voyager)は、テンセントがリリースした業界初のネイティブ3D再構成をサポートする超長距離ローミングワールドモデルである。1枚の画像からユーザーが定義したカメラパスの3D点群シーケンスを生成する新しいビデオ拡散フレームワークであり、...
8ヶ月前
043.5K
Step-Audio 2 mini - 阶跃星辰开源的语音大模型

Step-Audio 2 mini - Step-Star オープンソース音声マクロモデリング

Step-Audio 2 miniは、Step-Audioによるオープンソースのエンドツーエンド音声マクロモデルです。従来の音声モデル構造を打破し、真のエンド・ツー・エンド・マルチモーダルアーキテクチャを採用しており、生の音声入力をより低遅延で音声応答出力に直接変換し、パラ言語情報と非音声信号を理解します。
8ヶ月前
049.3K
MobileCLIP2 - 苹果公司开源的高效端侧多模态模型

MobileCLIP2 - アップルのオープンソースによる効率的なエンドサイド・マルチモーダルモデル

MobileCLIP2は、Appleの研究者によって導入された効率的なエンドサイド・マルチモーダルモデルであるMobileCLIPのアップグレード版です。マルチモーダル強化トレーニング用に最適化され、DFNデータセットでより良いパフォーマンスをトレーニングすることでCLIP教師モデルを統合し、グラフィカルな生成機能を改善しました。
8ヶ月前
053.8K
InternVL3.5 - 上海AI实验室开源的多模态大模型

InternVL3.5 - 上海AIラボ オープンソース マルチモーダル大規模モデル

InternVL3.5(Shusheng-Wanxiang3.5)は、上海人工知能研究所のオープンソース・マルチモーダル大型モデルであり、一般的な能力、推論能力、展開効率の面で完全にアップグレードされ、10億から2410億パラメータまでの9つのサイズのバージョンを提供し、厚さを含むさまざまなリソース需要シナリオをカバーする。
8ヶ月前
051.8K
FastVLM - 苹果公司推出的视觉语言模型

FastVLM - Appleのビジュアル言語モデリング

FastVLM(Fast Vision Language Model)は、アップルが導入した効率的な視覚言語モデルである。FastViTHDハイブリッド視覚コーダーをコアとし、畳み込みとトランスフォーマーアーキテクチャを組み込むことで、視覚言語を大幅に...
8ヶ月前
049.4K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - 模範的な指示に従う能力を評価するためのMeeseeksオープンソース評価セット

Meeseeksは、MeituanのM17チームがモデルの指示に従う能力を評価するために使用しているオープンソースの大規模モデル評価セットです。Meeseeksは、モデルがマクロレベルからミクロレベルまでユーザーの指示に厳密に従った回答を生成できるかどうかを総合的に測定するために3段階の評価フレームワークを使用しており、回答内容の知識をプラス評価することはありません...
8ヶ月前
044.4K
gpt-realtime - OpenAI最新推出的AI语音模型

gpt-realtime - OpenAIの最新AIスピーチモデル

gpt-realtimeはOpenAIの高度な音声モデルで、自然で滑らかな音声を生成するための直接音声処理をサポートしています。このモデルは複数の言語とスタイルをサポートし、笑いなどの非言語的な合図を理解し、言語を切り替えることができます。
8ヶ月前
045.5K
HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型

HunyuanVideo-フォーリー - テンセントのオープンソース動画音源生成モデル

HunyuanVideo-Foleyは、TencentのMixed Yuanチームによるオープンソースのビデオサウンド生成モデルで、無音ビデオに正確にマッチした効果音を追加することをサポートします。このモデルは、大規模なデータセットのトレーニングに基づいており、マルチモーダル拡散コンバータアーキテクチャと、アライメント損失関数の表現とオーディオVAE最適化技術を組み合わせています...
8ヶ月前
055.6K
MiniCPM-V 4.5 - 面壁智能开源的8B参数多模态模型

MiniCPM-V 4.5 - ファセット・インテリジェント・オープンソース8Bパラメータ・マルチモーダルモデル

MiniCPM-V 4.5は、Qwen3-8BとSigLIP2-400Mをベースに構築された、画像や動画を効率的に処理できるオープンソースのファサードインテリジェンス用8Bパラメトリックマルチモーダルモデルです。ビジュアル・トークンの消費量や処理速度に優れたパフォーマンスを発揮します。
8ヶ月前
055.5K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - Ask o4が導入した、8つの思考経路を同時に開くパラレル思考モデル

Ask White o4は、8つの思考経路を同時に開き、問題を多角的に分析し、最適解を自動的にフィルタリングする革新的な並列思考モデルです。このモデルには、高度なLong-CoT強化学習とプロセス報酬学習技術が組み込まれており、強力な深層推論機能を持ち、複雑なタスクで優れたパフォーマンスを発揮します。
8ヶ月前
040.4K
SpatialGen - 群核科技推出的开源3D场景生成模型

SpatialGen - Qunar Technologiesのオープンソース3Dシーン生成モデル

SpatialGenはQunar Technologyのオープンソース3Dシーン生成モデルであり、拡散モデルアーキテクチャに基づき、テキスト記述、参照画像、3D空間レイアウトに基づいて時空間的に一貫性のあるマルチビュー画像の生成をサポートし、さらに3Dガウスシーンの生成とローミングビデオのレンダリングを行う。
8ヶ月前
046.6K
Fun-ASR - 钉钉、通义联合推出的新一代语音识别模型

Fun-ASR - ネイルとTongyiが共同で発表した新世代の音声認識モデル

Fun-ASRはNailとTongyi Labsが共同で発表した音声認識の大型モデルです。このモデルは膨大な音声データで学習され、インターネット、テクノロジー、家庭装飾などの多業種の専門用語を正確に識別することができ、認識精度が大幅に向上している。このモデルは推論最適化のためにNailの企業情報と組み合わされ、ファントム...
8ヶ月前
069.4K
Squibler - AI小说辅助写作平台,助力构思到创作全过程

Squibler - アイデアから創作までの全プロセスを支援するAI小説執筆プラットフォーム

Squiblerは、作家のために設計された強力なAI支援ライティング・プラットフォームで、構想から創作、出版までの全プロセスを支援します。このプラットフォームは、小説、脚本、短編小説などをカバーするさまざまなストーリー・テンプレートを提供します。ユーザーは最初のコンセプトを入力するだけで、AIがアウトライン、キャラクター、シーンを生成します。
8ヶ月前
048.8K
91写作 - 开源的AI智能小说创作平台

91Writing - オープンソースAIインテリジェント小説作成プラットフォーム

91Writingは、Vue 3とElement Plusをベースに開発された完全オープンソースのAI小説作成ツールで、GPT、Claude、Geminiなどの様々な高度なAIモデルを統合しています。このツールは、プロジェクトの作成を含む、アイデアからテキストまでの完全な作成ツールチェーンをクリエイターに提供します...
8ヶ月前
050K
Aivilization - 港科大推出的多Agent社会模拟平台

Aivilization - HKUSTが立ち上げたマルチエージェント社会シミュレーションプラットフォーム

Aivilizationは、香港科学技術大学が開発した世界初のAI多知能体社会シミュレーション・プラットフォームである。ユーザーが何千ものAI知能を作成・誘導し、未来の人間とAI共存の社会進化を観察できるビジュアルデジタルサンドボックスを構築する。このプラットフォームがサポートするのは...
8ヶ月前
087.1K
Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

Grok 2.5 - マスクのxAIオープンソースAIモデル

Grok 2.5は、イーロン・マスクのxAIによるオープンソースのAIモデルである。2,690億のパラメータを持ち、強力なパフォーマンスと推論のためのMixed Expertise(MoE)アーキテクチャに基づいています。このモデルは、大学院レベルの科学知識(GPQA)、汎用知識(MMLU、MM...
8ヶ月前
050.5K
MIT最新报告《生成式AI鸿沟:2025年商业人工智能现状》

MITの新しいレポート『The Generative AI Divide: The State of Business AI in 2025』。

MITの最新レポート『The Generative AI Divide: The State of Business AI in 2025』は、300を超えるAIプロジェクトに関する詳細な調査、52の組織へのインタビュー、153人の経営幹部へのアンケート調査を実施することで、企業が経験しているジェネレーティブAI(GenAI)導入プロセスの核心を明らかにしている。
8ヶ月前
085.1K
AutoClip - 开源的AI视频切片工具,一键生成专题视频合集

AutoClip - ワンクリックでテーマ別のビデオコレクションを生成するオープンソースの AI ビデオスライスツール!

AutoClipは、自動化されたビデオ処理の完全なプロセスを達成するために高度なAI技術に基づいて、オープンソースのAIビデオ編集ツールです。ツールは自動的にビデオのハイライトを識別することができ、貴重なコンテンツの正確な抽出は、コンテンツのコレクションを生成するために、インテリジェントなクラスタリングのテーマの類似性に基づいて行うことができます。
8ヶ月前
067.5K
Seed-OSS - 字节跳动团队开源的全新AI模型

Seed-OSS - Wordpressチームがオープンソース化した新しいAIモデル

Seed-OSSは、Byte Jump Seedチームによってオープンソース化された大規模な言語モデルのファミリーで、長いテキストと推論タスクに焦点を当てています。Seed-OSSは、複雑な論理的推論や多段階推論で高い精度を発揮し、難しい問題を効率的に解くことができます。Seed-OSSは、最大512Kまでの長いテキストコンテキストをサポートしています。
8ヶ月前
053.8K
Intern-S1-mini - 上海AI Lab开源的轻量化科学多模态模型

Intern-S1-mini - Shanghai AI Labによるオープンソースの軽量科学的マルチモーダルモデル

Intern-S1-miniは、上海人工知能研究所(SAL)が発表したパラメータスケール8Bの軽量科学用マルチモーダル・マクロモデルである。Intern-S1の強力な機能を継承し、汎用的な機能と特殊な科学的機能の両方を兼ね備えており、迅速な展開や二次開発に適している。性能面では、I...
8ヶ月前
047.1K
Qwen-Image-Edit - 阿里通义开源的图像编辑模型

Qwen-Image-Edit - Ali Tongyi オープンソース画像編集モデル

Qwen-Image-Editは、Ali Tongyiによって導入された、200億のパラメータを持つQwen-Imageアーキテクチャ上に構築された、万能画像編集モデルです。このモデルはセマンティック編集と外観編集の両方の機能を兼ね備えており、画像に対して低レベルの視覚的外観編集を行うことができます(例:追加、削除...
8ヶ月前
047.3K
MoE-TTS - 昆仑万维推出的最新语音生成框架

MoE-TTS - 崑崙微の最新音声生成フレームワーク

MoE-TTSは、KunlunWanweiによって導入された音声合成フレームワークで、事前に訓練された大規模言語モデル(LLM)と音声専門家モジュールを組み合わせたMixed Expert(MoE)アーキテクチャに基づいています。MoE-TTSは、テキストモジュールのパラメータを凍結し、音声モジュールのパラメータのみを更新することにより、強力なテキスト推論を保持します...
8ヶ月前
047.1K
Genie Envisioner - 智元联合北航等开源的通用机器人操作平台

Genie Envisioner - Jiyuanのオープンソース汎用ロボットプラットフォーム、Beihangなどと共同開発

Genie Envisioner(GE)は、Genie Roboticsチームがシンガポール国立大学、北京航空航天大学などと共同で開発したロボット操作のための統合プラットフォーム。まず想像し、それから行動する」ことで、ロボットがタスクをよりよく理解し、実行することを可能にする。
8ヶ月前
047.5K
DINOv3 - Meta AI推出的新一代自监督视觉基础模型

DINOv3 - Meta AIの次世代自己教師付き視覚ベースモデル

DINOv3は、Meta AIが開発した次世代の自己教師付き視覚ベースモデルであり、自己教師付き学習パラダイムを使用して、ラベル付けデータなしで画像の特徴を学習する。データ準備の改善とGramアンカリングの導入により、特徴量の劣化問題を解決し、汎化能力を向上させている。
8ヶ月前
057.9K
Hunyuan-GameCraft - 腾讯混元开源的下一代游戏交互式视频生成框架

Hunyuan-GameCraft - Tencent Hunyuanのオープンソースフレームワーク。

Hunyuan-GameCraftはTencent Hunyuanチームのオープンソースインタラクティブゲームビデオ生成フレームワークです。1枚の画像とプロンプトから、非常にダイナミックなゲームビデオを生成するフレームワークで、キーボードとマウスを使ってリアルタイムでビデオコンテンツを制御するユーザーをサポートします。
8ヶ月前
051.2K
RynnRCP - 阿里达摩院推出的首个开源机器人上下文协议

RynnRCP - アリ・ダルマ研究所による初のオープンソース・ロボティクス・コンテキスト・プロトコル

RynnRCPは、Ali Dharma Instituteによるオープンソースのロボットコンテキストプロトコル(RCP)であり、身体化された知能の開発の敷居を下げ、開発プロセス全体を開放します。RynnRCPは、RCPフレームワークとRobotMotionモジュールで構成されています。RCPフレームワークは、能力の抽象化とマルチプロトコルのサポートを通じて、...
9ヶ月前
054.6K
RynnEC - 阿里达摩院开源的世界理解模型

RynnEC - アリ・ダルマ・インスティテュートのオープンソース世界理解モデル

RynnECはAlibaba Dharma Instituteが導入した世界理解モデルで、具現化知能タスクに焦点を当てている。このモデルは、映像データと自然言語を組み合わせたマルチモーダル融合技術に基づいており、シーン内のオブジェクトを多次元から解析し、オブジェクトの理解、空間認識、映像ターゲットのセグメンテーションなどの機能をサポートする。
9ヶ月前
053.9K
Matrix-3D - 昆仑万维开源的3D世界生成框架

Matrix-3D - 崑崙ワールドワイドオープンソース3D世界生成フレームワーク

Matrix-3Dは、Skywork AIチームによるオープンソースのフレームワークで、探索可能なパノラマ3D世界の生成に特化している。このフレームワークは、パノラマビデオ生成と3D再構成技術を組み合わせて、1枚の画像やテキストプロンプトから高品質で全方位探索可能な3D世界を生成します。
9ヶ月前
054.9K
GLM-4.5V - 智谱推出的多模态开源视觉推理模型

GLM-4.5V - Smart Spectrumによるマルチモーダル・オープンソース視覚推論モデル

GLM-4.5Vは、Smart Spectrumによって導入された世界有数のオープンソース視覚推論モデルであり、1060億の総パラメータと120億の活性化パラメータを持つ。このモデルは、新世代のテキストベースモデルGLM-4.5-Airをベースに学習され、強力な視覚理解・推論能力を持ち、画像、動画...
9ヶ月前
053.3K
Matrix-Game 2.0 - 昆仑万维开源自研的交互式世界模型

マトリックスゲーム2.0 - KunlunWeiによって開発されたインタラクティブな世界モデル

Matrix-Game 2.0は、Kunlun SkyWork AIがリリースした自社開発のインタラクティブワールドモデルです。Matrix-Game 2.0は、業界初のオープンソース、リアルタイム、長シーケンスの汎用シナリオ用インタラクティブ生成モデルであり、複数のシナリオを25FPSで動作させることができる。
9ヶ月前
053.2K
Qwen-Flash - 通义千问推出的高性能、低成本语言模型

Qwen-Flash - Tongyi Chien-quanによる高性能、低コストの言語モデル

Qwen-Flashは、アリババ「同義千問」シリーズに導入された高性能・低価格の言語モデルで、高速レスポンスとシンプルなタスクの効率的な処理のために設計されています。高度なMoE(Mixture-of-Experts)アーキテクチャに基づき、スパースエキスパートネットワークによって実現されています。
9ヶ月前
050.6K
SkyReels-A3 - 昆仑万维推出的音频驱动数字人创作工具

SkyReels-A3 - 崑崙王維の音声駆動型デジタル人間創造ツール

SkyReels-A3は、崑崙ワールドワイドグループが開発した音声駆動型デジタルヒューマンクリエーションツールです。SkyReels-A3は、音声駆動型デジタル人体作成ツールで、簡単な入力(例:肖像画像と音声)で高品質の動的ビデオコンテンツを生成したり、静止画を「生き生きと」させたり、既存のビデオのセリフを新しいリップシンクに置き換えてキャラクターが自動的に合わせることができます...
9ヶ月前
047.1K
Genie 3 - 谷歌推出的通用世界模型

ジーニー3 - グーグルのユニバーサル世界モデル

Genie 3は、Google DeepMindが提供する新世代のユニバーサルワールドモデルで、高度にダイナミックで一貫性のある仮想世界をリアルタイムで生成することができます。Genie 3は、物理現象や自然生態系をシミュレートし、ファンタジーや歴史的なシナリオの作成をサポートします。テキストプロンプトにより、ユーザーは...
9ヶ月前
047.7K
Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 - Anthropicの最強プログラミングモデル

Claude Opus 4.1は、複雑なタスクを効率的に処理するために設計された、Anthropicによる最先端の大規模言語モデルです。このモデルはプログラミング領域で優れており、高品質のコードを生成し、最大32kの単一出力をサポートし、幅広いプログラミングスタイルに適応します。
9ヶ月前
048.2K
AudioGen-Omni - 快手推出的多模态音频生成模型

AudioGen-Omni - Racerのマルチモーダル音声生成モデル

AudioGen-Omniは、Racerのマルチモーダルオーディオ生成モデルで、ビデオやテキストなどの入力に基づいて高品質のオーディオ、スピーチ、歌を生成します。AudioGen-Omniは、マルチモーダル拡散トランスフォーマーや位相整合トランスフォーマーなどの高度な技術に基づいています。
9ヶ月前
051.3K
LangExtract - 谷歌开源的Python库,提取结构化信息

LangExtract - 構造化情報を抽出するためのGoogleのオープンソースPythonライブラリ

LangExtractは、大規模言語モデル(LLM)を使用して、構造化されていないテキストから構造化された情報を抽出するGoogleオープンソースのPythonライブラリです。ユーザー定義のコマンドと少ないサンプル数で、...からの臨床メモのような重要な詳細を効率的に識別し、整理することができます。
9ヶ月前
055.2K