openPangu-VL-7B - 华为开源的7B参数多模态模型openPangu-VL-7B是华为开源的7B参数规模的多模态模型,专为昇腾端侧设备优化设计。模型在视觉定位、OCR识别、文档理解等任务中表现出色,支持实时推理(5FPS),单卡延迟仅160毫秒。最新のAIリソース5ヶ月前038.3K
Frappe Builder - オープンソースのAIローコードウェブサイトビルダー。Frappe Builderは、Frappeによって開発されたオープンソースのローコードウェブサイトビルダーです。中心的な機能は、ウェブサイトを素早く構築するためのドラッグ&ドロップコンポーネントをサポートするFigmaライクなビジュアルエディタを提供することです。Frappeのエコロジー(Frappeverse)の一部です。最新のAIリソース7ヶ月前038.3K
Yume1.5 - 上海AIラボと復旦大学がオープンソース化したインタラクティブ世界生成モデルYume 1.5は、復旦大学上海人工知能研究所と上海創新研究院が共同開発したオープンソースのインタラクティブ世界生成モデルで、リアルタイムのインタラクティブレンダリング(シングルカードで12FPS)が可能です。時空間結合チャネルモデリング(TSCM)技術を採用しており、コンテキストの長さが長くなっても...最新のAIリソース6ヶ月前038.2K
GPT-5-Codex-OpenAIが導入した最強のプログラミングモデルGPT-5-Codexは、OpenAIの強力なプログラミング最適化モデルで、GPT-5によってさらに強化され、ソフトウェアエンジニアのために設計されています。このモデルは、高品質なコードを迅速に生成し、複数のプログラミング言語をサポートし、パフォーマンスを向上させるために既存のコードを最適化します。最新のAIリソース9ヶ月前038K
Fara-7B - マイクロソフトのオープンソース・コンピュータ操作アシスタント・モデルFara-7Bは、Qwen 2.5-VL-7Bアーキテクチャに基づいた70億パラメータ規模のコンピュータ操作エージェント(CUA)モデルのマイクロソフトオープンソースリリースです。ウェブページのスクリーンショットを視覚的に解析し、画面上でクリックや入力などを実行することで、追加のアクセシビリティツリーや複数の大規模モデルに依存する必要がありません...最新のAIリソース7ヶ月前038K
ペルソナライブ - マカオ大学をはじめとするオープンソースのリアルタイムAI似顔絵アニメーション生成ライブフレームワークPersonaLiveは、マカオ大学、dzine.ai、グレーターベイエリア大学GVCラボが共同開発したオープンソースのリアルタイムAI顔交換ライブストリーミングフレームワークである。一般的なコンシューマーグレードのグラフィックカード(12GBのビデオメモリ)で、低レイテンシー、高フレームレートのデジタルパーソンドライブを実現し、カメラを通してリアルタイムをサポートする。最新のAIリソース6ヶ月前037.9K
GLM-TTS - Smart Spectrum AIによるオープンソース産業グレード音声合成システムGLM-TTSは、強力な音声合成機能を持つオープンソースの産業用音声合成システムです。GLM-TTSは2段階の生成アーキテクチャを採用しており、第1段階ではテキストを音声トークン列に変換し、第2段階ではトークン列を高品質な音声に変換します。このシステムは、3秒間の音声サンプルのみをサポートし、音声を完成させます。最新のAIリソース6ヶ月前037.9K
ClipSketch AI - オープンソースのAI動画から手描き分割画面ツール、Bステーション、小さな赤い本をサポートClipSketch AIは、ショートビデオクリエイターのために設計されたオープンソースの動画から手描き風分割画面への変換ツールです。B station、Xiaohongshu、その他のプラットフォームからの動画をワンクリックで手描き風のストーリーボードに変換でき、キーフレームのマーキング、サブシーンとソーシャルコピーの自動生成をサポートし、ユーザー定義のロールを統合できます。最新のAIリソース6ヶ月前037.7K
SAM 3D - メタ・オープンソース3D再構築モデルシリーズSAM 3Dは、Meta社のSAMシリーズをベースにした3D再構築モデルで、SAM 3D ObjectsとSAM 3D Bodyの2つのブランチがあります。SAM 3D Objectsは、1枚の写真からインタラクティブな3Dオブジェクトモデルを生成することができます。最新のAIリソース7ヶ月前037.7K
ChronoEdit - NVIDIAとトロント大学がオープンソース化したAI画像編集フレームワークNVIDIAとトロント大学が共同開発したオープンソースのAI画像編集フレームワーク「ChronoEdit」は、画像編集タスクを動画生成タスクとして再定義し、編集結果の時間的・物理的整合性を保証する。14Bのパラメータを持つ事前に訓練された動画生成モデルを...最新のAIリソース7ヶ月前037.6K
GLM-4.7-Flash - 智谱开源的混合专家架构语言模型GLM-4.7-Flash是智谱开源的混合专家架构语言模型,参数规模为30B,激活参数量3B,上下文窗口达200K,最大输出令牌为128K。在编程能力上表现出色,SWE-bench验证集分数达59.2...最新のAIリソース5ヶ月前037.6K
OpenAutoGLM - Smart Spectrum AIのオープンソース携帯電話AIエージェントモデルOpenAutoGLMは、マルチモーダル知覚によって携帯電話画面の内容を理解し、ユーザーが指定したタスクを完了するための操作フローを自動的に生成することができる、「携帯電話使用」の機能を備えたオープンソースの知的身体モデルです。ユーザは、「美団を開いて近くの鍋を検索する」といった自然言語でニーズを記述するだけでよい。最新のAIリソース6ヶ月前037.6K
Androidify - Google、Android上でAIアプリを構築する方法に関するリソースを無償でオープンソース化AndroidifyはGoogleのオープンソースプロジェクトであり、開発者がAndroid上でAI主導のアプリケーションを構築する方法を学ぶことを支援する。このプロジェクトでは、Jetpack Compose、Gemini API(via Fire...最新のAIリソース8ヶ月前037.6K
FIBO - 世界初のオープンソースでネイティブにサポートされたJSONテキストから画像モデルを生成FIBOは、Bria AIによって開発された、ネイティブJSONをサポートする世界初のオープンソーステキスト生成画像モデルです。8Bのパラメータを持つDiT(Diffusion Transformer)アーキテクチャに基づき、フローマッチング学習法を採用しています。最新のAIリソース8ヶ月前037.4K
Ming-flash-omni-Preview - AntグループのオープンソースフルモーダルマクロモデルMing-flash-omni-Previewは、Ant Group inclusionAIによって公開されたオープンソースのフルモーダル・マクロモデルです。Ling 2.0のスパースMoEアーキテクチャに基づき、パラメータ規模は数千億、総パラメータは103B、アクティブ度は9Bです。最新のAIリソース8ヶ月前037.4K
Glow - ターミナルでMarkdownファイルのレンダリングをサポートするオープンソースのコマンドラインツールGlowはターミナルでMarkdownファイルをエレガントにレンダリングするオープンソースのコマンドラインツールです。このツールはコードブロック、数式、その他の複雑な要素のハイライトをサポートし、カスタムスタイル、ページング表示、マウスサポートなどの豊富な機能を提供します。最新のAIリソース7ヶ月前037.4K
Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型Step3-VL-10B是阶跃星辰团队开源的100亿参数多模态AI模型,核心突破在于以轻量化设计实现顶级性能。模型通过统一预训练策略(1.2T多模态令牌数据)和创新的并行协同推理技术(PACORE...最新のAIリソース5ヶ月前037.3K
Step-Audio-EditX - Step-Star初のオープンソースLLMレベルオーディオ編集ラージモデルStep-Audio-EditXは、Step-Starチームによって開発されたオープンソースのオーディオ編集マクロモデルで、人工知能技術によるオーディオコンテンツのきめ細かな操作に焦点を当てています。このモデルは、オーディオのムード、話し方(小心者、老人アクセントなど)、パラ言語的要素(笑い、ため息など)を動的に調整することができます。最新のAIリソース7ヶ月前037.3K
FunctionGemma - 関数呼び出しに最適化されたGoogleオープンソースの軽量AIモデルFunctionGemmaは、Googleからの関数呼び出しに最適化された軽量AIモデルであり、2億7000万パラメータを持つGemma 3の基本モデルをベースに開発され、携帯電話やブラウザ、その他のデバイス上で自然言語をリアルタイムに実行可能なAPI命令に変換する。核となる機能は、ローカルのオフ...最新のAIリソース6ヶ月前037.3K
LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型LingBot-Depth是蚂蚁灵波科技开源的高精度空间感知模型,专门解决机器人在透明玻璃、反光物体等复杂场景中的深度识别难题。模型通过创新的"掩码深度建模"技术,在RGB图像基础上预测缺失的深度值最新のAIリソース5ヶ月前037.3K
SmartResume - アリババのオープンソースAI履歴書解析・最適化ツールSmartResumeは、PDF、画像、Office文書から基本情報、学歴、職歴などの構造化された情報を効率的に抽出する、アリババのオープンソースのインテリジェントな履歴書解析・最適化ツールです。OCRテクノロジーとPDFメタデータを統合することで、履歴書や職務経歴書の基本情報や学歴、職歴などの構造化された情報を効率的に抽出します。最新のAIリソース7ヶ月前037.2K
AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的深度调研智能体工具。基于 8 亿参数的模型,通过深度检索和推理,能生成万字长篇...最新のAIリソース5ヶ月前037.2K
Pyscn - フリーのAIコード品質分析ツール、Python開発者向けオープンソースPyscnはPython開発者向けに設計されたインテリジェントなコード品質分析ツールで、コードの潜在的な問題を検出して保守性を向上させます。制御フロー図を通してデッドコードを分析し、APTED+LSHアルゴリズムを使って重複コードを特定し、モジュールの結合やサークルの複雑さなどのメトリクスを計算します。最新のAIリソース8ヶ月前037.2K
LLaVA-OneVision-1.5 - 高性能マルチモーダル理解のためのフリーでオープンソースのマルチモーダルモデルLLaVA-OneVision-1.5は、EvolvingLMMS-Labチームによるオープンソースのマルチモーダルモデルで、8Bパラメータスケールを使用し、128 A800上でコンパクトな3段階のトレーニングプロセス(言語-イメージのアライメント、概念の平衡化と知識の注入、命令の微調整)を通じて...最新のAIリソース8ヶ月前037.2K
VibeThinker-1.5B - 15億パラメータの大規模言語モデルをWeibo AIがオープンソース化VibeThinker-1.5Bは、Weibo AIがオープンソース化した15億パラメータの大規模言語モデルです。アリババのQwen2.5-Math-1.5Bをベースに微調整されたこのモデルは、数学とコーディングのタスクに最適化されており、業界トップクラスの推論性能を発揮します。最新のAIリソース7ヶ月前037K
OpenAgents - AIエージェントネットワーク構築のためのオープンソース・フリー・オープンコラボレーションプロジェクトOpenAgentsは、AIエージェントのネットワークを構築し、エージェント間のオープンなコラボレーションを促進するオープンソースプロジェクトです。AIエージェントがシームレスに接続し、コラボレーションできるように、基本的なネットワークインフラが提供されています。ユーザーは、独自のエージェントネットワークを迅速に開始し、モジュラーアーキテクチャによって機能を拡張し、...最新のAIリソース8ヶ月前036.9K
アストロンエージェント - KDDIオープンソースエンタープライズクラスインテリジェントワークフロー開発プラットフォームアストロンエージェントは、KDDIのオープンソースエンタープライズグレードのインテリジェントワークフロー開発プラットフォームです。Java + Spring Boot技術スタックを使用し、軽量なプライベートデプロイメント(最小2コア4G構成)をサポートし、ビルトイン...最新のAIリソース7ヶ月前036.8K
PromptFill - AI絵画のために設計されたオープンソースの構造化キューワード生成AIツールPromptFillはAI描画のために設計された構造化キュー生成ツールで、視覚的な「穴埋め」インタラクションを通じて、複雑なプロンプトを素早く構築、管理、反復することができ、AI画像生成の効率と品質を向上させます。PromptFillのコア機能...最新のAIリソース6ヶ月前036.7K
Devstral 2 - ミストラルAIの次世代プログラミング・モデル・ファミリーDevstral 2は、Mistral AIが提供するソフトウェア・エンジニアリング・タスクのために設計された新世代プログラミング・モデル・ファミリーで、Devstral 2(123Bパラメータ)とDevstral Small 2(24Bパラメータ)から構成されている。最新のAIリソース6ヶ月前036.6K
Egocentric-10K - ビルドAIのオープンソース一人称視点ロボットデータセットEgocentric-10Kは、build.aiチームによってオープンソース化された大規模な一人称視点(エゴセントリック)工場作業ビデオデータセットです。このデータセットには10,000時間、合計10.8億フレーム、2...最新のAIリソース7ヶ月前036.4K
Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型Youtu-LLM 是腾讯 Youtu 团队开源的轻量级语言模型,参数规模为 19.6 亿。专为智能体任务设计,具备强大的“原生智能体能力”,在多项任务中超越同规模甚至更大模型。最新のAIリソース5ヶ月前036.4K
KoalaQA - Q&Aプラットフォームの迅速な構築を支援するオープンソースのAIアフターサービスシステムKoalaQAはChaitinチームによって開発されたオープンソースのインテリジェントなアフターサービスシステムです。AIモデルに基づいて、AIカスタマーサービス、AI検索、ナレッジベース管理機能を提供し、企業がインテリジェントQ&Aプラットフォームを迅速に構築できるよう支援します。このシステムは、24時間365日のリアルタイム応答をサポートしています。最新のAIリソース6ヶ月前036.4K
KAT-Dev-72B-Exp - レーサー・オープンソース・フリーのプログラミング専用モデルKAT-Dev-72B-Expは、強化学習技術に基づいて最適化された、Racerチームによって発表されたオープンソースのプログラミング専用大規模言語モデルであり、SWE-Bench Verifiedベンチマークテストで74.6%の精度を達成した。このモデルは革新的な...最新のAIリソース8ヶ月前036.4K
LongCat-Flash-Omni - 明潭オープンソースのための完全モード大規模言語モデルLongCat-Flash-Omniは、MeituanのLongCatチームによってリリースされたオープンソースの完全モーダルビッグ言語モデルです。5,600億のパラメータスケール(270億のアクティブ化されたパラメータ)を持ち、多数のパラメータを維持しながら、ミリ秒レベルのリアルタイムの音声と映像のインタラクション機能を実現している。最新のAIリソース7ヶ月前036.3K
SurfSense - オープンソースのAI研究・知識管理ツール、NotebookLMの最強ピントSurfSenseはオープンソースのAIリサーチ・ナレッジマネジメントツールです。高度なカスタマイズが可能で、検索エンジン、Slack、Jira、Notion、YouTube、GitHub、その他多くの外部データソースに接続し、情報の統合を促進することができる。ユーザーは様々なデータをアップロードできる。最新のAIリソース6ヶ月前036K
Fun-Audio-Chat-8B - Ali Tongyiによるオープンソースのエンドツーエンド音声対話マクロモデルFun-Audio-Chat-8Bは、Ali Tongyiチームによるオープンソースの80億パラメータエンドツーエンドスピーチビッグモデルで、ASR+LLM+TTSスプライシングを必要としない直接音声インスピーチアウト、流暢な中国語と英語のバイリンガル、低遅延で自然な音色です。25Hzのデュアル解像度共有LLMを使用...最新のAIリソース6ヶ月前036K
LongCat-Audio-Codec - Meituan LongCatオープンソーススピーチコーデックソリューションLongCat-Audio-Codecは、MeituanのLongCatチームによるオープンソースの音声コーデックソリューションです。このソリューションは、Speech Large Language Model (Speech LLM)のために設計されており、意味的・音響的な二重トークン並列抽出メカニズムによって、音声の意味的・音響的特徴を考慮に入れています。最新のAIリソース8ヶ月前036K
VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型VoiceSculptor 是西北工业大学联合多家机构开源的音色设计模型,基于 LLaSA-3B 和 CosyVoice2 开发,专注于通过自然语言指令生成多样化音色的语音合成。支持对语速、音量、基频...最新のAIリソース5ヶ月前035.9K
Nemotron Speech ASR - 英伟达开源的实时语音识别模型Nemotron Speech ASR是英伟达开源的实时语音识别模型,专为低延迟场景优化,支持24毫秒极速转录和多人并发对话。核心采用混合Mamba-Transformer MoE架构,通过固定状态缓...最新のAIリソース5ヶ月前035.9K
ERNIE-4.5-21B-A3B-Thinking - Baiduオープンソース推論思考モデルERNIE-4.5-21B-A3B-Thinkingは、推論タスクに特化したBaiduのオープンソース大規模言語モデルです。Mixed Expert (MoE) アーキテクチャを採用し、総参照数は210億、各トークンは30億のパラメータを起動し、128K長のコンテキストウィンドウをサポートします。最新のAIリソース9ヶ月前035.8K
NovaSR - 开源的音频超分辨率模型,提升音频采样率NovaSR是开源的音频超分辨率模型,主要用于将低质量音频(如16kHz采样率的电话音质)提升为高质量音频(如48kHz采样率的录音室级音质)。模型大小仅52KB,比一张微信表情包还小,可轻松部署在资...最新のAIリソース5ヶ月前035.8K
GLM-Image - 智谱联合华为开源的多模态图像生成模型GLM-Image是智谱与华为联合开源的多模态图像生成模型,基于昇腾Atlas 800T A2芯片和昇思MindSpore框架训练,采用创新的"自回归+扩散解码器"混合架构。核心突破在于实现了国产芯片...最新のAIリソース5ヶ月前035.7K
インフォグラフィック - Ali AntV team オープンソース・インフォグラフィック生成フレームワークインフォグラフィックは、Ali AntVチームの新世代のオープンソースフレームワークで、G2とAnt Designの開発に基づいており、高品質のインフォグラフィックの迅速な生成に焦点を当て、30以上のレイアウトテンプレート、120以上のプリセットテーマとAIインテリジェント生成機能を提供します。最新のAIリソース6ヶ月前035.7K
LLaSO - ロジックインテリジェンスによる業界初の完全オープンソース音声モデルLLaSOは、北京深層論理知能科技有限公司によって発表されたオープンソースの音声モデルで、音声データとテキストデータを統合し、アライメントデータセット、コマンド微調整データセット、評価ベンチマークを提供することで、大規模音声言語モデリングの分野におけるデータの分散と不十分なタスクカバレッジの問題を解決します。最新のAIリソース9ヶ月前035.6K
StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统StoryMem是字节跳动与南洋理工大学联合开源的AI视频生成系统,专为解决多场景视频中角色和环境一致性问题。核心通过"视觉记忆库"技术,自动存储关键帧并在后续生成时参考,确保人物外貌、服装、场景元素...最新のAIリソース5ヶ月前035.6K
SceneGen - 上海交通大学オープンソース3Dシーン生成フレームワークSceneGenは、上海交通大学の1枚の画像から3Dシーンを生成するオープンソースの手法であり、1枚のシーン画像とターゲットリソースマスクから、リソースの幾何学的構造、テクスチャ、相対的な空間位置を含む、複数の3Dリソースを含む完全なシーンを効率的に生成する。最新のAIリソース8ヶ月前035.6K
UnifoLM-VLA-0 - 宇树科技开源的首款操作型大模型UnifoLM-VLA-0 是宇树科技 UnifoLM 系列的首款操作型大模型,突破传统视觉语言模型(VLM)仅能理解图像文字的局限,通过在机器人操作数据上的持续预训练,实现从"图文理解"向具备物理常...最新のAIリソース4ヶ月前035.3K
UniWorld V2 - RabbitShow Intelligenceと北京大学が発表した新世代の画像編集モデルUniWorld V2は、RabbitZhan Intelligenceと北京大学のUniWorldチームが共同で発表した新世代の画像編集モデルです。画像編集の分野、特に中国語の理解や複雑なコマンドの実行において大きな優位性を持っている。このモデルは、芸術的な中国語フォントを正確にレンダリングすることができ、細かい...最新のAIリソース7ヶ月前035.2K
NewBie-image-Exp0.1 - NewBieAI-Lab オープンソース実験的アニメリテラートグラフィカルモデルNewBie-image-Exp0.1は、NewBieAI-Labチームによってオープンソース化された最初の実験的なアニメテキスト生まれのグラフィックモデルです。このモデルは、デュアルテキストエンコーダー(GEMMA3-4B...最新のAIリソース6ヶ月前035.2K
DPAI Arena - AIプログラミングのためのJetBrainsオープンソースベンチマーキングプラットフォームDPAI Arena(Developer Productivity AI Arena)は、JetBrainsが作成したオープンなベンチマーク・プラットフォームで、実世界のソフトウェア・エンジニアリング・タスクにおけるAI支援開発ツールの有効性を測定する。透明性の高い評価ストリームを通じて...最新のAIリソース7ヶ月前035.2K
MemMachine - MemVergeによるオープンソースAIメモリシステムMemMachineは、MemVerge社によって開発されたオープンソースのAIメモリシステムで、AIモデルや知能のために設計され、人間の脳のように相互作用データを保存して呼び出すことができ、AIの「無状態記憶喪失」の問題を解決する。レイヤー構造(短期記憶、長期記憶、ユーザー画像...)を採用している。最新のAIリソース6ヶ月前035.1K
ミュンヘン工科大学がミシガン大学と共同でオープンソース化した分散型機械学習プラットフォーム「KoinaKoinaは、プロテオミクス・データ解析を簡素化することに焦点を当てた、オープンソースの分散型機械学習プラットフォームである。ドイツのミュンヘン工科大学とアメリカのミシガン大学のチームによって開発されました。このプラットフォームは、標準化されたインターフェースを介して30以上の主流モデル(ProSIT、MS²PIPなど)を統合し、ペプチド質量...最新のAIリソース7ヶ月前035.1K
TalkCody - 複雑なタスクをサポートするフリーでオープンソースのAIプログラミングデスクトップアシスタントTalkCodyはフリーでオープンソースのAIプログラミングアシスタントデスクトップアプリケーションで、Rust + Tauri 2で構築され、Windows、macOS、Linuxの3つのプラットフォームをサポートし、ネイティブパフォーマンス、高速起動、低リソース使用の利点を備えています。50以上のメインストリームA...最新のAIリソース6ヶ月前035K
Intern-S1-Pro - 上海AI Lab开源的首个万亿参数科学多模态大模型Intern-S1-Pro是上海人工智能实验室开源的全球首个万亿参数级科学多模态大模型。采用512专家MoE架构,激活仅8专家22B参数,兼顾性能与效率。模型基于SAGE架构,引入傅里叶位置编码,统一...最新のAIリソース4ヶ月前034.8K
MOSS-Speech - 復旦大学オープンソース音声合成ビッグモデルMOSS-Speechは復旦大学の邱西鵬教授のチームによるオープンソースの音声合成(Speech-to-Speech)ビッグモデルです。従来の音声処理の常識を打ち破り、テキストガイダンスを必要とせず、直接音声を理解・生成し、イントネーションや感情などの非テキスト要素を取り込み、...最新のAIリソース7ヶ月前034.8K
Supertonic - オフラインで猛スピードで動作するオープンソースの高性能AI音声合成システム。Supertonicは、オープンソースの高性能音声合成(TTS)システムで、ローカルデバイスでの迅速な音声生成に重点を置いている。ONNXランタイム・テクノロジーを使用しているため、携帯電話、コンピュータ、Raspberry Piなどのデバイスで動作し、23の言語と音声クローンをサポートし、ネットワークを必要としません。最新のAIリソース7ヶ月前034.7K
NocoBase - アプリケーションを視覚的に構築するためのフリーでオープンソースのAIノーコード開発プラットフォームNocoBaseは、AI駆動のオープンソースのノーコード開発プラットフォームに基づいており、ビジネスシステムの迅速な構築をサポートし、プログラミングは、アプリケーション開発の構成を介して完了することができます。このプロジェクトは、Apache-2.0プロトコルを使用し、プライベートな展開と柔軟なスケーラビリティを提供し、企業管理、コラボレーションプラットフォームやその他の分野に適しています。最新のAIリソース7ヶ月前034.7K
InfinityStar - Byteオープンソース時空間自己回帰ビデオ生成フレームワークInfinityStarは、ByteDance社によってオープンソース化された、高解像度の画像とビデオ生成用に設計された、統一された時空間自己回帰フレームワークです。離散自己回帰的なアプローチを用いることで、テキストから画像、テキストから動画、画像から動画のタスクを単一のモデルで同時に扱うことができる。このフレームワークのベンチマークはVBench ...最新のAIリソース7ヶ月前034.4K
Dexbotic-フォース・スピリット・マシンのオープンソースVLAモデル具現化知能ワンストップ研究サービス・プラットフォームDexboticは、DexmalのオープンソースVisual-Linguistic-Action(VLA)モデルの具現化知能ワンストップ研究サービスプラットフォームであり、具現化知能分野の研究の断片化と低効率の問題を解決します。PyTorchをベースとしたDexboticは、具現化知能分野における研究の断片化と低効率の問題を解決するためのワンストップ研究サービスプラットフォームです...最新のAIリソース8ヶ月前034.4K
GigaBrain-0 - 世界モデル生成データによって駆動されるオープンソースの具現化ベースモデルGigaBrain-0は、実機汎化を実現するために世界のモデル生成データを使用する中国初のエンドツーエンドのVLA(Vision-Language-Action)具現化ベースモデルであり、GigaVisionと湖北ヒューマノイドロボティクスイノベーションセンターが共同でオープンソースとして公開しています。ハイブリッドTransformerアーキテクチャを採用し、...最新のAIリソース8ヶ月前034.3K
多言語ASR - Metaの多言語音声認識フレームワークオムニリンガルASRは、Metaによって導入された多言語音声認識フレームワークで、1600以上の言語をカバーし、78%の言語文字エラーレートは10%より低いです。最新のAIリソース7ヶ月前034.2K
Kosong - ムーンショットAIの新しいオープンソースAIエージェント開発フレームワークKosongは、Moonshot AIによってオープンソース化された新しいAIエージェント開発フレームワークで、次世代のインテリジェント・ボディ・アプリケーションを構築するための、軽量で柔軟かつ拡張性の高い基盤サポートを開発者に提供します。複数のツールを効率的にスケジューリングする非同期ツールスケジューリングエンジン...最新のAIリソース7ヶ月前034.1K
Baichuan-M3 - 百川智能开源的新一代医疗大语言模型Baichuan-M3是百川智能推出的新一代开源医疗大语言模型,专为医疗场景深度优化,具备强大的医疗推理和问诊能力。在权威的HealthBench评测中以65.1分的综合成绩位列全球第一,超越了GPT...最新のAIリソース5ヶ月前034.1K
DeepSeek-Math-V2 - DeepSeek オープンソース数理推論モデルDeepSeek-Math-V2は、ファントムキューブ傘下のAI企業であるDeepSeek社のオープンソース数理推論モデルで、最新バージョンはDeepSeek-V3.2-Exp-Baseの改良をベースにしており、Gemini DeepThinkを上回るパフォーマンスで国際的なナンバーワンに達している。最新のAIリソース7ヶ月前033.8K
MOVA - 创智学院联合模思智能开源的端到端音视频生成模型MOVA(MOSS-Video-and-Audio) 是上海创智学院 OpenMOSS 团队联合模思智能(MOSI)开源的端到端音视频生成模型,是中国首个高性能开源音视频模型。突破了传统"先画面后配音...最新のAIリソース4ヶ月前033.7K
Jamba Reasoning 3B - イスラエルAI21ラボのオープンソース軽量推論モデルJamba Reasoning 3Bは、イスラエルのAIスタートアップAI21 Labsによってオープンソース化された軽量推論モデルで、強力なパフォーマンスと幅広いアプリケーションへの応用が期待されている。SSMとTransformerのハイブリッド・アーキテクチャを採用し、Trans...最新のAIリソース8ヶ月前033.7K
opcode - クロードコード用に設計されたオープンソースのグラフィカルデスクトップアプリケーションopcodeはクロードコードオープンソースのグラフィカルなデスクトップアプリケーションのために設計されています , Tauri 2 + React 18 + Rustの開発に基づいて開発者winfunc .クロードコードのプロジェクトを管理するための視覚的なインターフェイスを提供します。最新のAIリソース6ヶ月前033.6K
Step 3.5 Flash - 阶跃星辰开源的 1960 亿稀疏 MoE 模型Step 3.5 Flash 是阶跃星辰开源的 1960 亿稀疏 MoE 模型,每 token 仅激活 110 亿参数,能在代码任务跑出 350 token/s 的实时速度。基于自研 MTP-3 多 ...最新のAIリソース4ヶ月前033.5K
FLUX.2 - Black Forest オープンソース画像生成・編集モデルFLUX.2は、Black Forest Labsが公開したオープンソースの画像生成・編集モデルで、テキストによる生画像、複数画像の参照、より豊かなディテール、鮮明なテクスチャ、安定したライティングによる画像編集をサポートしています。4つのバージョンがあります:FLUX.2 [pro](クローズドソースのトップと同等...最新のAIリソース7ヶ月前033.4K
Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台Genie Sim 3.0是智元机器人发布的首个大语言模型驱动的开源仿真平台。基于NVIDIA Isaac Sim构建,融合三维重建、视觉生成技术与物理引擎,实现毫米级精准复刻真实环境,通过自然语言指...最新のAIリソース5ヶ月前033.3K
DeepOCR - DeepSeek-OCRモデルに基づくオープンソース・レプリカ・プロジェクトDeepOCRは、DeepSeek-OCRのコアアーキテクチャを実装したオープンソースの複製プロジェクトであり、光圧縮技術によってテキスト情報を効率的に処理する。コアはDeepEncoderで、SAM-base(高解像度画像の処理)、16×畳み込み圧縮器...で構成されている。最新のAIリソース7ヶ月前033.3K
FG-CLIP 2 - 360 オープンソース・クロスモーダルグラフィックス視覚言語モデルFG-CLIP 2は、360人工知能研究所が発表した世界有数のグラフィカル・クロスモーダル視覚言語モデル(VL-M)であり、29の権威あるベンチマークでGoogleやMetaの類似モデルを上回り、現在最も強力なVL-Mとなっている。最新のAIリソース7ヶ月前033.1K
Open-o3 Video - 北京大学がオープンソース化したビデオ推論モデル United BytesOpen-o3 Videoは、北京大学とByteDanceが共同開発したオープンソースのビデオ推論モデルであり、時間的・空間的証拠によるビデオ推論の強化に焦点を当てている。重要な証拠にタイムスタンプとバウンディングボックスを明示的にラベル付けすることで、モデルが動画コンテンツをより良く理解し解釈するのに役立つ。最新のAIリソース7ヶ月前033.1K
Vidi2 - ByteHopのオープンソース・マルチモーダルビデオ理解と大規模モデルの生成Vidi2は、ByteDanceによってオープンソース化された第2世代のマルチモーダルビデオ理解・生成ビッグモデルであり、ビデオコンテンツの理解、分析、作成に焦点を当てている。テキスト、ビデオ、オーディオモダリティの共同入力をサポートし、画像コンテンツ、音声情報、自然言語コマンドを同時に理解することで、クロスモーダルなインタラクションを実現し、...最新のAIリソース6ヶ月前033.1K
ビー - テンセント・ミックスメタ・清華オープンソース・フルスタック・マルチモーダル・ラージモデル・プロジェクトBeeは、Tencent Mixed Elementチームと清華大学が共同で立ち上げたフルスタックのオープンソース・マルチモーダルビッグモデル・ソリューションであり、データ品質を向上させることで、オープンソースとクローズドソースのモデル間のパフォーマンスギャップを縮めることを目的としている。このプロジェクトには3つの核となる成果が含まれている:1,500万スケールの高品質2層CoTデータセットHoney-Data...最新のAIリソース7ヶ月前033.1K
RynnBrain - 阿里巴巴达摩院开源的具身智能大脑基础模型RynnBrain 是阿里巴巴达摩院开源的具身智能大脑基础模型,为机器人提供深度环境理解和物理世界交互能力。是业界首个赋予机器人时空记忆和物理空间推理能力的开源模型。包含2B、8B、30B等7个不同参...最新のAIリソース4ヶ月前032.9K
ROCK - アリババがオープンソースのサンドボックスで提供するインテリジェントな身体トレーニング環境ROCK(Reinforcement Open Construction Kit)は、アリババのオープンソースサンドボックスで、インテリジェンスのトレーニング環境のためのもので、実環境ではインテリジェンスを大規模にトレーニングできないという問題を解決する。最新のAIリソース7ヶ月前032.9K
SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型SenseNova-MARS 是商汤开源的首个支持动态视觉推理与图文搜索深度融合的智能体视觉语言模型(Agentic VLM),提供 8B 和 32B 双版本。模型能自主规划任务步骤、调用多种工具(如...最新のAIリソース4ヶ月前032.9K
Kimi WebBridge - 月之暗面推出的 AI Agent 浏览器交互插件Kimi WebBridge 是月之暗面(Moonshot AI)推出的浏览器扩展 + 本地桥接服务,专为 AI Agent 设计。让 AI 能像真人一样在你的 Chrome 或 Edge 浏览器中执...最新のAIリソース4週間前032.8K
Seekdb - Ant OceanBase オープンソースAIネイティブハイブリッド検索データベースSeekdb (OceanBase Seekdb) はAnt OceanBaseのオープンソースAIネイティブハイブリッド検索データベースで、ベクトル、フルテキスト、スカラー、地理空間データの統合ハイブリッド検索をサポートし、多段検索メカニズムを使用して、低レイテンシで高精度な検索を実現します。最新のAIリソース7ヶ月前032.6K
GLM-4.6V - Wisdom Spectrum AI オープンソース多言語ラージ言語モデルシリーズGLM-4.6Vは、Smart Spectrum AIによってオープンソース化されたマルチモーダル大規模言語モデルのシリーズです。 このシリーズには2つのバージョンがあります:GLM-4.6V (106B-A12B)は、クラウドおよび高性能クラスタシナリオ用の基本バージョンで、Mixed Expert (MoE)アーキテクチャ、合計約1060億参照、および活性化...最新のAIリソース6ヶ月前032.3K
TranslateGemma - 谷歌开源的机器翻译模型系列TranslateGemma是谷歌推出的基于Gemma 3的开源机器翻译模型系列,专为提升翻译质量而设计。通过两阶段微调(监督微调和强化学习)优化翻译效果,提供4B、12B、27B三种参数规模,支持5...最新のAIリソース5ヶ月前032.2K
SAIL-VL2 - ByteHopのオープンソース・マルチモーダル視覚言語モデルSAIL-VL2は、Byte Jumpチームによるオープンソースのマルチモーダル視覚言語モデルで、画像やテキストなどのマルチモーダル入力の共同モデリングに焦点を当てています。スパース混合エキスパート(MoE)アーキテクチャと漸進的な学習ストラテジーを用いて、2Bから8Bのパラメータスケールで、特に図形理解、数学的...最新のAIリソース8ヶ月前032.1K
PartCrafter - NU United Bytes オープンソース単体3D生成モデルPartCrafterは、北京大学、ByteDance、カーネギーメロン大学が共同で提案した先進的な3D生成モデルです。単一のRGB画像から、複数の意味的に明示的で幾何学的に多様な3Dメッシュパーツを一度に生成することができる。このモデルは、組み合わせ可能なポテンシャル空間を通してモデル化され...最新のAIリソース6ヶ月前032.1K
BestBlogs - 質の高い技術コンテンツを集めたオープンソースのAIコンテンツアグリゲーションプラットフォームBestBlogsは、テクノロジー実務者、起業家、プロダクトマネージャーなどのための高品質コンテンツの提供に焦点を当てたプラットフォームです。RSSフィードとクローラー技術を通じて、400以上の高品質なブログから記事、ポッドキャスト、ビデオ、その他のマルチフォーマットコンテンツを収集している。核となる強みは、AIビッグランゲージの活用にある。最新のAIリソース7ヶ月前032.1K
Petri - AnthropicのオープンソースAIセキュリティ監査フレームワークPetriは、Anthropic社によって開発されたオープンソースのAIセキュリティ監査フレームワークであり、AIモデルのセキュリティと振る舞いの整合性を体系的に評価する。実世界のシナリオをシミュレートすることで、自動監査人が対象モデルと複数回の対話を行い、その後、判定エージェントがモデルの...最新のAIリソース7ヶ月前032K
Wujie-Emu3.5 - 知恵源研究所オープンソース・マルチモーダル世界ビッグモデルWujie-Emu3.5は、北京Zhiyuan人工知能研究所のオープンソースのマルチモーダル世界マクロモデルであり、340億の参照とネイティブの世界モデリング機能を備えています。10兆個のマルチモーダル・トークン(790年分のビデオデータを含む)によって訓練され、物理法則をシミュレートし、グラフィック生成、視覚誘導を実現することができる。最新のAIリソース7ヶ月前032K
GigaWorld-0 - GigaVision オープンソース世界モデリングフレームワークGigaWorld-0は、国内のEmbodied IntelligenceスタートアップGigaAIのオープンソース世界モデルフレームワークであり、主にEmbodied Intelligence (Embodied AI)分野のデータボトルネック問題を解決するために使用される。高品質で多様かつ物理的にリアルな学習データを効率的に生成し、プッシュ...最新のAIリソース6ヶ月前031.4K
InkSight - GoogleのオープンソースAI手書き文字認識ツールInkSightはGoogleのオープンソースAI手書き認識ツールで、紙の手書きメモを編集可能なデジタルインクファイル(SVG形式など)に変換します。従来のOCRとは異なり、テキストコンテンツを認識し、手書きスタイル、段落構造、フォーカスマークを復元することができます。最新のAIリソース6ヶ月前031.4K
コンピュータ利用プレビュー - GoogleのオープンソースAIブラウザ自動化ツールコンピュータの使用プレビューは、Webページの対話を達成するために自然言語コマンドを介して、ジェミニモデルに基づいて、GoogleのオープンソースのAIブラウザ自動化ツールです。視覚認識プロセスの「スクリーンショット→分析→実行」を使用し、Playwrighをサポートします。最新のAIリソース6ヶ月前031.3K
Clawith - DataElem 团队开源的多智能体协作平台Clawith 是 DataElem 团队开源的"OpenClaw for Teams"——面向团队的多智能体协作平台。在保留 OpenClaw 灵魂与记忆能力的基础上,升级为 Aware 自主感知系...最新のAIリソース3ヶ月前031.3K
LongCat-Image - LongCat チーム、アメリカングループのオープンソース画像生成・編集モデルLongCat-Imageは、MeituanのLongCatチームによってリリースされたオープンソースの画像生成・編集モデルです。ハイブリッドバックボーンアーキテクチャ(MM-DiT+Single-DiT)と視覚言語モデル(VLM)条件付きエンコーダを組み合わせることで、テキスト生成画像と複数ラウンドの画像編集を実現している。最新のAIリソース6ヶ月前031.1K
SenseNova-SI - ShangTang Technologyのオープンソース空間知能ラージモデルファミリーSenseNova-SIは、ShangTech社がリリースしたオープンソースの空間知能グランドモデルであり、空間理解と推論におけるAIの能力向上に焦点を当てている。このモデルは、空間計測、再構築、関係判定、遠近変換、変形分析、空間推論を含む6つのコア次元に優れており、他のモデルを大幅に凌駕しています。最新のAIリソース7ヶ月前030.7K
VibeVoice-Realtime - マイクロソフトのオープンソース軽量リアルタイム音声合成モデルVibeVoice-Realtimeは、低遅延とリアルタイムインタラクションのために設計されたマイクロソフトのオープンソースの軽量リアルタイム音声合成(TTS)モデルです。ストリーミングテキスト入力をサポートし、最初のテキストトークンから音声入力することができます。最新のAIリソース6ヶ月前030.5K
QwenLong-L1.5 - Ali Tongyi Lab オープンソース長文推論モデルQwenLong-L1.5は、Alibaba Tongyi Labによるオープンソースのロングテキスト推論モデルであり、超ロングコンテキスト(例えば1M-4Mトークン)の複雑な推論問題の解決に焦点を当てている。核となるブレークスルーは、学習後の段階における3つの大きな革新にある。知識グラフ、SQL構文解析、マルチインテリジェンスによる...最新のAIリソース6ヶ月前030.5K
OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集OctoCodingBench是MiniMax开源的首个面向Coding Agent生产级标准的评测集,核心创新在于通过Check-level准确率(CSR)和Instance-level成功率(IS...最新のAIリソース5ヶ月前030.2K
ChatTutor - 双方向学習を可視化するオープンソースAI教材ChatTutorは、STEM科目のビジュアルインタラクティブ学習に焦点を当てたオープンソースのAI教材です。対話Q&Aや動的描画機能を実現するためのマルチインテリジェントなボディアーキテクチャを介して、ユーザーが直感的に抽象的な一般的な理解を支援するために、リアルタイムでホワイトボード上の数学的なグラフィックス、物理回路やマインドマップを描くことができます...最新のAIリソース7ヶ月前030K
Mistral 3 - Mistral AI、マルチモーダル大型モデルの最新シリーズをオープンソースでリリースMistral 3は、Mistral AIがオープンソースとしてリリースした最新のマルチモーダル大型モデルシリーズで、フラッグシップモデルのMistral Large 3(総パラメータ675B)と、Ministralシリーズの軽量版(3B/8B/14B)があり、いずれも画像理解に対応している。最新のAIリソース6ヶ月前029.7K
RoboCOIN - Wisdom Sourceが複数の大学と共同でオープンソース化した双腕ロボットの実ロボットデータセットRoboCOINは、北京紫源人工知能研究院が多くの企業や大学と共同でオープンソース化した世界初の大規模双腕ロボット実機データセットで、15種類のロボットプラットフォーム、18万件の実動作軌跡、421種類のタスクシナリオが含まれている。最大の特徴は、階層的アノテーションシステムを採用し、タスクを分解...最新のAIリソース6ヶ月前029.7K