最新のAIリソース

共 3100 篇文章
OmniVinci - NVIDIA开源的全模态大语言模型

オムニヴィンチ - NVIDIAのオープンソース全方位大規模言語モデル

OmniVinciは、NVIDIAによって開発されたオープンソースのフルモーダル大規模言語モデルであり、アーキテクチャの革新とデータの最適化を通じて、マルチモーダルモデルにおけるモーダルの断片化の問題を解決します。視覚と音声のエンベッディングのアライメントは、時間的に埋め込まれたグループキャプチャを利用するOmniAlignNetによって強化されます...
6ヶ月前
035K
Infographic - 阿里AntV团队开源的信息图生成框架

インフォグラフィック - Ali AntV team オープンソース・インフォグラフィック生成フレームワーク

インフォグラフィックは、Ali AntVチームの新世代のオープンソースフレームワークで、G2とAnt Designの開発に基づいており、高品質のインフォグラフィックの迅速な生成に焦点を当て、30以上のレイアウトテンプレート、120以上のプリセットテーマとAIインテリジェント生成機能を提供します。
4ヶ月前
035K
GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - Smart Spectrum AIによるオープンソース産業グレード音声合成システム

GLM-TTSは、強力な音声合成機能を持つオープンソースの産業用音声合成システムです。GLM-TTSは2段階の生成アーキテクチャを採用しており、第1段階ではテキストを音声トークン列に変換し、第2段階ではトークン列を高品質な音声に変換します。このシステムは、3秒間の音声サンプルのみをサポートし、音声を完成させます。
5ヶ月前
034.8K
PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

ペルソナライブ - マカオ大学をはじめとするオープンソースのリアルタイムAI似顔絵アニメーション生成ライブフレームワーク

PersonaLiveは、マカオ大学、dzine.ai、グレーターベイエリア大学GVCラボが共同開発したオープンソースのリアルタイムAI顔交換ライブストリーミングフレームワークである。一般的なコンシューマーグレードのグラフィックカード(12GBのビデオメモリ)で、低レイテンシー、高フレームレートのデジタルパーソンドライブを実現し、カメラを通してリアルタイムをサポートする。
4ヶ月前
034.4K
Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - Step-Star初のオープンソースLLMレベルオーディオ編集ラージモデル

Step-Audio-EditXは、Step-Starチームによって開発されたオープンソースのオーディオ編集マクロモデルで、人工知能技術によるオーディオコンテンツのきめ細かな操作に焦点を当てています。このモデルは、オーディオのムード、話し方(小心者、老人アクセントなど)、パラ言語的要素(笑い、ため息など)を動的に調整することができます。
6ヶ月前
034.4K
TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - Raw Digital Technology、Tsinghua、その他のオープンソースのビデオ生成アクセラレーションフレームワーク

TurboDiffusionは、清華大学、BioDigital Technology、UC Berkeleyが共同でオープンソース化したビデオ生成アクセラレーション・フレームワークで、ほぼロスレスな画質を維持しながら、ビデオ生成速度を100~200倍向上させることができる。スパース線形注意、サンプルステップ蒸留、8ビット...
4ヶ月前
034.4K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - グーグルのオープンソース次世代エンコーダー・デコーダーモデル

T5Gemma 2は、Googleがオープンソース化した新世代のエンコーダー・デコーダーモデルで、Gemma 3アーキテクチャをベースに、マルチモーダルおよびロングコンテキストの処理機能をアップグレードしたものである。テキストや画像を含む幅広いデータタイプをサポートし、非常に長いコンテキスト(最大128K)を処理することができる。
4ヶ月前
034.4K
Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

Yume1.5 - 上海AIラボと復旦大学がオープンソース化したインタラクティブ世界生成モデル

Yume 1.5は、復旦大学上海人工知能研究所と上海創新研究院が共同開発したオープンソースのインタラクティブ世界生成モデルで、リアルタイムのインタラクティブレンダリング(シングルカードで12FPS)が可能です。時空間結合チャネルモデリング(TSCM)技術を採用しており、コンテキストの長さが長くなっても...
4ヶ月前
034.4K
UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

UniWorld V2 - RabbitShow Intelligenceと北京大学が発表した新世代の画像編集モデル

UniWorld V2は、RabbitZhan Intelligenceと北京大学のUniWorldチームが共同で発表した新世代の画像編集モデルです。画像編集の分野、特に中国語の理解や複雑なコマンドの実行において大きな優位性を持っている。このモデルは、芸術的な中国語フォントを正確にレンダリングすることができ、細かい...
6ヶ月前
034.2K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - AIエージェントネットワーク構築のためのオープンソース・フリー・オープンコラボレーションプロジェクト

OpenAgentsは、AIエージェントのネットワークを構築し、エージェント間のオープンなコラボレーションを促進するオープンソースプロジェクトです。AIエージェントがシームレスに接続し、コラボレーションできるように、基本的なネットワークインフラが提供されています。ユーザーは、独自のエージェントネットワークを迅速に開始し、モジュラーアーキテクチャによって機能を拡張し、...
7ヶ月前
034.1K
GPT-5-Codex - OpenAI推出的最强编程模型

GPT-5-Codex-OpenAIが導入した最強のプログラミングモデル

GPT-5-Codexは、OpenAIの強力なプログラミング最適化モデルで、GPT-5によってさらに強化され、ソフトウェアエンジニアのために設計されています。このモデルは、高品質なコードを迅速に生成し、複数のプログラミング言語をサポートし、パフォーマンスを向上させるために既存のコードを最適化します。
8ヶ月前
034K
FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - 関数呼び出しに最適化されたGoogleオープンソースの軽量AIモデル

FunctionGemmaは、Googleからの関数呼び出しに最適化された軽量AIモデルであり、2億7000万パラメータを持つGemma 3の基本モデルをベースに開発され、携帯電話やブラウザ、その他のデバイス上で自然言語をリアルタイムに実行可能なAPI命令に変換する。核となる機能は、ローカルのオフ...
4ヶ月前
034K
LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni - 明潭オープンソースのための完全モード大規模言語モデル

LongCat-Flash-Omniは、MeituanのLongCatチームによってリリースされたオープンソースの完全モーダルビッグ言語モデルです。5,600億のパラメータスケール(270億のアクティブ化されたパラメータ)を持ち、多数のパラメータを維持しながら、ミリ秒レベルのリアルタイムの音声と映像のインタラクション機能を実現している。
6ヶ月前
033.7K
Astron Agent - 科大讯飞开源的企业级智能工作流开发平台

アストロンエージェント - KDDIオープンソースエンタープライズクラスインテリジェントワークフロー開発プラットフォーム

アストロンエージェントは、KDDIのオープンソースエンタープライズグレードのインテリジェントワークフロー開発プラットフォームです。Java + Spring Boot技術スタックを使用し、軽量なプライベートデプロイメント(最小2コア4G構成)をサポートし、ビルトイン...
5ヶ月前
033.2K
LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec - Meituan LongCatオープンソーススピーチコーデックソリューション

LongCat-Audio-Codecは、MeituanのLongCatチームによるオープンソースの音声コーデックソリューションです。このソリューションは、Speech Large Language Model (Speech LLM)のために設計されており、意味的・音響的な二重トークン並列抽出メカニズムによって、音声の意味的・音響的特徴を考慮に入れています。
6ヶ月前
033K
Open-o3 Video - 北大联合字节开源的视频推理模型

Open-o3 Video - 北京大学がオープンソース化したビデオ推論モデル United Bytes

Open-o3 Videoは、北京大学とByteDanceが共同開発したオープンソースのビデオ推論モデルであり、時間的・空間的証拠によるビデオ推論の強化に焦点を当てている。重要な証拠にタイムスタンプとバウンディングボックスを明示的にラベル付けすることで、モデルが動画コンテンツをより良く理解し解釈するのに役立つ。
6ヶ月前
032.7K
TalkCody - 免费开源的AI编程桌面助手,支持复杂任务

TalkCody - 複雑なタスクをサポートするフリーでオープンソースのAIプログラミングデスクトップアシスタント

TalkCodyはフリーでオープンソースのAIプログラミングアシスタントデスクトップアプリケーションで、Rust + Tauri 2で構築され、Windows、macOS、Linuxの3つのプラットフォームをサポートし、ネイティブパフォーマンス、高速起動、低リソース使用の利点を備えています。50以上のメインストリームA...
5ヶ月前
032.6K
SurfSense - 开源的AI研究与知识管理工具,NotebookLM最强平替

SurfSense - オープンソースのAI研究・知識管理ツール、NotebookLMの最強ピント

SurfSenseはオープンソースのAIリサーチ・ナレッジマネジメントツールです。高度なカスタマイズが可能で、検索エンジン、Slack、Jira、Notion、YouTube、GitHub、その他多くの外部データソースに接続し、情報の統合を促進することができる。ユーザーは様々なデータをアップロードできる。
5ヶ月前
032.6K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic-フォース・スピリット・マシンのオープンソースVLAモデル具現化知能ワンストップ研究サービス・プラットフォーム

Dexboticは、DexmalのオープンソースVisual-Linguistic-Action(VLA)モデルの具現化知能ワンストップ研究サービスプラットフォームであり、具現化知能分野の研究の断片化と低効率の問題を解決します。PyTorchをベースとしたDexboticは、具現化知能分野における研究の断片化と低効率の問題を解決するためのワンストップ研究サービスプラットフォームです...
6ヶ月前
032.6K
LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO - ロジックインテリジェンスによる業界初の完全オープンソース音声モデル

LLaSOは、北京深層論理知能科技有限公司によって発表されたオープンソースの音声モデルで、音声データとテキストデータを統合し、アライメントデータセット、コマンド微調整データセット、評価ベンチマークを提供することで、大規模音声言語モデリングの分野におけるデータの分散と不十分なタスクカバレッジの問題を解決します。
8ヶ月前
032.5K
MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - MemVergeによるオープンソースAIメモリシステム

MemMachineは、MemVerge社によって開発されたオープンソースのAIメモリシステムで、AIモデルや知能のために設計され、人間の脳のように相互作用データを保存して呼び出すことができ、AIの「無状態記憶喪失」の問題を解決する。レイヤー構造(短期記憶、長期記憶、ユーザー画像...)を採用している。
5ヶ月前
032.5K
Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn - フリーのAIコード品質分析ツール、Python開発者向けオープンソース

PyscnはPython開発者向けに設計されたインテリジェントなコード品質分析ツールで、コードの潜在的な問題を検出して保守性を向上させます。制御フロー図を通してデッドコードを分析し、APTED+LSHアルゴリズムを使って重複コードを特定し、モジュールの結合やサークルの複雑さなどのメトリクスを計算します。
7ヶ月前
032.4K
NocoBase - 免费开源的AI无代码开发平台,可视化构建应用

NocoBase - アプリケーションを視覚的に構築するためのフリーでオープンソースのAIノーコード開発プラットフォーム

NocoBaseは、AI駆動のオープンソースのノーコード開発プラットフォームに基づいており、ビジネスシステムの迅速な構築をサポートし、プログラミングは、アプリケーション開発の構成を介して完了することができます。このプロジェクトは、Apache-2.0プロトコルを使用し、プライベートな展開と柔軟なスケーラビリティを提供し、企業管理、コラボレーションプラットフォームやその他の分野に適しています。
6ヶ月前
032.2K
Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B - Ali Tongyiによるオープンソースのエンドツーエンド音声対話マクロモデル

Fun-Audio-Chat-8Bは、Ali Tongyiチームによるオープンソースの80億パラメータエンドツーエンドスピーチビッグモデルで、ASR+LLM+TTSスプライシングを必要としない直接音声インスピーチアウト、流暢な中国語と英語のバイリンガル、低遅延で自然な音色です。25Hzのデュアル解像度共有LLMを使用...
4ヶ月前
032.1K
Kosong - Moonshot AI开源的全新AI Agent开发框架

Kosong - ムーンショットAIの新しいオープンソースAIエージェント開発フレームワーク

Kosongは、Moonshot AIによってオープンソース化された新しいAIエージェント開発フレームワークで、次世代のインテリジェント・ボディ・アプリケーションを構築するための、軽量で柔軟かつ拡張性の高い基盤サポートを開発者に提供します。複数のツールを効率的にスケジューリングする非同期ツールスケジューリングエンジン...
6ヶ月前
032.1K
KoalaQA - 开源的AI售后服务系统,帮企业快速搭建问答平台

KoalaQA - Q&Aプラットフォームの迅速な構築を支援するオープンソースのAIアフターサービスシステム

KoalaQAはChaitinチームによって開発されたオープンソースのインテリジェントなアフターサービスシステムです。AIモデルに基づいて、AIカスタマーサービス、AI検索、ナレッジベース管理機能を提供し、企業がインテリジェントQ&Aプラットフォームを迅速に構築できるよう支援します。このシステムは、24時間365日のリアルタイム応答をサポートしています。
5ヶ月前
031.8K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

Supertonic - オフラインで猛スピードで動作するオープンソースの高性能AI音声合成システム。

Supertonicは、オープンソースの高性能音声合成(TTS)システムで、ローカルデバイスでの迅速な音声生成に重点を置いている。ONNXランタイム・テクノロジーを使用しているため、携帯電話、コンピュータ、Raspberry Piなどのデバイスで動作し、23の言語と音声クローンをサポートし、ネットワークを必要としません。
5ヶ月前
031.5K
InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar - Byteオープンソース時空間自己回帰ビデオ生成フレームワーク

InfinityStarは、ByteDance社によってオープンソース化された、高解像度の画像とビデオ生成用に設計された、統一された時空間自己回帰フレームワークです。離散自己回帰的なアプローチを用いることで、テキストから画像、テキストから動画、画像から動画のタスクを単一のモデルで同時に扱うことができる。このフレームワークのベンチマークはVBench ...
6ヶ月前
031.5K
Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台

ミュンヘン工科大学がミシガン大学と共同でオープンソース化した分散型機械学習プラットフォーム「Koina

Koinaは、プロテオミクス・データ解析を簡素化することに焦点を当てた、オープンソースの分散型機械学習プラットフォームである。ドイツのミュンヘン工科大学とアメリカのミシガン大学のチームによって開発されました。このプラットフォームは、標準化されたインターフェースを介して30以上の主流モデル(ProSIT、MS²PIPなど)を統合し、ペプチド質量...
6ヶ月前
031.5K
Seekdb - 蚂蚁OceanBase开源的AI原生混合搜索数据库

Seekdb - Ant OceanBase オープンソースAIネイティブハイブリッド検索データベース

Seekdb (OceanBase Seekdb) はAnt OceanBaseのオープンソースAIネイティブハイブリッド検索データベースで、ベクトル、フルテキスト、スカラー、地理空間データの統合ハイブリッド検索をサポートし、多段検索メカニズムを使用して、低レイテンシで高精度な検索を実現します。
5ヶ月前
031.3K
GigaBrain-0 - 开源的具身基础模型,由世界模型生成数据驱动

GigaBrain-0 - 世界モデル生成データによって駆動されるオープンソースの具現化ベースモデル

GigaBrain-0は、実機汎化を実現するために世界のモデル生成データを使用する中国初のエンドツーエンドのVLA(Vision-Language-Action)具現化ベースモデルであり、GigaVisionと湖北ヒューマノイドロボティクスイノベーションセンターが共同でオープンソースとして公開しています。ハイブリッドTransformerアーキテクチャを採用し、...
6ヶ月前
031.1K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - ByteHopのオープンソース・マルチモーダルビデオ理解と大規模モデルの生成

Vidi2は、ByteDanceによってオープンソース化された第2世代のマルチモーダルビデオ理解・生成ビッグモデルであり、ビデオコンテンツの理解、分析、作成に焦点を当てている。テキスト、ビデオ、オーディオモダリティの共同入力をサポートし、画像コンテンツ、音声情報、自然言語コマンドを同時に理解することで、クロスモーダルなインタラクションを実現し、...
5ヶ月前
030.7K
PartCrafter - 北大联合字节开源的单图3D生成模型

PartCrafter - NU United Bytes オープンソース単体3D生成モデル

PartCrafterは、北京大学、ByteDance、カーネギーメロン大学が共同で提案した先進的な3D生成モデルです。単一のRGB画像から、複数の意味的に明示的で幾何学的に多様な3Dメッシュパーツを一度に生成することができる。このモデルは、組み合わせ可能なポテンシャル空間を通してモデル化され...
5ヶ月前
030.6K
VibeVoice-Realtime - 微软开源的轻量级实时文本转语音模型

VibeVoice-Realtime - マイクロソフトのオープンソース軽量リアルタイム音声合成モデル

VibeVoice-Realtimeは、低遅延とリアルタイムインタラクションのために設計されたマイクロソフトのオープンソースの軽量リアルタイム音声合成(TTS)モデルです。ストリーミングテキスト入力をサポートし、最初のテキストトークンから音声入力することができます。
5ヶ月前
030.4K
SAIL-VL2 - 字节跳动开源的多模态视觉语言模型

SAIL-VL2 - ByteHopのオープンソース・マルチモーダル視覚言語モデル

SAIL-VL2は、Byte Jumpチームによるオープンソースのマルチモーダル視覚言語モデルで、画像やテキストなどのマルチモーダル入力の共同モデリングに焦点を当てています。スパース混合エキスパート(MoE)アーキテクチャと漸進的な学習ストラテジーを用いて、2Bから8Bのパラメータスケールで、特に図形理解、数学的...
7ヶ月前
030.4K
GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V - Wisdom Spectrum AI オープンソース多言語ラージ言語モデルシリーズ

GLM-4.6Vは、Smart Spectrum AIによってオープンソース化されたマルチモーダル大規模言語モデルのシリーズです。 このシリーズには2つのバージョンがあります:GLM-4.6V (106B-A12B)は、クラウドおよび高性能クラスタシナリオ用の基本バージョンで、Mixed Expert (MoE)アーキテクチャ、合計約1060億参照、および活性化...
5ヶ月前
030K
opcode - 专为Claude Code设计的开源图形化桌面应用

opcode - クロードコード用に設計されたオープンソースのグラフィカルデスクトップアプリケーション

opcodeはクロードコードオープンソースのグラフィカルなデスクトップアプリケーションのために設計されています , Tauri 2 + React 18 + Rustの開発に基づいて開発者winfunc .クロードコードのプロジェクトを管理するための視覚的なインターフェイスを提供します。
4ヶ月前
029.9K
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - 知恵源研究所オープンソース・マルチモーダル世界ビッグモデル

Wujie-Emu3.5は、北京Zhiyuan人工知能研究所のオープンソースのマルチモーダル世界マクロモデルであり、340億の参照とネイティブの世界モデリング機能を備えています。10兆個のマルチモーダル・トークン(790年分のビデオデータを含む)によって訓練され、物理法則をシミュレートし、グラフィック生成、視覚誘導を実現することができる。
5ヶ月前
029.9K
Petri - Anthropic开源的 AI 安全审计框架

Petri - AnthropicのオープンソースAIセキュリティ監査フレームワーク

Petriは、Anthropic社によって開発されたオープンソースのAIセキュリティ監査フレームワークであり、AIモデルのセキュリティと振る舞いの整合性を体系的に評価する。実世界のシナリオをシミュレートすることで、自動監査人が対象モデルと複数回の対話を行い、その後、判定エージェントがモデルの...
6ヶ月前
029.7K
RoboCOIN - 智源联合多所高校开源的双臂机器人真机数据集

RoboCOIN - Wisdom Sourceが複数の大学と共同でオープンソース化した双腕ロボットの実ロボットデータセット

RoboCOINは、北京紫源人工知能研究院が多くの企業や大学と共同でオープンソース化した世界初の大規模双腕ロボット実機データセットで、15種類のロボットプラットフォーム、18万件の実動作軌跡、421種類のタスクシナリオが含まれている。最大の特徴は、階層的アノテーションシステムを採用し、タスクを分解...
5ヶ月前
029.7K
Computer Use Preview - Google开源的AI浏览器自动化工具

コンピュータ利用プレビュー - GoogleのオープンソースAIブラウザ自動化ツール

コンピュータの使用プレビューは、Webページの対話を達成するために自然言語コマンドを介して、ジェミニモデルに基づいて、GoogleのオープンソースのAIブラウザ自動化ツールです。視覚認識プロセスの「スクリーンショット→分析→実行」を使用し、Playwrighをサポートします。
4ヶ月前
029.5K
FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2 - Black Forest オープンソース画像生成・編集モデル

FLUX.2は、Black Forest Labsが公開したオープンソースの画像生成・編集モデルで、テキストによる生画像、複数画像の参照、より豊かなディテール、鮮明なテクスチャ、安定したライティングによる画像編集をサポートしています。4つのバージョンがあります:FLUX.2 [pro](クローズドソースのトップと同等...
5ヶ月前
029.5K
GigaWorld-0 - 极佳视界开源的世界模型框架

GigaWorld-0 - GigaVision オープンソース世界モデリングフレームワーク

GigaWorld-0は、国内のEmbodied IntelligenceスタートアップGigaAIのオープンソース世界モデルフレームワークであり、主にEmbodied Intelligence (Embodied AI)分野のデータボトルネック問題を解決するために使用される。高品質で多様かつ物理的にリアルな学習データを効率的に生成し、プッシュ...
5ヶ月前
029.4K
Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

ビー - テンセント・ミックスメタ・清華オープンソース・フルスタック・マルチモーダル・ラージモデル・プロジェクト

Beeは、Tencent Mixed Elementチームと清華大学が共同で立ち上げたフルスタックのオープンソース・マルチモーダルビッグモデル・ソリューションであり、データ品質を向上させることで、オープンソースとクローズドソースのモデル間のパフォーマンスギャップを縮めることを目的としている。このプロジェクトには3つの核となる成果が含まれている:1,500万スケールの高品質2層CoTデータセットHoney-Data...
6ヶ月前
029.2K
SenseNova-SI - 商汤科技开源的空间智能大模型系列

SenseNova-SI - ShangTang Technologyのオープンソース空間知能ラージモデルファミリー

SenseNova-SIは、ShangTech社がリリースしたオープンソースの空間知能グランドモデルであり、空間理解と推論におけるAIの能力向上に焦点を当てている。このモデルは、空間計測、再構築、関係判定、遠近変換、変形分析、空間推論を含む6つのコア次元に優れており、他のモデルを大幅に凌駕しています。
6ヶ月前
028.3K
Flowra - 魔搭联合呜哩WULI团队开源的AI工作流开发工具

Flowra - Magic HitchとWooli WULIチームがオープンソース化したAIワークフロー開発ツール

Flowraは、ModelScope共同ウーマイルWULIチームのオープンソースグラフ実行エンジンとノードパッケージ開発ツールであり、FlowBenchのコアコンポーネントです。有向非循環グラフ(DAG)組織ワークフローを通じ、インテリジェントなキャッシュ、並列スケジューリング、分散サポート...
5ヶ月前
028.2K
LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

LongCat-Image - LongCat チーム、アメリカングループのオープンソース画像生成・編集モデル

LongCat-Imageは、MeituanのLongCatチームによってリリースされたオープンソースの画像生成・編集モデルです。ハイブリッドバックボーンアーキテクチャ(MM-DiT+Single-DiT)と視覚言語モデル(VLM)条件付きエンコーダを組み合わせることで、テキスト生成画像と複数ラウンドの画像編集を実現している。
5ヶ月前
028.1K
QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型

QwenLong-L1.5 - Ali Tongyi Lab オープンソース長文推論モデル

QwenLong-L1.5は、Alibaba Tongyi Labによるオープンソースのロングテキスト推論モデルであり、超ロングコンテキスト(例えば1M-4Mトークン)の複雑な推論問題の解決に焦点を当てている。核となるブレークスルーは、学習後の段階における3つの大きな革新にある。知識グラフ、SQL構文解析、マルチインテリジェンスによる...
4ヶ月前
028K
BestBlogs - 开源的AI内容聚合平台,精选优质技术内容

BestBlogs - 質の高い技術コンテンツを集めたオープンソースのAIコンテンツアグリゲーションプラットフォーム

BestBlogsは、テクノロジー実務者、起業家、プロダクトマネージャーなどのための高品質コンテンツの提供に焦点を当てたプラットフォームです。RSSフィードとクローラー技術を通じて、400以上の高品質なブログから記事、ポッドキャスト、ビデオ、その他のマルチフォーマットコンテンツを収集している。核となる強みは、AIビッグランゲージの活用にある。
6ヶ月前
027.7K
Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image - Ali AIDC-AIチームによるオープンソース・ベンチャーグラフモデル

Ovis-Imageは、Alibaba International Digital Commerce GroupのAIDC-AIチームによってオープンソース化された70億パラメータのテキスト生成グラフモデルで、高品質のテキストレンダリングに焦点を当てています。Ovis-U1アーキテクチャに基づき、高度なビジュアルデコーダーと双方向トークン精製機能を継承しています。
5ヶ月前
026.6K
ChatTutor - 开源的AI教学辅助工具,可视化互动学习

ChatTutor - 双方向学習を可視化するオープンソースAI教材

ChatTutorは、STEM科目のビジュアルインタラクティブ学習に焦点を当てたオープンソースのAI教材です。対話Q&Aや動的描画機能を実現するためのマルチインテリジェントなボディアーキテクチャを介して、ユーザーが直感的に抽象的な一般的な理解を支援するために、リアルタイムでホワイトボード上の数学的なグラフィックス、物理回路やマインドマップを描くことができます...
5ヶ月前
026.5K