最新のAIリソース

合計2875記事
A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

中項A2UI - エージェント駆動型ユーザー・インタラクション・インターフェースのためのGoogleのオープンソース宣言型プロトコル

A2UI(Agent-to-User Interface)は、Googleがオープンソースで提供するエージェント駆動型インターフェース・プロトコルであり、AIエージェント向けに複雑な対話型インターフェースを生成する際の課題に対処する。AIエージェントがユーザーインターフェースの構造を記述できるようにする宣言的なJSONフォーマットを通じて、クライアントアプリケーションは、AIエージェントがユーザーインターフェースの構造を記述できるようにします。
2日前
03.6K
SAM Audio - Meta推出的开源多模态音频分割模型

中項SAM Audio - オープンソースのマルチモーダル音声セグメンテーションモデル(Metaより

SAMオーディオは、複雑なオーディオミックスから任意のターゲット音を正確に分離する、Meta社のオープンソースのマルチモーダルオーディオセグメンテーションモデルです。テキスト、ビジュアル、時間次元のキューを組み合わせることで、オーディオ編集、ノイズ除去、音抽出、...といったタスクのための柔軟で効率的なオーディオ処理を可能にします。
2日前
03.6K
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

Mixed World Model 1.5 - Tencent Mixedオープンソースリアルタイム世界モデル生成フレームワーク

ハイブリッド世界モデル1.5(Tencent HY WorldPlay)は、Tencentがリリースした業界初のオープンソースリアルタイム世界モデルフレームワークであり、データ、トレーニング、ストリーミング推論の展開のフルチェーンをカバーする。コアとなるのはWorldPlay自己回帰拡散モデルで、Next-F...
2日前
04.6K
MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - シャオミが公開したオープンソースMoEアーキテクチャの大型モデル

MiMo-V2-FlashはXiaomiが発表したオープンソースのMoEアーキテクチャの大型モデルで、総パラメータは3,090億、アクティブパラメータは150億であり、効率的な推論とインテリジェントボディの応用に焦点を当てている。ハイブリッドアテンションアーキテクチャと多言語メタ予測技術を採用し、推論速度は150トークン/秒である。
3日前
05.5K
Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move - アリ・トンイのオープンソースAI動画生成フレームワーク、清華大学らと共同開発

Wan-Moveは、Ali Tongyi Labsと清華大学などが共同開発したオープンソースのAI動画生成フレームワークで、精密なモーションコントロール技術による高品質な動画合成に焦点を当てている。核心技術は「潜在的軌道誘導」で、既存の画像-動画モデルに点レベルのモーション制御をシームレスに追加することができる。
4日前
06.8K
Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Kaleido - 清華大学等と共同でSmart Spectrum AIがオープンソース化した多被写体リファレンスビデオ生成モデル

Kaleidoは、合肥工業大学、清華大学、Smart Spectrum AIが共同開発したオープンソースの多被写体参照映像生成モデルである。複数の参照画像を通して被写体一貫性のある動画を生成し、多被写体一貫性と背景デカップリングにおける既存モデルの欠陥を解決します。
5日前
06.3K
Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - 香港大学のオープンソース学術論文をスライドに変換するAIツール

Paper2Slidesは、香港大学のData Intelligence LaboratoryによるオープンソースのAIツールで、学術論文をワンクリックでプロフェッショナルなスライドやポスターに変換する。RAG (Retrieval Augmented Generation)技術を使用し、ネットワーク情報に依存するのではなく、ドキュメントの内容を直接解析することで、生成されるPPTが元のPPTと高い整合性を持つようにします。
5日前
06.7K
RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo - Wisdom Spectrum AIのオープンソース・リアルタイム・ストリーミング映像生成システム

RealVideoは、Smart Spectrum AIが提供するオープンソースのリアルタイム・ストリーミング・ビデオ生成システムで、2~3秒で自然で滑らかなビデオ応答を素早く生成することができる。ユーザーは写真をアップロードしてテキストを入力するだけで、対応する音声と動画を生成し、AIキャラクターとのリアルタイム対話を可能にする。
5日前
05.9K
DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA - GoogleのオープンソースAI研究エージェントのテストベンチマーク

DeepSearchQAはGoogleのオープンソースAI研究エージェントテストベンチマークであり、複雑なマルチステップクエリタスクにおける知能のパフォーマンスを評価するために設計されている。17のドメインをカバーする900の手作業で設計された「因果連鎖」タスクで構成され、AIは人間の研究者のように行動し、多段階のクエリを実行する必要があります。
5日前
04.5K
Claude-Mem - 开源Claude Code记忆插件,支持跨会话持久化记忆

Claude-Mem - クロスセッション永続メモリをサポートするオープンソースクロードコードメモリプラグイン

Claude-MemはClaude Codeのオープンソースプラグインであり、セッション間のAIによる記憶喪失の問題に対処する。ツールによるオブザベーションの使用を自動的にキャプチャし、セマンティックサマリーを生成し、後続のセッションで関連するコンテキストを注入することで、Claudeを支援します...
1週間前
010.1K
KoalaQA - 开源的AI售后服务系统,帮企业快速搭建问答平台

KoalaQA - Q&Aプラットフォームの迅速な構築を支援するオープンソースのAIアフターサービスシステム

KoalaQAはChaitinチームによって開発されたオープンソースのインテリジェントなアフターサービスシステムです。AIモデルに基づいて、AIカスタマーサービス、AI検索、ナレッジベース管理機能を提供し、企業がインテリジェントQ&Aプラットフォームを迅速に構築できるよう支援します。このシステムは、24時間365日のリアルタイム応答をサポートしています。
1週間前
07.7K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - Faceted Intelligenceオープンソースエンドツーエンド音声合成モデリング

VoxCPM 1.5は、Facade Intelligence社がリリースしたオープンソースの音声生成モデルで、スプリッターを必要としないテキスト音声合成(TTS)技術をベースに、いくつかの革新的な改良が加えられています。エンド・ツー・エンドの拡散自己回帰アーキテクチャを採用し、テキストから直接連続音声波形を生成することで、従来のセグメンテーション手法の制限を回避...
1週間前
010.1K
Mistral Vibe - Mistral AI推出的开源命令行编码助手

Mistral Vibe - Mistral AIによるオープンソースコマンドラインコーディングアシスタント

Mistral Vibeは、Devstralモデルに基づいて開発されたMistral AIによるオープンソースのコマンドラインコーディングアシスタントで、コード検索、ファイル操作、バージョン管理などのタスクを完了するための自然言語対話をサポートします。プロジェクトの構造やGitのステータスを@記号で自動的にスキャンすることができます。
1週間前
07.3K
GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - Smart Spectrum AIによるオープンソース産業グレード音声合成システム

GLM-TTSは、強力な音声合成機能を持つオープンソースの産業用音声合成システムです。GLM-TTSは2段階の生成アーキテクチャを採用しており、第1段階ではテキストを音声トークン列に変換し、第2段階ではトークン列を高品質な音声に変換します。このシステムは、3秒間の音声サンプルのみをサポートし、音声を完成させます。
1週間前
07.9K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - Smart Spectrum AIのオープンソース携帯電話AIエージェントモデル

OpenAutoGLMは、マルチモーダル知覚によって携帯電話画面の内容を理解し、ユーザーが指定したタスクを完了するための操作フローを自動的に生成することができる、「携帯電話使用」の機能を備えたオープンソースの知的身体モデルです。ユーザは、「美団を開いて近くの鍋を検索する」といった自然言語でニーズを記述するだけでよい。
2週間前
013.8K
SurfSense - 开源的AI研究与知识管理工具,NotebookLM最强平替

SurfSense - オープンソースのAI研究・知識管理ツール、NotebookLMの最強ピント

SurfSenseはオープンソースのAIリサーチ・ナレッジマネジメントツールです。高度なカスタマイズが可能で、検索エンジン、Slack、Jira、Notion、YouTube、GitHub、その他多くの外部データソースに接続し、情報の統合を促進することができる。ユーザーは様々なデータをアップロードできる。
2週間前
08.3K
GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V - Wisdom Spectrum AI オープンソース多言語ラージ言語モデルシリーズ

GLM-4.6Vは、Smart Spectrum AIによってオープンソース化されたマルチモーダル大規模言語モデルのシリーズです。 このシリーズには2つのバージョンがあります:GLM-4.6V (106B-A12B)は、クラウドおよび高性能クラスタシナリオ用の基本バージョンで、Mixed Expert (MoE)アーキテクチャ、合計約1060億参照、および活性化...
2週間前
011K
LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

LongCat-Image - LongCat チーム、アメリカングループのオープンソース画像生成・編集モデル

LongCat-Imageは、MeituanのLongCatチームによってリリースされたオープンソースの画像生成・編集モデルです。ハイブリッドバックボーンアーキテクチャ(MM-DiT+Single-DiT)と視覚言語モデル(VLM)条件付きエンコーダを組み合わせることで、テキスト生成画像と複数ラウンドの画像編集を実現している。
2週間前
07.9K
VibeVoice-Realtime - 微软开源的轻量级实时文本转语音模型

VibeVoice-Realtime - マイクロソフトのオープンソース軽量リアルタイム音声合成モデル

VibeVoice-Realtimeは、低遅延とリアルタイムインタラクションのために設計されたマイクロソフトのオープンソースの軽量リアルタイム音声合成(TTS)モデルです。ストリーミングテキスト入力をサポートし、最初のテキストトークンから音声入力することができます。
2週間前
010K
Flowra - 魔搭联合呜哩WULI团队开源的AI工作流开发工具

Flowra - Magic HitchとWooli WULIチームがオープンソース化したAIワークフロー開発ツール

Flowraは、ModelScope共同ウーマイルWULIチームのオープンソースグラフ実行エンジンとノードパッケージ開発ツールであり、FlowBenchのコアコンポーネントです。有向非循環グラフ(DAG)組織ワークフローを通じ、インテリジェントなキャッシュ、並列スケジューリング、分散サポート...
2週間前
09.2K
RoboCOIN - 智源联合多所高校开源的双臂机器人真机数据集

RoboCOIN - Wisdom Sourceが複数の大学と共同でオープンソース化した双腕ロボットの実ロボットデータセット

RoboCOINは、北京紫源人工知能研究院が多くの企業や大学と共同でオープンソース化した世界初の大規模双腕ロボット実機データセットで、15種類のロボットプラットフォーム、18万件の実動作軌跡、421種類のタスクシナリオが含まれている。最大の特徴は、階層的アノテーションシステムを採用し、タスクを分解...
2週間前
08.5K
TalkCody - 免费开源的AI编程桌面助手,支持复杂任务

TalkCody - 複雑なタスクをサポートするフリーでオープンソースのAIプログラミングデスクトップアシスタント

TalkCodyはフリーでオープンソースのAIプログラミングアシスタントデスクトップアプリケーションで、Rust + Tauri 2で構築され、Windows、macOS、Linuxの3つのプラットフォームをサポートし、ネイティブパフォーマンス、高速起動、低リソース使用の利点を備えています。50以上のメインストリームA...
2週間前
013.4K
MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - MemVergeによるオープンソースAIメモリシステム

MemMachineは、MemVerge社によって開発されたオープンソースのAIメモリシステムで、AIモデルや知能のために設計され、人間の脳のように相互作用データを保存して呼び出すことができ、AIの「無状態記憶喪失」の問題を解決する。レイヤー構造(短期記憶、長期記憶、ユーザー画像...)を採用している。
2週間前
012.6K
PartCrafter - 北大联合字节开源的单图3D生成模型

PartCrafter - NU United Bytes オープンソース単体3D生成モデル

PartCrafterは、北京大学、ByteDance、カーネギーメロン大学が共同で提案した先進的な3D生成モデルです。単一のRGB画像から、複数の意味的に明示的で幾何学的に多様な3Dメッシュパーツを一度に生成することができる。このモデルは、組み合わせ可能なポテンシャル空間を通してモデル化され...
2週間前
09K
GigaWorld-0 - 极佳视界开源的世界模型框架

GigaWorld-0 - GigaVision オープンソース世界モデリングフレームワーク

GigaWorld-0は、国内のEmbodied IntelligenceスタートアップGigaAIのオープンソース世界モデルフレームワークであり、主にEmbodied Intelligence (Embodied AI)分野のデータボトルネック問題を解決するために使用される。高品質で多様かつ物理的にリアルな学習データを効率的に生成し、プッシュ...
2週間前
09.7K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - ByteHopのオープンソース・マルチモーダルビデオ理解と大規模モデルの生成

Vidi2は、ByteDanceによってオープンソース化された第2世代のマルチモーダルビデオ理解・生成ビッグモデルであり、ビデオコンテンツの理解、分析、作成に焦点を当てている。テキスト、ビデオ、オーディオモダリティの共同入力をサポートし、画像コンテンツ、音声情報、自然言語コマンドを同時に理解することで、クロスモーダルなインタラクションを実現し、...
2週間前
010.2K
Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image - Ali AIDC-AIチームによるオープンソース・ベンチャーグラフモデル

Ovis-Imageは、Alibaba International Digital Commerce GroupのAIDC-AIチームによってオープンソース化された70億パラメータのテキスト生成グラフモデルで、高品質のテキストレンダリングに焦点を当てています。Ovis-U1アーキテクチャに基づき、高度なビジュアルデコーダーと双方向トークン精製機能を継承しています。
3週間前
010.5K
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - 知恵源研究所オープンソース・マルチモーダル世界ビッグモデル

Wujie-Emu3.5は、北京Zhiyuan人工知能研究所のオープンソースのマルチモーダル世界マクロモデルであり、340億の参照とネイティブの世界モデリング機能を備えています。10兆個のマルチモーダル・トークン(790年分のビデオデータを含む)によって訓練され、物理法則をシミュレートし、グラフィック生成、視覚誘導を実現することができる。
3週間前
08K
GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - StepsチームによるオープンソースのエンドサイドマルチモーダルGUIエージェントモデル

GELab-Zeroは、Step Leapチームによるオープンソースのエンドサイド・マルチモーダルGUIエージェントモデルで、Qwen3-VL-4B-Instructをベースに4Bパラメータで構築されています。UI要素を認識し、クリックやスライドなどの操作を実行することができ、アプリケーション間のタスク処理をサポートしています。
3週間前
013.4K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

深さ何でも3 - ByteHopシードオープンソース用3Dビジュアル再構築モデル

Depth Anything 3(DA3)は、Byte Jump Seedチームによって開発され、オープンソース化された3D視覚再構成モデルです。単一のトランスフォーマーアーキテクチャを通して、どのような視点でも空間的なジオメトリの再構築を実現し、深度マップとレイマップを予測するだけで3Dシーンを復元することができます。
3週間前
013.8K
Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image - Ali Tongyi Labs オープンソース画像生成モデル

Z-Imageは、Ali Tongyi Labsによるオープンソースの画像生成モデルで、効率的で高速かつ強力な画像生成機能を備えています。シングルストリーム拡散トランスフォーマーアーキテクチャ(S3-DiT)を使用し、テキスト、ビジュアルセマンティクス、画像VAEトークンを統一された入力ストリームに統合します。
3週間前
020.9K
ViMax - 香港大学开源的多智能体视频生成框架

ViMax - 香港大学のオープンソースマルチインテリジェントボディビデオ生成フレームワーク

ViMaxは、香港大学のデータサイエンス研究所が開発したオープンソースのマルチインテリジェンス・ボディ・ビデオ生成フレームワークで、クリエイティブな入力からビデオ出力までの全プロセスを自動化することができます。スクリプト生成、シーンデザイン、ショットプランニング、ビデオレンダリング機能を統合し、自然言語記述による首尾一貫した映画・テレビグレードのビデオ生成をサポートします。
3週間前
019.9K
FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2 - Black Forest オープンソース画像生成・編集モデル

FLUX.2は、Black Forest Labsが公開したオープンソースの画像生成・編集モデルで、テキストによる生画像、複数画像の参照、より豊かなディテール、鮮明なテクスチャ、安定したライティングによる画像編集をサポートしています。4つのバージョンがあります:FLUX.2 [pro](クローズドソースのトップと同等...
3週間前
011.6K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - マイクロソフトのオープンソース・コンピュータ操作アシスタント・モデル

Fara-7Bは、Qwen 2.5-VL-7Bアーキテクチャに基づいた70億パラメータ規模のコンピュータ操作エージェント(CUA)モデルのマイクロソフトオープンソースリリースです。ウェブページのスクリーンショットを視覚的に解析し、画面上でクリックや入力などを実行することで、追加のアクセシビリティツリーや複数の大規模モデルに依存する必要がありません...
4週間前
014.7K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - テンセント混合元オープンソース光学式文字認識エキスパートモデル

HunyuanOCRは、Tencentハイブリッドチームによってオープンソース化された高性能な光学式文字認識モデルであり、わずか10億件の参照しかない。ハイブリッドマルチモーダルアーキテクチャに基づいて開発され、エンドツーエンドの設計を採用し、テキスト検出、認識、文書解析タスクを効率的に処理することができます。このモデルは複雑な文書のテストで94.1点を獲得し、...
4週間前
016.1K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

Supertonic - オフラインで猛スピードで動作するオープンソースの高性能AI音声合成システム。

Supertonicは、オープンソースの高性能音声合成(TTS)システムで、ローカルデバイスでの迅速な音声生成に重点を置いている。ONNXランタイム・テクノロジーを使用しているため、携帯電話、コンピュータ、Raspberry Piなどのデバイスで動作し、23の言語と音声クローンをサポートし、ネットワークを必要としません。
4週間前
013.2K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - シャオミのオープンソース・クロスドメイン具現化知能台座モデル

MiMo-Embodiedは、シャオミグループがオープンソース化した世界初のクロスエンボディベースモデルであり、エンボディドAIと自律走行の統合に成功している。エンボディドAIと自律走行間の知識移行問題を解決し、2つの領域におけるタスクの統一的なモデリングを実現する。
4週間前
014.9K
Parallax - Gradient开源的全球首个全自主AI操作系统

Parallax - Gradientがオープンソース化した世界初の完全自律型AIオペレーティング・システム

Parallaxは、分散型AIラボのGradientがオープンソース化した、世界初の「完全自律型AIオペレーティング・システム」である。Mac、Windows、その他の異種デバイス上での大規模モデルのクロスプラットフォーム展開をサポートし、ユーザーはモデル、データ、AIメモリを完全に制御することができる。このシステムは、ネットワークを意識したビルトイン ...
4週間前
018.7K
Awex - 蚂蚁集团开源的高性能权重交换框架

Awex - Antグループのオープンソース高性能ウェイト交換フレームワーク

Awexは、Ant Groupのオープンソース高性能重み交換フレームワークであり、強化学習における大規模なパラメータ同期のために設計されています。Awexは、テラバイトのパラメータ交換を数秒で完了させることができ、学習と推論の効率を大幅に向上させます。Awexの同期性能は非常に高速で、1,000枚のカードクラスタでは、1兆個のパラメータモデルを、全パラメータ量の6秒以内に完了させることができます。
4週間前
016.6K
Seekdb - 蚂蚁OceanBase开源的AI原生混合搜索数据库

Seekdb - Ant OceanBase オープンソースAIネイティブハイブリッド検索データベース

Seekdb (OceanBase Seekdb) はAnt OceanBaseのオープンソースAIネイティブハイブリッド検索データベースで、ベクトル、フルテキスト、スカラー、地理空間データの統合ハイブリッド検索をサポートし、多段検索メカニズムを使用して、低レイテンシで高精度な検索を実現します。
4週間前
013.2K
LoopTool - 上海交大联合小红书开源的自动化工具调用数据进化框架

LoopTool - 上海交通大学とLittle Red Bookのデータ進化フレームワークを呼び出すオープンソース自動化ツール

LoopToolは、上海交通大学とLittle Red Bookチームによってオープンソース化された自動ツールコールデータ進化フレームワークであり、大規模言語モデルのツールコール機能を強化するために設計されている。オープンソースのモデル(Qwen3-32Bなど)をデータ生成に使用し、クローズドループの繰り返しによってデータ生成とモデル学習を最適化します。
4週間前
015.5K
MemOS - 开源的AI记忆管理与调度平台,共享长期记忆

MemOS - 長期記憶を共有するためのオープンソースAIメモリ管理・スケジューリングプラットフォーム

MemOSは、MemTensorのような大規模言語モデル(LLM)のためのオープンソースのメモリ管理とスケジューリングのフレームワークです。メモリを演算能力と同様に重要なリソースと考え、標準化されたMemCubeメモリユニットによって、プレーンテキスト、活性化状態、パラメータメモリの管理を一元化します。
1ヶ月前
015.7K
ChatTutor - 开源的AI教学辅助工具,可视化互动学习

ChatTutor - 双方向学習を可視化するオープンソースAI教材

ChatTutorは、STEM科目のビジュアルインタラクティブ学習に焦点を当てたオープンソースのAI教材です。対話Q&Aや動的描画機能を実現するためのマルチインテリジェントなボディアーキテクチャを介して、ユーザーが直感的に抽象的な一般的な理解を支援するために、リアルタイムでホワイトボード上の数学的なグラフィックス、物理回路やマインドマップを描くことができます...
1ヶ月前
010.7K
EverMemOS - 盛大团队推出的开源长期记忆操作系统

EverMemOS - チームシャンダによるオープンソース長期メモリオペレーティングシステム

EverMemOSは、陳天樵が率いるシャンダチームが立ち上げたオープンソースの長期記憶オペレーティングシステムであり、AI知能のために設計され、大規模言語モデルの固定コンテキストウィンドウに起因するメモリ破壊の問題を解決する。このシステムは人間の脳の記憶メカニズムに基づいており、4層アーキテクチャ(エージェント層、メモリ層、インデックス層...)を採用している。
1ヶ月前
014.6K
Astron Agent - 科大讯飞开源的企业级智能工作流开发平台

アストロンエージェント - KDDIオープンソースエンタープライズクラスインテリジェントワークフロー開発プラットフォーム

アストロンエージェントは、KDDIのオープンソースエンタープライズグレードのインテリジェントワークフロー開発プラットフォームです。Java + Spring Boot技術スタックを使用し、軽量なプライベートデプロイメント(最小2コア4G構成)をサポートし、ビルトイン...
1ヶ月前
013.8K
Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

ビー - テンセント・ミックスメタ・清華オープンソース・フルスタック・マルチモーダル・ラージモデル・プロジェクト

Beeは、Tencent Mixed Elementチームと清華大学が共同で立ち上げたフルスタックのオープンソース・マルチモーダルビッグモデル・ソリューションであり、データ品質を向上させることで、オープンソースとクローズドソースのモデル間のパフォーマンスギャップを縮めることを目的としている。このプロジェクトには3つの核となる成果が含まれている:1,500万スケールの高品質2層CoTデータセットHoney-Data...
1ヶ月前
012.2K
InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar - Byteオープンソース時空間自己回帰ビデオ生成フレームワーク

InfinityStarは、ByteDance社によってオープンソース化された、高解像度の画像とビデオ生成用に設計された、統一された時空間自己回帰フレームワークです。離散自己回帰的なアプローチを用いることで、テキストから画像、テキストから動画、画像から動画のタスクを単一のモデルで同時に扱うことができる。このフレームワークのベンチマークはVBench ...
1ヶ月前
011.8K
Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台

ミュンヘン工科大学がミシガン大学と共同でオープンソース化した分散型機械学習プラットフォーム「Koina

Koinaは、プロテオミクス・データ解析を簡素化することに焦点を当てた、オープンソースの分散型機械学習プラットフォームである。ドイツのミュンヘン工科大学とアメリカのミシガン大学のチームによって開発されました。このプラットフォームは、標準化されたインターフェースを介して30以上の主流モデル(ProSIT、MS²PIPなど)を統合し、ペプチド質量...
1ヶ月前
012.5K
BestBlogs - 开源的AI内容聚合平台,精选优质技术内容

BestBlogs - 質の高い技術コンテンツを集めたオープンソースのAIコンテンツアグリゲーションプラットフォーム

BestBlogsは、テクノロジー実務者、起業家、プロダクトマネージャーなどのための高品質コンテンツの提供に焦点を当てたプラットフォームです。RSSフィードとクローラー技術を通じて、400以上の高品質なブログから記事、ポッドキャスト、ビデオ、その他のマルチフォーマットコンテンツを収集している。核となる強みは、AIビッグランゲージの活用にある。
1ヶ月前
012.4K
LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建

LazyCraft - LazyLLM上に構築されたオープンソースのAIエージェントアプリケーション開発・管理プラットフォーム

LazyCraftは、オープンソースフレームワークLazyLLMに基づいてShangtangによって構築されたオープンソースのAIエージェントアプリケーション開発および管理プラットフォームであり、企業と開発者にワンストップのAIアプリケーション開発ソリューションを提供します。開発者が敷居が低く、低コストで大規模なモデルアプリケーションを迅速に構築し、リリースすることを支援します。
1ヶ月前
017.1K
Kosong - Moonshot AI开源的全新AI Agent开发框架

Kosong - ムーンショットAIの新しいオープンソースAIエージェント開発フレームワーク

Kosongは、Moonshot AIによってオープンソース化された新しいAIエージェント開発フレームワークで、次世代のインテリジェント・ボディ・アプリケーションを構築するための、軽量で柔軟かつ拡張性の高い基盤サポートを開発者に提供します。複数のツールを効率的にスケジューリングする非同期ツールスケジューリングエンジン...
1ヶ月前
015.4K
SenseNova-SI - 商汤科技开源的空间智能大模型系列

SenseNova-SI - ShangTang Technologyのオープンソース空間知能ラージモデルファミリー

SenseNova-SIは、ShangTech社がリリースしたオープンソースの空間知能グランドモデルであり、空間理解と推論におけるAIの能力向上に焦点を当てている。このモデルは、空間計測、再構築、関係判定、遠近変換、変形分析、空間推論を含む6つのコア次元に優れており、他のモデルを大幅に凌駕しています。
1ヶ月前
012.8K
Frappe Builder - 开源的AI低代码网站构建工具,拖拽组件快速搭建

Frappe Builder - オープンソースのAIローコードウェブサイトビルダー。

Frappe Builderは、Frappeによって開発されたオープンソースのローコードウェブサイトビルダーです。中心的な機能は、ウェブサイトを素早く構築するためのドラッグ&ドロップコンポーネントをサポートするFigmaライクなビジュアルエディタを提供することです。Frappeのエコロジー(Frappeverse)の一部です。
1ヶ月前
012.1K
Glow - 开源的命令行工具,支持在终端渲染Markdown文件

Glow - ターミナルでMarkdownファイルのレンダリングをサポートするオープンソースのコマンドラインツール

GlowはターミナルでMarkdownファイルをエレガントにレンダリングするオープンソースのコマンドラインツールです。このツールはコードブロック、数式、その他の複雑な要素のハイライトをサポートし、カスタムスタイル、ページング表示、マウスサポートなどの豊富な機能を提供します。
1ヶ月前
012.9K
NocoBase - 免费开源的AI无代码开发平台,可视化构建应用

NocoBase - アプリケーションを視覚的に構築するためのフリーでオープンソースのAIノーコード開発プラットフォーム

NocoBaseは、AI駆動のオープンソースのノーコード開発プラットフォームに基づいており、ビジネスシステムの迅速な構築をサポートし、プログラミングは、アプリケーション開発の構成を介して完了することができます。このプロジェクトは、Apache-2.0プロトコルを使用し、プライベートな展開と柔軟なスケーラビリティを提供し、企業管理、コラボレーションプラットフォームやその他の分野に適しています。
1ヶ月前
010.7K
UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

UniWorld V2 - RabbitShow Intelligenceと北京大学が発表した新世代の画像編集モデル

UniWorld V2は、RabbitZhan Intelligenceと北京大学のUniWorldチームが共同で発表した新世代の画像編集モデルです。画像編集の分野、特に中国語の理解や複雑なコマンドの実行において大きな優位性を持っている。このモデルは、芸術的な中国語フォントを正確にレンダリングすることができ、細かい...
1ヶ月前
014.7K
SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume - アリババのオープンソースAI履歴書解析・最適化ツール

SmartResumeは、PDF、画像、Office文書から基本情報、学歴、職歴などの構造化された情報を効率的に抽出する、アリババのオープンソースのインテリジェントな履歴書解析・最適化ツールです。OCRテクノロジーとPDFメタデータを統合することで、履歴書や職務経歴書の基本情報や学歴、職歴などの構造化された情報を効率的に抽出します。
1ヶ月前
015.1K
Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - Step-Star初のオープンソースLLMレベルオーディオ編集ラージモデル

Step-Audio-EditXは、Step-Starチームによって開発されたオープンソースのオーディオ編集マクロモデルで、人工知能技術によるオーディオコンテンツのきめ細かな操作に焦点を当てています。このモデルは、オーディオのムード、話し方(小心者、老人アクセントなど)、パラ言語的要素(笑い、ため息など)を動的に調整することができます。
1ヶ月前
014K
Open-o3 Video - 北大联合字节开源的视频推理模型

Open-o3 Video - 北京大学がオープンソース化したビデオ推論モデル United Bytes

Open-o3 Videoは、北京大学とByteDanceが共同開発したオープンソースのビデオ推論モデルであり、時間的・空間的証拠によるビデオ推論の強化に焦点を当てている。重要な証拠にタイムスタンプとバウンディングボックスを明示的にラベル付けすることで、モデルが動画コンテンツをより良く理解し解釈するのに役立つ。
1ヶ月前
014.3K
Handy - 开源免费的本地AI语音转文字工具

Handy - オープンソースの無料ネイティブAI音声テキスト変換ツール

Handyは、RustとReactによって開発された、Windows、MacOS、Linuxシステムをサポートするオープンソースで無料のローカル音声テキスト変換ツールです。クラウドにアップロードすることなくローカルで音声データを処理することで、プライバシーとセキュリティを保証し、高速な書き起こしやテキスト入力に適しています。
1ヶ月前
018.7K
微舆BettaFish - 开源的多智能体舆情分析系统

Micro Opinion BettaFish - オープンソースマルチインテリジェンス意見分析システム

BettaFishは、オープンソースのマルチインテリジェンス・オピニオン分析システムです。マルチ・インテリジェント・ボディ・アーキテクチャを採用し、クエリ、メディア、インサイト、レポート、その他のエージェントが連携して、検索、抽出、レポートのクローズドループを実現します。このシステムは、AI主導の完全な...
1ヶ月前
037.4K
LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni - 明潭オープンソースのための完全モード大規模言語モデル

LongCat-Flash-Omniは、MeituanのLongCatチームによってリリースされたオープンソースの完全モーダルビッグ言語モデルです。5,600億のパラメータスケール(270億のアクティブ化されたパラメータ)を持ち、多数のパラメータを維持しながら、ミリ秒レベルのリアルタイムの音声と映像のインタラクション機能を実現している。
2ヶ月前
017.9K
Petri - Anthropic开源的 AI 安全审计框架

Petri - AnthropicのオープンソースAIセキュリティ監査フレームワーク

Petriは、Anthropic社によって開発されたオープンソースのAIセキュリティ監査フレームワークであり、AIモデルのセキュリティと振る舞いの整合性を体系的に評価する。実世界のシナリオをシミュレートすることで、自動監査人が対象モデルと複数回の対話を行い、その後、判定エージェントがモデルの...
2ヶ月前
014.2K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

キミ・リニア - 月の裏側でオープンソース化された新しいハイブリッド・リニア・アテンション・アーキテクチャ

キミ・リニアは、ダークサイド・オブ・ザ・ムーンがオープンソース化した新しいハイブリッド・リニア・アテンション・アーキテクチャで、キミ・デルタ・アテンション(KDA)を中核とし、従来のアテンション・モデルをよりきめ細かいゲーティング・メカニズムによって最適化し、ハードウェア効率とメモリ制御能力を大幅に向上させている。
2ヶ月前
026.2K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Soul AI Labのオープンソース会話音声合成モデル

SoulX-Podcastは、高品質のポッドキャストコンテンツを生成するために設計された、Soul AI Labのオープンソースの先進的な複数話者会話音声合成モデルです。SoulX-Podcastは複数ラウンドのダイアログを生成する機能を持ち、実際のポッドキャスティングシナリオでスムーズなダイアログをシミュレートできます。
2ヶ月前
024.8K
GigaBrain-0 - 开源的具身基础模型,由世界模型生成数据驱动

GigaBrain-0 - 世界モデル生成データによって駆動されるオープンソースの具現化ベースモデル

GigaBrain-0は、実機汎化を実現するために世界のモデル生成データを使用する中国初のエンドツーエンドのVLA(Vision-Language-Action)具現化ベースモデルであり、GigaVisionと湖北ヒューマノイドロボティクスイノベーションセンターが共同でオープンソースとして公開しています。ハイブリッドTransformerアーキテクチャを採用し、...
2ヶ月前
015.3K
OmniVinci - NVIDIA开源的全模态大语言模型

オムニヴィンチ - NVIDIAのオープンソース全方位大規模言語モデル

OmniVinciは、NVIDIAによって開発されたオープンソースのフルモーダル大規模言語モデルであり、アーキテクチャの革新とデータの最適化を通じて、マルチモーダルモデルにおけるモーダルの断片化の問題を解決します。視覚と音声のエンベッディングのアライメントは、時間的に埋め込まれたグループキャプチャを利用するOmniAlignNetによって強化されます...
2ヶ月前
018.5K