最新のAIリソース

共 2919 篇文章
Awex - 蚂蚁集团开源的高性能权重交换框架

Awex - Antグループのオープンソース高性能ウェイト交換フレームワーク

Awexは、Ant Groupのオープンソース高性能重み交換フレームワークであり、強化学習における大規模なパラメータ同期のために設計されています。Awexは、テラバイトのパラメータ交換を数秒で完了させることができ、学習と推論の効率を大幅に向上させます。Awexの同期性能は非常に高速で、1,000枚のカードクラスタでは、1兆個のパラメータモデルを、全パラメータ量の6秒以内に完了させることができます。
2ヶ月前
031.3K
Seekdb - 蚂蚁OceanBase开源的AI原生混合搜索数据库

Seekdb - Ant OceanBase オープンソースAIネイティブハイブリッド検索データベース

Seekdb (OceanBase Seekdb) はAnt OceanBaseのオープンソースAIネイティブハイブリッド検索データベースで、ベクトル、フルテキスト、スカラー、地理空間データの統合ハイブリッド検索をサポートし、多段検索メカニズムを使用して、低レイテンシで高精度な検索を実現します。
2ヶ月前
016.1K
LoopTool - 上海交大联合小红书开源的自动化工具调用数据进化框架

LoopTool - 上海交通大学とLittle Red Bookのデータ進化フレームワークを呼び出すオープンソース自動化ツール

LoopToolは、上海交通大学とLittle Red Bookチームによってオープンソース化された自動ツールコールデータ進化フレームワークであり、大規模言語モデルのツールコール機能を強化するために設計されている。オープンソースのモデル(Qwen3-32Bなど)をデータ生成に使用し、クローズドループの繰り返しによってデータ生成とモデル学習を最適化します。
2ヶ月前
031.2K
MemOS - 开源的AI记忆管理与调度平台,共享长期记忆

MemOS - 長期記憶を共有するためのオープンソースAIメモリ管理・スケジューリングプラットフォーム

MemOSは、MemTensorのような大規模言語モデル(LLM)のためのオープンソースのメモリ管理とスケジューリングのフレームワークです。メモリを演算能力と同様に重要なリソースと考え、標準化されたMemCubeメモリユニットによって、プレーンテキスト、活性化状態、パラメータメモリの管理を一元化します。
2ヶ月前
031.3K
ChatTutor - 开源的AI教学辅助工具,可视化互动学习

ChatTutor - 双方向学習を可視化するオープンソースAI教材

ChatTutorは、STEM科目のビジュアルインタラクティブ学習に焦点を当てたオープンソースのAI教材です。対話Q&Aや動的描画機能を実現するためのマルチインテリジェントなボディアーキテクチャを介して、ユーザーが直感的に抽象的な一般的な理解を支援するために、リアルタイムでホワイトボード上の数学的なグラフィックス、物理回路やマインドマップを描くことができます...
2ヶ月前
014.1K
EverMemOS - 盛大团队推出的开源长期记忆操作系统

EverMemOS - チームシャンダによるオープンソース長期メモリオペレーティングシステム

EverMemOSは、陳天樵が率いるシャンダチームが立ち上げたオープンソースの長期記憶オペレーティングシステムであり、AI知能のために設計され、大規模言語モデルの固定コンテキストウィンドウに起因するメモリ破壊の問題を解決する。このシステムは人間の脳の記憶メカニズムに基づいており、4層アーキテクチャ(エージェント層、メモリ層、インデックス層...)を採用している。
2ヶ月前
019.3K
Astron Agent - 科大讯飞开源的企业级智能工作流开发平台

アストロンエージェント - KDDIオープンソースエンタープライズクラスインテリジェントワークフロー開発プラットフォーム

アストロンエージェントは、KDDIのオープンソースエンタープライズグレードのインテリジェントワークフロー開発プラットフォームです。Java + Spring Boot技術スタックを使用し、軽量なプライベートデプロイメント(最小2コア4G構成)をサポートし、ビルトイン...
2ヶ月前
017.9K
Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

ビー - テンセント・ミックスメタ・清華オープンソース・フルスタック・マルチモーダル・ラージモデル・プロジェクト

Beeは、Tencent Mixed Elementチームと清華大学が共同で立ち上げたフルスタックのオープンソース・マルチモーダルビッグモデル・ソリューションであり、データ品質を向上させることで、オープンソースとクローズドソースのモデル間のパフォーマンスギャップを縮めることを目的としている。このプロジェクトには3つの核となる成果が含まれている:1,500万スケールの高品質2層CoTデータセットHoney-Data...
2ヶ月前
016K
InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar - Byteオープンソース時空間自己回帰ビデオ生成フレームワーク

InfinityStarは、ByteDance社によってオープンソース化された、高解像度の画像とビデオ生成用に設計された、統一された時空間自己回帰フレームワークです。離散自己回帰的なアプローチを用いることで、テキストから画像、テキストから動画、画像から動画のタスクを単一のモデルで同時に扱うことができる。このフレームワークのベンチマークはVBench ...
2ヶ月前
016.1K
Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台

ミュンヘン工科大学がミシガン大学と共同でオープンソース化した分散型機械学習プラットフォーム「Koina

Koinaは、プロテオミクス・データ解析を簡素化することに焦点を当てた、オープンソースの分散型機械学習プラットフォームである。ドイツのミュンヘン工科大学とアメリカのミシガン大学のチームによって開発されました。このプラットフォームは、標準化されたインターフェースを介して30以上の主流モデル(ProSIT、MS²PIPなど)を統合し、ペプチド質量...
2ヶ月前
017.4K
BestBlogs - 开源的AI内容聚合平台,精选优质技术内容

BestBlogs - 質の高い技術コンテンツを集めたオープンソースのAIコンテンツアグリゲーションプラットフォーム

BestBlogsは、テクノロジー実務者、起業家、プロダクトマネージャーなどのための高品質コンテンツの提供に焦点を当てたプラットフォームです。RSSフィードとクローラー技術を通じて、400以上の高品質なブログから記事、ポッドキャスト、ビデオ、その他のマルチフォーマットコンテンツを収集している。核となる強みは、AIビッグランゲージの活用にある。
2ヶ月前
015.3K
LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建

LazyCraft - LazyLLM上に構築されたオープンソースのAIエージェントアプリケーション開発・管理プラットフォーム

LazyCraftは、オープンソースフレームワークLazyLLMに基づいてShangtangによって構築されたオープンソースのAIエージェントアプリケーション開発および管理プラットフォームであり、企業と開発者にワンストップのAIアプリケーション開発ソリューションを提供します。開発者が敷居が低く、低コストで大規模なモデルアプリケーションを迅速に構築し、リリースすることを支援します。
2ヶ月前
021.8K
Kosong - Moonshot AI开源的全新AI Agent开发框架

Kosong - ムーンショットAIの新しいオープンソースAIエージェント開発フレームワーク

Kosongは、Moonshot AIによってオープンソース化された新しいAIエージェント開発フレームワークで、次世代のインテリジェント・ボディ・アプリケーションを構築するための、軽量で柔軟かつ拡張性の高い基盤サポートを開発者に提供します。複数のツールを効率的にスケジューリングする非同期ツールスケジューリングエンジン...
2ヶ月前
019.5K
SenseNova-SI - 商汤科技开源的空间智能大模型系列

SenseNova-SI - ShangTang Technologyのオープンソース空間知能ラージモデルファミリー

SenseNova-SIは、ShangTech社がリリースしたオープンソースの空間知能グランドモデルであり、空間理解と推論におけるAIの能力向上に焦点を当てている。このモデルは、空間計測、再構築、関係判定、遠近変換、変形分析、空間推論を含む6つのコア次元に優れており、他のモデルを大幅に凌駕しています。
2ヶ月前
015.5K
Frappe Builder - 开源的AI低代码网站构建工具,拖拽组件快速搭建

Frappe Builder - オープンソースのAIローコードウェブサイトビルダー。

Frappe Builderは、Frappeによって開発されたオープンソースのローコードウェブサイトビルダーです。中心的な機能は、ウェブサイトを素早く構築するためのドラッグ&ドロップコンポーネントをサポートするFigmaライクなビジュアルエディタを提供することです。Frappeのエコロジー(Frappeverse)の一部です。
2ヶ月前
016.8K
Glow - 开源的命令行工具,支持在终端渲染Markdown文件

Glow - ターミナルでMarkdownファイルのレンダリングをサポートするオープンソースのコマンドラインツール

GlowはターミナルでMarkdownファイルをエレガントにレンダリングするオープンソースのコマンドラインツールです。このツールはコードブロック、数式、その他の複雑な要素のハイライトをサポートし、カスタムスタイル、ページング表示、マウスサポートなどの豊富な機能を提供します。
2ヶ月前
017.2K
NocoBase - 免费开源的AI无代码开发平台,可视化构建应用

NocoBase - アプリケーションを視覚的に構築するためのフリーでオープンソースのAIノーコード開発プラットフォーム

NocoBaseは、AI駆動のオープンソースのノーコード開発プラットフォームに基づいており、ビジネスシステムの迅速な構築をサポートし、プログラミングは、アプリケーション開発の構成を介して完了することができます。このプロジェクトは、Apache-2.0プロトコルを使用し、プライベートな展開と柔軟なスケーラビリティを提供し、企業管理、コラボレーションプラットフォームやその他の分野に適しています。
2ヶ月前
013.9K
UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

UniWorld V2 - RabbitShow Intelligenceと北京大学が発表した新世代の画像編集モデル

UniWorld V2は、RabbitZhan Intelligenceと北京大学のUniWorldチームが共同で発表した新世代の画像編集モデルです。画像編集の分野、特に中国語の理解や複雑なコマンドの実行において大きな優位性を持っている。このモデルは、芸術的な中国語フォントを正確にレンダリングすることができ、細かい...
2ヶ月前
017.7K
SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume - アリババのオープンソースAI履歴書解析・最適化ツール

SmartResumeは、PDF、画像、Office文書から基本情報、学歴、職歴などの構造化された情報を効率的に抽出する、アリババのオープンソースのインテリジェントな履歴書解析・最適化ツールです。OCRテクノロジーとPDFメタデータを統合することで、履歴書や職務経歴書の基本情報や学歴、職歴などの構造化された情報を効率的に抽出します。
2ヶ月前
018.6K
Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - Step-Star初のオープンソースLLMレベルオーディオ編集ラージモデル

Step-Audio-EditXは、Step-Starチームによって開発されたオープンソースのオーディオ編集マクロモデルで、人工知能技術によるオーディオコンテンツのきめ細かな操作に焦点を当てています。このモデルは、オーディオのムード、話し方(小心者、老人アクセントなど)、パラ言語的要素(笑い、ため息など)を動的に調整することができます。
2ヶ月前
019.2K
Open-o3 Video - 北大联合字节开源的视频推理模型

Open-o3 Video - 北京大学がオープンソース化したビデオ推論モデル United Bytes

Open-o3 Videoは、北京大学とByteDanceが共同開発したオープンソースのビデオ推論モデルであり、時間的・空間的証拠によるビデオ推論の強化に焦点を当てている。重要な証拠にタイムスタンプとバウンディングボックスを明示的にラベル付けすることで、モデルが動画コンテンツをより良く理解し解釈するのに役立つ。
2ヶ月前
016.4K
Handy - 开源免费的本地AI语音转文字工具

Handy - オープンソースの無料ネイティブAI音声テキスト変換ツール

Handyは、RustとReactによって開発された、Windows、MacOS、Linuxシステムをサポートするオープンソースで無料のローカル音声テキスト変換ツールです。クラウドにアップロードすることなくローカルで音声データを処理することで、プライバシーとセキュリティを保証し、高速な書き起こしやテキスト入力に適しています。
2ヶ月前
027.3K
微舆BettaFish - 开源的多智能体舆情分析系统

Micro Opinion BettaFish - オープンソースマルチインテリジェンス意見分析システム

BettaFishは、オープンソースのマルチインテリジェンス・オピニオン分析システムです。マルチ・インテリジェント・ボディ・アーキテクチャを採用し、クエリ、メディア、インサイト、レポート、その他のエージェントが連携して、検索、抽出、レポートのクローズドループを実現します。このシステムは、AI主導の完全な...
2ヶ月前
042.8K
LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni - 明潭オープンソースのための完全モード大規模言語モデル

LongCat-Flash-Omniは、MeituanのLongCatチームによってリリースされたオープンソースの完全モーダルビッグ言語モデルです。5,600億のパラメータスケール(270億のアクティブ化されたパラメータ)を持ち、多数のパラメータを維持しながら、ミリ秒レベルのリアルタイムの音声と映像のインタラクション機能を実現している。
2ヶ月前
021.6K
Petri - Anthropic开源的 AI 安全审计框架

Petri - AnthropicのオープンソースAIセキュリティ監査フレームワーク

Petriは、Anthropic社によって開発されたオープンソースのAIセキュリティ監査フレームワークであり、AIモデルのセキュリティと振る舞いの整合性を体系的に評価する。実世界のシナリオをシミュレートすることで、自動監査人が対象モデルと複数回の対話を行い、その後、判定エージェントがモデルの...
2ヶ月前
017.8K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

キミ・リニア - 月の裏側でオープンソース化された新しいハイブリッド・リニア・アテンション・アーキテクチャ

キミ・リニアは、ダークサイド・オブ・ザ・ムーンがオープンソース化した新しいハイブリッド・リニア・アテンション・アーキテクチャで、キミ・デルタ・アテンション(KDA)を中核とし、従来のアテンション・モデルをよりきめ細かいゲーティング・メカニズムによって最適化し、ハードウェア効率とメモリ制御能力を大幅に向上させている。
2ヶ月前
028.7K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Soul AI Labのオープンソース会話音声合成モデル

SoulX-Podcastは、高品質のポッドキャストコンテンツを生成するために設計された、Soul AI Labのオープンソースの先進的な複数話者会話音声合成モデルです。SoulX-Podcastは複数ラウンドのダイアログを生成する機能を持ち、実際のポッドキャスティングシナリオでスムーズなダイアログをシミュレートできます。
2ヶ月前
029.4K
GigaBrain-0 - 开源的具身基础模型,由世界模型生成数据驱动

GigaBrain-0 - 世界モデル生成データによって駆動されるオープンソースの具現化ベースモデル

GigaBrain-0は、実機汎化を実現するために世界のモデル生成データを使用する中国初のエンドツーエンドのVLA(Vision-Language-Action)具現化ベースモデルであり、GigaVisionと湖北ヒューマノイドロボティクスイノベーションセンターが共同でオープンソースとして公開しています。ハイブリッドTransformerアーキテクチャを採用し、...
2ヶ月前
018.2K
OmniVinci - NVIDIA开源的全模态大语言模型

オムニヴィンチ - NVIDIAのオープンソース全方位大規模言語モデル

OmniVinciは、NVIDIAによって開発されたオープンソースのフルモーダル大規模言語モデルであり、アーキテクチャの革新とデータの最適化を通じて、マルチモーダルモデルにおけるモーダルの断片化の問題を解決します。視覚と音声のエンベッディングのアライメントは、時間的に埋め込まれたグループキャプチャを利用するOmniAlignNetによって強化されます...
2ヶ月前
022.4K
ValueCell - 开源的多智能体金融平台,多个Agent分工协作

ValueCell - 複数のエージェントが連携するオープンソースのマルチインテリジェンス金融プラットフォーム

ValueCellは、AI技術によって金融分析と投資管理の効率を向上させるオープンソースのマルチインテリジェント体金融アプリケーションプラットフォームです。プロの投資チームをシミュレートし、複数のAI知能が連携して、市場分析、センチメント分析、ファンダメンタルズ調査、自動売買などの機能をカバーし、ユーザーに包括的な...
2ヶ月前
043.2K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic-フォース・スピリット・マシンのオープンソースVLAモデル具現化知能ワンストップ研究サービス・プラットフォーム

Dexboticは、DexmalのオープンソースVisual-Linguistic-Action(VLA)モデルの具現化知能ワンストップ研究サービスプラットフォームであり、具現化知能分野の研究の断片化と低効率の問題を解決します。PyTorchをベースとしたDexboticは、具現化知能分野における研究の断片化と低効率の問題を解決するためのワンストップ研究サービスプラットフォームです...
2ヶ月前
019.9K
LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video - ミッションのLongCatオープンソースビデオ生成モデル

LongCat-Videoは、LongCatチームによる13.6億パラメータのビデオ生成モデルで、MITオープンソースプロトコルを使用し、テキスト生成ビデオ、グラフ生成ビデオ、ビデオ継続の3つの主要なタスクをサポートしています。このモデルは、"粗いものから細かいものへ "という生成戦略とブロック・スパース・アテンション・メカニズムにより、何分...
2ヶ月前
038K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - HKUSTオープンソース・マルチモーダルAI画像編集・生成モデル

DreamOmni2は、HKUSTのJiajiaチームによるオープンソースのマルチモーダルAI画像編集・生成モデルである。テキストと画像のコマンドを同時に処理することができ、複数の参照画像をサポートし、クリエイターにより柔軟な創作方法を提供する。このモデルは、3段階のデータ合成プロセスを使用して学習され、共同学習生成/編集...
3ヶ月前
024.7K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

混成世界モデル1.1 - テンセント混成世界オープンソース3D復元大型モデルリリース

WorldMirror 1.1(WorldMirror)は、TencentのWorldMirrorチームによってリリースされたオープンソースの大規模モデルの3D再構築であり、WorldMirrorシリーズのアップグレード版である。マルチビュー画像、動画、カメラ位置、内部参照、深度マップなどのマルチモーダル先験的入力をサポートしています。
3ヶ月前
024.4K
VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - MMT LongCatオープンソースインタラクティブエージェントレビューベンチマーク

VitaBenchは、MeituanのLongCatチームによってリリースされた、複雑な生活シナリオのための初の対話型エージェント評価ベンチマークであり、実際の生活シナリオにおける大規模なモデル知能の総合的な能力を評価する。テイクアウト注文、レストランでの食事、旅行という高頻度の3つの生活シナリオをキャリアとして、パッケージを構築する...
3ヶ月前
021.8K
LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec - Meituan LongCatオープンソーススピーチコーデックソリューション

LongCat-Audio-Codecは、MeituanのLongCatチームによるオープンソースの音声コーデックソリューションです。このソリューションは、Speech Large Language Model (Speech LLM)のために設計されており、意味的・音響的な二重トークン並列抽出メカニズムによって、音声の意味的・音響的特徴を考慮に入れています。
3ヶ月前
019.8K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - ピクセルレベルのマルチモーダルモデル、香港理工大学、Tencent、CASなどがオープンソース化

UniPixelは、香港理工大学、テンセント、中国科学院、Vivoが共同で提案した、ピクセルレベルの視覚言語理解を実現するための新しいマルチモーダルモデルである。オブジェクト参照とセグメンテーション機能を統合することで、画像セグメンテーション、ビデオセグメンテーション、領域理解、ピ...
3ヶ月前
024.8K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - 清華とジャイアントネットワークのオープンソース多言語音声合成フレームワーク

DiaMoE-TTSは、清華大学とGiant Networkが共同でオープンソース化した多方言音声合成フレームワークで、国際音声記号(IPA)に基づき、方言データの不足、正書法の不統一、複雑な音韻変化の問題を解決します。統一されたIPAフロントエンドの標準化された音素表現により、方言間の差異を排除し、方言の音韻の変化...
3ヶ月前
025.7K
Kandinsky 5.0 - 俄罗斯AI团队开源的视频生成模型系列

カンディンスキー5.0 - ロシアのAIチームがオープンソースの映像生成モデルシリーズを公開

Kandinsky 5.0は、ロシアのAIチームによって開発された最新のビデオジェネレーションモデルシリーズで、軽量設計と高性能に重点を置いている。シリーズ最初のモデルであるKandinsky 5.0 Video Liteは、パラメータはわずか20億だが、類似の14Bモデルを凌駕しており、特に...
3ヶ月前
031.8K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom-テンセントがHKCSとNTUと共同開発したオープンソースの楽曲生成モデル

SongBloomは、テンセントAIラボが香港中文大学(深圳)、南京大学と共同で開発したオープンソースの楽曲生成モデルで、AIによる楽曲生成における「可塑性」の問題を解決し、高品質で構造的に完全な楽曲生成を実現している。10秒間の参考音声と対応する歌詞を入力するだけで、...
3ヶ月前
025.7K
Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn - フリーのAIコード品質分析ツール、Python開発者向けオープンソース

PyscnはPython開発者向けに設計されたインテリジェントなコード品質分析ツールで、コードの潜在的な問題を検出して保守性を向上させます。制御フロー図を通してデッドコードを分析し、APTED+LSHアルゴリズムを使って重複コードを特定し、モジュールの結合やサークルの複雑さなどのメトリクスを計算します。
3ヶ月前
017.9K
Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - Tencent Youtuオープンソースの汎用テキスト表現モデル

Youtu-Embeddingは、TencentのYoutu Labsによるオープンソースのユニバーサルテキスト表現モデルで、エンタープライズレベルのアプリケーション向けに設計されている。テキストはディープニューラルネットワークによって高次元のベクトル空間にマッピングされ、その空間では意味的に類似した文章がより近くに配置され、正確な意味検索が実現される。
3ヶ月前
024.2K
SAIL-VL2 - 字节跳动开源的多模态视觉语言模型

SAIL-VL2 - ByteHopのオープンソース・マルチモーダル視覚言語モデル

SAIL-VL2は、Byte Jumpチームによるオープンソースのマルチモーダル視覚言語モデルで、画像やテキストなどのマルチモーダル入力の共同モデリングに焦点を当てています。スパース混合エキスパート(MoE)アーキテクチャと漸進的な学習ストラテジーを用いて、2Bから8Bのパラメータスケールで、特に図形理解、数学的...
3ヶ月前
018.2K
MineContext - 字节开源的主动式上下文感知AI伙伴

MineContext - バイト・オープンソース・アクティブ・コンテキスト・アウェアAIパートナー

MineContextは、ByteDance Vikingチームによってオープンソース化されたアクティブなコンテキスト認識AIパートナーで、ユーザーが大量の情報を効率的に管理し、知識作業の効率を向上させることを支援します。スクリーンショットとコンテンツ理解技術により、ユーザーの日常操作(ウェブ閲覧、文書編集など)を自動的に記録し、...
3ヶ月前
031.8K
nanochat - Karpathy免费开源的低成本模型训练项目

nanochat - カルパシーによるフリーでオープンソースの低コストモデル・トレーニング・プロジェクト

nanochatは、AIのレジェンドであり元テスラAIディレクターのアンドレイ・カルパシーが公開したオープンソースプロジェクトで、個人が非常に低コストかつシンプルに、小規模なChatGPTのような言語モデルを素早く学習することを可能にする。プロジェクト全体で使用されているのは、わずか約800...
3ヶ月前
022.6K
LLaVA-OneVision-1.5 - 免费开源的多模态模型,高性能多模态理解

LLaVA-OneVision-1.5 - 高性能マルチモーダル理解のためのフリーでオープンソースのマルチモーダルモデル

LLaVA-OneVision-1.5は、EvolvingLMMS-Labチームによるオープンソースのマルチモーダルモデルで、8Bパラメータスケールを使用し、128 A800上でコンパクトな3段階のトレーニングプロセス(言語-イメージのアライメント、概念の平衡化と知識の注入、命令の微調整)を通じて...
3ヶ月前
021.3K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - 論文のデモビデオを自動生成するNUSのオープンソースプロジェクト

Paper2Videoは、シンガポール国立大学のShow Labで行われている、学術論文のプレゼンテーションビデオを自動生成するオープンソースプロジェクトです。PaperTalkerマルチインテリジェンスフレームワークを使用し、論文はスライド、字幕、ナレーション、スピーカーアバターを含む完全なプレゼンテーションビデオに変換されます。
3ヶ月前
023.8K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - オフラインCPU実行をサポートしたフリーで軽量な音声合成モデル

NeuTTS Airは、Neuphonicチームによって開発されたオープンソースの軽量音声合成モデルで、クラウドに依存することなく、ローカルデバイス(携帯電話、ラップトップ、Raspberry Piなど)上でリアルタイムに実行できる。0.5BパラメータのQwenアーキテクチャと自社開発のNeuCodecコーデックを使用しています。
3ヶ月前
027.2K
吴恩达的《Agentic AI》最新智能体免费课程

エルンスト・ウーによるAgentic AIから最新のインテリジェンスを学ぶ無料コース

Agentic AIは、アーネスト・ングが開始した知的身体に関する最新のコースです。このコースでは、知的身体の設計と構築に焦点を当て、4つの主要な設計モードである反射、ツールの使用、計画、および複数の知的身体のコラボレーションをカバーします。学習者は、理論的な説明と実践的なコードを通して、インテリジェント・ボディが出力をチェックし、自律的に調整する方法を習得します。
3ヶ月前
032K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - AIエージェントネットワーク構築のためのオープンソース・フリー・オープンコラボレーションプロジェクト

OpenAgentsは、AIエージェントのネットワークを構築し、エージェント間のオープンなコラボレーションを促進するオープンソースプロジェクトです。AIエージェントがシームレスに接続し、コラボレーションできるように、基本的なネットワークインフラが提供されています。ユーザーは、独自のエージェントネットワークを迅速に開始し、モジュラーアーキテクチャによって機能を拡張し、...
3ヶ月前
021.6K
Ling-1T - 蚂蚁集团开源的万亿参数通用语言模型

Ling-1T - アント・グループのオープンソース万能言語モデル。

Ling-1Tは、アント・グループによってオープンソース化された1兆パラメータユニバーサル言語モデルで、Bering社の大型モデルLing2.0シリーズのフラッグシップ製品に属します。このモデルは、非常に効率的なMoEアーキテクチャを採用し、128Kのコンテキストウィンドウをサポートし、コード生成、数学的推論、論理テストを含む7つのベンチマークでGPTを上回っています。
3ヶ月前
042.5K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Antオープンソースユニファイドオーディオマルチモーダル生成モデル

Ming-UniAudioは、テキスト、オーディオ、イメージ、ビデオの混合入出力をサポートする、Ant Groupのオープンソース統一オーディオマルチモーダル生成モデルです。マルチスケールトランスフォーマーと混合エキスパート(MoE)アーキテクチャを使用し、モダリティを意識したルーティングメカニズムにより、クロスモーダルな入出力を効率的に処理します。
3ヶ月前
024.5K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio - フリーのAIマンガ作成ツール!

AIMangaStudioは、プロット生成、サブシーンデザイン、キャラクター設定などの機能を含む完全なマンガ制作パイプラインをクリエイターに提供し、脚本からマンガページまでの制作プロセスを簡素化できる無料のAIマンガ制作ツールです。プロット、セリフ、キャラクター設定など、マンガ原稿の自然言語生成をサポート。
3ヶ月前
027.9K
FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat - Little Red Bookのオープンソース全二重音声対話システム

FireRedChatは、リアルタイムの双方向対話機能と制御された中断をサポートするXiaohongshuのためのオープンソースの全二重音声対話システムです。トランスクリプションコントロールモジュール、インタラクションモジュール、ダイアログマネージャーなどのモジュール設計により、カスケードやセミカスケードアーキテクチャをサポートし、柔軟な展開を実現します。
3ヶ月前
029.4K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - ウィズダムソース研究所 オープンソース ゼロサンプル クロスオントロジー 一般化体現モデル

RoboBrain-X0は、ウィズダムソース研究所がオープンソース化した世界初のサンプル数ゼロのクロスオントロジー汎化をサポートする具現化モデルであり、産業上大きな意義がある。異なる構成の複数の実ロボットを駆動し、微調整なしで基本的な操作タスクを完了させることができ、少量のサンプル微調整を行った後、ロボットの動作を再現する能力を発揮します。
3ヶ月前
022.4K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - ByteHopのオープンソース高忠実度ビデオ生成モデル

Lynxは、ByteDanceによってオープンソース化された高忠実度のパーソナライズド・ビデオ生成モデルであり、1枚のポートレート写真だけで、アイデンティティに一貫性のあるビデオを生成することができます。ディフュージョントランスフォーマー(DiT)をベースモデルとしており、IDアダプターとRef-adapte...
3ヶ月前
023.2K
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0 - Tencentオープンソースフリーマルチモーダル画像生成モデル

HunyuanImage 3.0(渾元画像3.0)は、テンセントがリリースし、オープンソース化したネイティブのマルチモーダル画像生成モデルである。モデルのパラメータサイズは80B、現在最高の評価結果、オープンソースの画像生成モデルの最大のパラメータ数です。Hybrid Image 3.0はリアルタイムの画像生成をサポートし、ユーザーはサイド...
3ヶ月前
035.5K
Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

Hunyuan3D-Part - Tencentオープンソースフリー3Dコンポーネント生成モデル

Hunyuan3D-Part(ハイブリッド3D-Part)は、テンセントが公開し、オープンソース化した3D生成モデルである。P3 - SAMとX - Partで構成され、高精度で制御可能なコンポーネントベースの3D生成を初めて実現し、自動生成された50以上のコンポーネントをサポートしています。ユーザーは、まず...
3ヶ月前
034.2K
AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - KU Xunfeiオープンソーステキスト生成サウンドAIモデル

AudioFlyは、KDDIが開発したテキストから効果音を生成するオープンソースのAIモデルです。AudioSet、AudioCaps、TUTなどの公開データセットと内部データセットを含む、大規模で多様な音声テキストデータセットで学習させた、10億個のパラメータを持つ潜在拡散モデルアーキテクチャに基づいています。
3ヶ月前
027.5K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - 全二重音声対話モデル(FLM-Audio)は、南洋理工学院(NTI)と共同でWisdomSourceによってオープンソース化されました。

FLM-Audioは、Beijing Zhiyuan Artificial Intelligence Research InstituteとSpin Matrix、Nanyang Technological University of Singaporeが共同開発したネイティブ全二重音声対話マクロモデルで、中国語と英語の両方に対応している。ネイティブの全二重アーキテクチャを採用し、各時間ステップでリスニング、スピーキング、モノローグをマージすることができます...
4ヶ月前
026.1K
CWM - Meta FAIR开源的代码世界语言模型

CWM - メタFAIRオープンソースコード世界言語モデル

CWM(Code World Model)は、Meta FAIRチームによって公開された320億パラメータのオープンソースの世界言語モデルで、コード生成と推論のために設計された。コードの実行過程をシミュレートし、変数の状態変化を予測し、推論を進めることができる「ワールドモデル」の概念を導入している。
4ヶ月前
024.1K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - Antオープンソースのインテリジェントプログラミングアシスタント

Neovate Codeは、アントグループのアリペイ・エクスペリエンス・テクノロジー部が開発したオープンソースのインテリジェント・プログラミング・アシスタントで、人工知能技術によって開発効率を向上させる。会話型の開発機能により、開発者は自然言語で要件を記述することができ、Neovate Codeはそれを理解し、対応する世代を生成することができます...
4ヶ月前
028.6K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face - NVIDIAのオープンソースAI 3Dフェイシャル・アニメーション生成モデル

Audio2Faceは、音声入力をリアルな3Dフェイシャル・アニメーションに変換できるNVIDIAのオープンソースAIツールです。音声に含まれる音素やイントネーションなどの音声特徴を分析することで、正確な唇の同期と微妙な感情表現を生成し、バーチャル・キャラクターに生き生きとした人間の表情を与えます。
4ヶ月前
027.3K
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL - AliCloud Tongyi Qianqian オープンソース・マルチモーダル視覚言語マクロモデル

Qwen3-VLは、AliCloud Tongyi Qianqianチームによるオープンソースのマルチモーダル視覚言語ラージモデルで、2,350億の参照と約471GBのモデルファイルを持っています。命令バージョンと思考バージョンを含み、強化されたMRopeインターリーブレイアウト、DeepStackなどの技術を採用し、視覚変換を効果的に使用することができます...
4ヶ月前
035.8K