AIオープンソースプロジェクト

合計1020記事
Open Codex:将自然语言转换为Shell命令的开源AI工具

Open Codex: 自然言語をシェルコマンドに変換するオープンソースAIツール

概論 Open CodexはオープンソースのコマンドラインAIツールで、開発者が自然言語命令を正確なシェルコマンドに変換できるように設計されている。ネイティブ言語モデル(例:phi-4-mini)を使用し、ネットワークやAPIキーを必要とせず、すべての操作を...
1年前
070.9K
Neural4D:生成高分辨率3D建模数字资产的AI平台

Neural4D:高解像度3Dモデリングデジタル資産を生成するAIプラットフォーム

概論 Neural4Dは、ユーザーが簡単なテキストや画像を入力するだけで、高品質な3Dモデルやアニメーションを素早く生成できるよう支援することに重点を置いた、AIベースの革新的なプラットフォームです。DreamTech社によって開発されたこのプラットフォームは、世界をリードするエンドツーエンドの大規模3Dモデル生成技術に依存しています。
1年前
070.8K
QAnything:高度集成RAG处理流程的本地知识库问答系统

QAnything: RAG処理フローを高度に統合したローカル知識ベースQ&Aシステム

QAnything Comprehensive Introduction QAnything(Question and Answer based on Anything)は、NetEaseが発表したローカル知識ベースのQ&Aシステムで、あらゆる種類のファイル形式とデータベースをサポートし、オフラインでインストールして使用することができる。
2年前
070.6K
ColorFlow:漫画着色,黑白图像自动着色,提升图像色彩一致性和质量

ColorFlow:カートゥーンシェーディング、白黒画像の自動シェーディングによる画像の色の一貫性と品質の向上

包括的な紹介 ColorFlowは、Tencent ARCチームによって開発された画像シーケンスの自動カラーリングツールで、白黒画像シーケンスの自動カラーリングの問題を解決します。このツールは、検索で強化されたシェーディングパイプラインを使用して、キャラクターの髪の色やサービスなど、参照画像のプールを通して様々な要素の色を正確に生成します。
1年前
070.5K
OASIS:多智能体模拟数百万用户社交媒体互动,研究复杂社会现象

OASIS: 複雑な社会現象を研究するための、数百万人のユーザーによるソーシャルメディア・インタラクションのマルチインテリジェンス・シミュレーション

概論 OASIS(Open Agent Social Interaction Simulations)は、最大100万人のユーザーの行動をシミュレートできるオープンソースのソーシャルメディア・シミュレータである。このプラットフォームは、大規模言語モデルとルールベース...
1年前
070.5K
Data Formulator:AI驱动的数据可视化工具

Data Formulator:AIによるデータ可視化ツール

概論 Data Formulator は Microsoft Research によって開発されたオープンソースのAI駆動型データ可視化ツールである。このツールは、グラフィカル・ユーザー・インターフェース (GUI) と自然言語入力 (NL) を組み合わせたもので、ユーザーは簡単なインタラクションやコマンドによって、素早くデータを作成し、反復することができます。
1年前
070.5K
Genesis:开源生成式物理引擎,实现基于真实物理的4D动态世界模拟

Genesis: 実物理ベースの4Dダイナミックワールドシミュレーションのためのオープンソース生成物理エンジン

一般的な紹介 Genesisは、汎用ロボティクスと具現化AI学習のために設計された生成物理ワールドです。Genesisは、様々な材料や物理現象のシミュレーションをサポートする統一されたシミュレーション・プラットフォームを提供します。
1年前
070.4K
闲鱼卖家全天自动值守的AI客服机器人

アイドル・フィッシュの販売員が24時間体制で自動対応するAIカスタマーサービスボット

包括的な紹介 XianyuAutoAgentは、GitHubで開発者shaxiuによってオープンソース化されたIdlefishプラットフォーム用に設計されたインテリジェントな顧客サービスロボットシステムです。AI技術を利用し、7×24時間の自動勤務を実現し、アイドルフィッシュ販売者の返信を支援する。
1年前
070.4K
Austen:分析书籍角色关系并生成图表的AI工具

オースティン:本の登場人物の関係を分析し、グラフを生成するAIツール

概要 AustenはオープンソースのAIツールで、AngularフレームワークとAnalogjsの初期化、Mermaidjsの技術を組み合わせ、書籍の登場人物の関係を分析するためのチャートを生成します。ユーザーはOpen...
1年前
070.3K
LlamaEdge:本地运行和微调LLM的最快捷方式

LlamaEdge:LLMをローカルで実行し、微調整する最も迅速な方法!

概要 LlamaEdgeは、ローカルデバイスやエッジデバイス上で大規模な言語モデル(LLM)を実行し、微調整するプロセスを簡素化するために設計されたオープンソースプロジェクトです。このプロジェクトはLlama2ファミリーのモデルをサポートし、OpenAI互換のAPIサービスを提供します。
1年前
070.3K
Fay数字人框架:集成语言模型与3D数字角色,支持多种应用场景

Fayデジタルヒューマンフレームワーク:言語モデルと3Dデジタルキャラクターを統合し、様々なアプリケーションシナリオをサポート。

包括的な紹介 Fayはオープンソースの3Dバーチャルデジタルヒューマンフレームワークであり、バーチャルショッピングガイド、バーチャルキャスター、アシスタント、ウェイター、教師、音声またはテキストベースのモバイルアシスタントなど、様々なアプリケーションシナリオのための言語モデルとデジタルキャラクタを統合しています。
1年前
070.3K
Auto-Deep-Research:多Agent协作执行文献查询并生成研究报告

オートディープリサーチ:マルチエージェント連携による文献検索と研究報告書の作成

概説 Auto-Deep-Researchは、香港大学データインテリジェンス研究所(HKUDS)によって開発されたオープンソースのAIツールであり、ユーザーがディープリサーチタスクを自動化することを目的としている。AutoAgentフレームワークをベースに構築されており、複数の大規模言語モデルをサポートしている。
1年前
070.3K
Perplexica:1比1复刻 Perplexity AI 功能和界面的开源AI搜索引擎

Perplexica: Perplexity AIの機能とインターフェイスを1対1で再現したオープンソースのAI検索エンジン

概要 Perplexicaは、インターネットを深く掘り下げた答えを提供するために設計されたオープンソースのAI駆動型検索エンジンです。類似検索や埋め込み技術などの高度な機械学習アルゴリズムを使用し、検索結果を最適化し、引用元とともに明確な回答を提供します。
1年前
070.2K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型

Moshi: 複数言語とアクセントをサポートするリアルタイム音声対話フレームワーク。

はじめに Moshi Chatは、フランスの非営利AI研究所Kyutaiが開発したエンドツーエンドのリアルタイムAI音声アシスタントです。リアルタイムで話を聞くだけでなく、自然な会話を行い、見る、聞く、話すといったマルチモーダルなインタラクションをサポートします。
2年前
070.2K
Parler-TTS:根据输入文本生成特定说话人风格的文本转语音模型

Parler-TTS: 入力テキストから話者固有の音声合成モデルを生成する

一般的な紹介 Parler-TTSは、Hugging Face社によって開発されたオープンソースの音声合成(TTS)モデルライブラリで、高品質で自然な音声を生成するように設計されています。このモデルは、特定の話者スタイル(性別、ピッチ、話し方など)の入力テキストに基づいて音声を生成することができます。
1年前
070.2K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: オープンソース ゼロサンプル音声クローニング・音声合成ツール

包括的な紹介 VoiceCraftは、ニューラルコーデック言語モデルに基づいたオープンソースの音声編集およびゼロサンプル音声合成ツールです。革新的な符号化シーケンス生成方法を採用しており、既存の音声シーケンスに対して挿入、削除、置換操作を行うことで、自然で首尾一貫した編集音声を生成することができます。
2年前
070.2K
飞桨 PP-TableMagic:复杂表格结构化信息提取神器

フライング・パドル PP-TableMagic: 複雑なテーブルの構造化情報抽出

表認識の目的は、画像中の表を解析し、表の構造やセルの位置を正確に特定し、構造化された表形式(HTMLなど)に変換することである。今日の情報化時代において、大量の重要な表データがまだ構造化されていない状態で存在している(例えば、統計表の写真をスキャンした文書など)。
1年前
070.2K
UltraRAG:一站式RAG系统解决方案,简化数据构建与模型微调

UltraRAG: データ構築とモデル微調整を簡素化するワンストップRAGシステムソリューション

総合紹介 UltraRAGは、清華大学のTHUNLPグループ、東北大学のNEUIRグループ、Modelbest.Inc、9#AISoftチームによって共同提案されたRAG(Retrieval Augmented Generation)システムソリューションである。このフレームワークは、アジャイルな展開とモジュール式の構築に基づいている。
1年前
070.1K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX:マルチモーダル・マクロモデルを用いた胸部X線写真解析のためのインテリジェントボディ

包括的な紹介 MedRAXは、胸部X線(CXR)解析用に設計された最先端のAIインテリジェンスです。最先端のCXR解析ツールとマルチモーダル大規模言語モデルを統合し、追加トレーニングなしで複雑な医療クエリを動的に処理します。
1年前
070.1K
uni-api:轻量大模型API转换为OpenAI接口,YAML文件配置API渠道

uni-api: 軽量なビッグモデルAPIをOpenAIインターフェイスに変換。

包括的な導入フロントエンドなし、純粋な設定ファイルの設定APIチャネル。ただ、自分のAPIステーションを実行することができますファイルを書いて、ドキュメントには、詳細な設定ガイドを持っている、白フレンドリー。 uni-apiは、統一されたAPIプロジェクトを可能にする大規模なモデルの統一管理です。
1年前
070K
HyperChat:利用 MCP 智能执行复杂任务的AI对话客户端

HyperChat:MCPインテリジェンスを使用して複雑なタスクを実行するAI対話クライアント

概要 HyperChatは、BigSweetPotatoStudioによって開発され、GitHubでホストされているオープンソースのチャットクライアントです。OpenAI、Cla...などのいくつかの大規模な言語モデル(LLM)のAPIを統合することにより、BigSweetPotatoStudio言語モデルの包括的な概要を提供するように設計されています。
1年前
069.7K
Sana:快速生成高分辨率图像,0.6B超小尺寸模型,低配笔记本GPU运行

サナ:高解像度画像の高速生成、0.6Bの超小型モデル、薄型ラップトップGPU動作

概要 Sanaは、NVIDIA Labsによって開発された効率的な高解像度画像生成フレームワークであり、最大4096×4096の解像度の画像を数秒で生成することができる。Sanaは、線形拡散変換器と深層圧縮自己エンコーダ技術を採用し、大幅に...
1年前
069.7K
MiMo:高效数学推理与代码生成的小型开源模型

MiMo: 効率的な数学的推論とコード生成のための小さなオープンソースモデル

一般的な紹介 MiMoはXiaomiによって開発されたオープンソースの大規模言語モデリングプロジェクトであり、数学的推論とコード生成に焦点を当てている。コアプロダクトはMiMo-7Bファミリーのモデルで、ベースモデル(Base)、教師あり微調整モデル(SFT)、ベースモデルから学習された強力な化学モデル(Strong Chemical)を含んでいます。
12ヶ月前
069.7K
Flock:低代码工作流编排快速构建聊天机器人

Flock:迅速なチャットボット構築のためのローコードワークフローオーケストレーション

概要 Flockはオープンソースのワークフロー用ローコードプラットフォームで、GitHubでホストされており、Onelevenvyチームによって開発されています。LangChainとLangGraphの技術をベースにしており、ユーザーがチャットマシンを素早く構築できるようにすることに重点を置いています。
1年前
069.7K
Fragments:类似于 Anthropic 的 Claude Artifacts、Vercel v0 或 GPT Engineer 等应用程序的开源版本

フラグメント:AnthropicのClaude Artifacts、Vercel v0、GPT Engineerのようなアプリケーションのオープンソース版。

概論 Fragments by E2Bは、Next.jsをベースとした、AIのみで生成されるアプリケーションを構築するためのテンプレートを提供するオープンソースプロジェクトです。このプロジェクトは、AIアプリケーションの開発プロセスを簡素化し、高速化するためにE2Bによって開発されました。このプロジェクトには、さまざまな現在のAIが統合されています。
1年前
069.6K
实时语音转文字的开源工具

リアルタイム音声テキスト化のためのオープンソースツール

概要 realtime-transcription-fastrtcは、音声をリアルタイムでテキストに変換することに特化したオープンソースプロジェクトです。FastRTC技術を使って低遅延の音声ストリームを処理し、ローカルのWhisperモデルと組み合わせて効率的なテキスト変換を実現します。
1年前
069.5K
Fast GraphRAG:高准确率且低成本的图形化检索增强生成工具

高速GraphRAG:高精度で低コストのグラフィカル検索機能拡張生成ツール

包括的な紹介 Fast GraphRAGはCirclemind AIによって開発されたオープンソースツールで、知識グラフとPageRankアルゴリズムによって効率的で正確な検索補強生成(RAG)を可能にします。このツールはユーザーの用途にインテリジェントに適応する。
1年前
069.5K
Markdownify MCP Server:基于MCP协议将各种内容转换为Markdown格式

Markdownify MCP Server: MCPプロトコルに基づき、様々なコンテンツをMarkdownフォーマットに変換します。

一般的な紹介 Markdownify MCPサーバーはモデルコンテキストプロトコルに基づいたオープンソースツールで、開発者のZach CaceresによってGitHubでホストされています ...
1年前
069.3K
Retrieval based Voice Conversion WebUI:基于检索的语音转换框架|模拟真人歌声

検索ベースの音声変換WebUI:検索ベースの音声変換フレームワーク|実際の歌声をシミュレートする

包括的な導入検索に基づく音声変換WebUIは、使いやすいVITSベースの音声変換フレームワークであり、曲のカバーやリアルタイムの音声変更を含む、あらゆるスピーカー間の音声変換を可能にします。低 ...
2年前
069.2K
自动爬取小说并生成多角色有声书的工具

小説を自動的にクロールし、多文字のオーディオブックを生成するツール

概論 Auto-Audio-BookはGitHubでホストされているオープンソースプロジェクトです。ウェブサイトから小説の内容を自動的にクロールし、複数のキャラクターの声を持つオーディオブックに変換します。開発者 zqq-nuli Python 3.1...
1年前
069K
Ant Design X:快速构建AI聊天界面的工具包,支持模型集成和数据流管理。

Ant Design X: モデル統合とデータフロー管理をサポートし、AIチャットインターフェースを迅速に構築するためのツールキット。

包括的な紹介 Ant Design Xは、Ant Groupによってオープンソース化されたツールキットで、開発者がAI主導の対話インターフェースを素早く構築できるように設計されています。豊富なコンポーネントとテンプレートのセットを提供し、OpenAI標準と互換性のあるモデル統合をサポートし、インテリジェントなカスタマーサービス、AIアシスタント、その他のような様々なアプリケーションに適しています。
1年前
069K
Hibiki:实时语音翻译模型,保留原声特点的流式翻译

Hibiki:リアルタイム音声翻訳モデル、元の音声の特徴を保持したストリーミング翻訳

一般的な紹介 Hibikiは、Kyutai Labsによって開発された高忠実度のリアルタイム音声翻訳モデルです。従来のオフライン翻訳機とは異なり、Hibikiはユーザーが話している最中にリアルタイムでターゲット言語の自然な音声翻訳を生成し、テキスト翻訳も提供することができます。このモデルは...
1年前
069K
Free-Search:免费获取实时谷歌搜索结果的API工具

Free-Search: リアルタイムのグーグル検索結果に無料でアクセスできるAPIツール

概要 Free-SearchはHanzla Javaidによって開発され、GitHubでホストされているオープンソースのAPIツールである。主な機能は、カスタム検索エンジンを通してリアルタイムのGoogle検索結果を提供し、ウェブコンテンツをクロールして結果を返すことである。
1年前
069K
DH live:在30/40系显卡流畅实时交互的AI数字人

DHライブ: 30/40シリーズグラフィックスカードでスムーズなリアルタイムインタラクションを実現するAIデジタルピープル

一般的な紹介 DH_liveは、サンプルレスラーニングに基づいたリアルタイムのライブデジタルヒューマンプロジェクトで、スムーズでインタラクティブなライブストリーミング体験をユーザーに提供することを目的としています。このプロジェクトは、NVIDIA 30および40シリーズのグラフィックカードをサポートし、25fps以上でリアルタイムに実行することができます。ユーザーは...
1年前
068.9K
Flow(Laminar):构建智能体的轻量级任务引擎,简化并灵活管理任务

Flow(Laminar):タスクを簡素化し、柔軟に管理するインテリジェンス構築のための軽量タスクエンジン

包括的な紹介 Flowは、シンプルさと柔軟性に重点を置いてAIエージェントを構築するために設計された軽量タスクエンジンです。従来のノードベースやエッジベースのワークフローとは異なり、Flowは並列実行、動的スケジューリング、インテリジェントな依存関係管理をサポートする動的タスクキューシステムを使用する。その中核となるコンセプトは...
1年前
068.9K
X-Kit:Twitter数据抓取和分析X用户数据与推文的工具

X-Kit: XユーザーデータとツイートのためのTwitterデータクロールとアナリティクス

概要 X-Kitは、X(旧Twitter)のユーザーデータやツイートをクロールして分析するために設計されたオープンソースツールです。GitHubユーザーのxiaoxiuniqueによって開発されたこのツールは、ユーザーが任意のXユーザーに関する基本的な情報やツイートを取得するプロセスを自動化するために設計されています。
1年前
068.8K
E2B Open Computer Use:E2B沙盒中安全的运行AI操作系统

E2Bオープンコンピュータの使用:E2BサンドボックスでAIオペレーティングシステムを安全に実行する

概要 E2B Open Computer Useは、E2B Desktop Sandboxを通じて、安全なクラウドベースのLinuxコンピュータ利用体験を提供することを目的としたオープンソースプロジェクトです。E2B Sandboxは、ユーザが任意の大規模コンピュータに接続できるデスクトップグラフィカル環境を提供します。
1年前
068.8K
Fast-Agent:声明式语法和MCP集成快速构建多智能体工作流

Fast-Agent: マルチインテリジェントなボディ・ワークフローを迅速に構築するための宣言的文法とMCPの統合

概要 Fast-Agentは、evalstateチームによってGitHubでメンテナンスされているオープンソースツールで、開発者がマルチインテリジェンスワークフローを素早く定義、テスト、構築できるように設計されています。シンプルな宣言的構文に基づいており、MCP(Mode...
1年前
068.8K
RoomGPT:上传房间照片,使用AI重新设计

RoomGPT:部屋の写真をアップロードし、AIを使ってリデザインする!

概要 RoomGPTは、GitHubユーザーのNutlopeによって開発されたオープンソースプロジェクトで、ユーザーが部屋の写真をアップロードすると、人工知能技術を使ってその部屋のリデザインバージョンを生成することができる。このプロジェクトは、高額なデザイナー費用を支払うことなく、プロ級のインテリアデザインを利用できるようにすることを目的としている。
1年前
068.8K
NodeRAG:基于异构图的精准信息检索与生成工具

NodeRAG:正確な情報検索と生成のための異種グラフベースのツール

包括的な紹介 NodeRAGはGitHubでホストされているオープンソースの検索拡張生成(RAG)システムであり、Terry-Xu-666によって開発された。異種グラフ構造によって情報検索と生成を最適化し、検索精度と文脈関連性を大幅に向上させます。
1年前
068.7K
LogoCreator:开源Logo生成器,使用AI智能生成专业品牌Logo

LogoCreator:オープンソースのロゴジェネレーター、AIインテリジェンスを使用してプロフェッショナルなブランドロゴを生成します。

一般的な紹介 LogoCreatorは、Together AIとFluxモデルに基づいたオープンソースのロゴ・ジェネレーターで、企業や個人に迅速でプロフェッショナルなロゴ・デザイン・サービスを提供することに焦点を当てています。このプロジェクトは、開発者Nutlopeによって開発され、Gitでオープンソース化されています...
1年前
068.7K
Quadratic:集成AI对话和代码执行的在线数据分析表格

Quadratic: AI対話とコード実行を統合したオンラインデータ分析フォーム

概要 Quadraticは、AI、コード、データ接続機能を組み合わせたオープンソースのスマート・スプレッドシート・ツールで、強力なデータ処理と分析機能をユーザーに提供するように設計されています。Python、SQL、Rustなどのプログラミング言語をサポートすることで、Quadratic...
1年前
068.7K
Copilot后端代理服务:用其他模型接管GitHub Copilot插件服务端

Copilotバックエンドプロキシサービス:他のモデルでGitHub Copilotプラグインサーバーを引き継ぐ

概要 Copilot Backend Agent Service は、DeepSeek などの他の FIM モデルを活用して GitHub Copilot プラグイン・サーバーを管理するために設計されたオープンソース・プロジェクトです。このサービスは、V...を含む様々なIDEをサポートしています。
1年前
068.7K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab:専用のOCR認識AIモデル、PDF to Markdown(オープンソース/API)

包括的な紹介 Datalabは、OCR、レイアウト分析、PDFからMarkdownへの変換などに焦点を当てた高度なAIモデルを幅広く提供しています。これらのモデルは高性能であるだけでなく、使いやすくオープンソースです。プラットフォーム上のマーカーモデルは、迅速かつ正確に...
1年前
068.7K
TxAgent:帮医生分析药物作用和治疗方案的AI工具

TxAgent:医師が薬効や治療法を分析するためのAIツール

包括的な紹介 TxAgentは、ハーバード大学の医学・科学人工知能チーム(MIMS)によって開発されたオープンソースのAIツールで、医師が薬物相互作用を分析し、パーソナライズされた治療計画を立てるのを支援する。TxAgentは、多段階の推論と生物医学的知識のリアルタイム検索により、患者固有の状況を組み合わせ...
1年前
068.5K
修复无效JSON字符串,解决 LLMs 生成的 JSON 数据中可能出现的格式错误。

無効なJSON文字列を修正し、LLMによって生成されたJSONデータで起こりうるフォーマットエラーを解決しました。

一般的な説明 無効なJSONファイルを修正するためのモジュールで、特に大規模言語モデル(LLM)が出力する不正なJSONデータを解析するためのモジュールです。このモジュールは、引用符の欠落、不正なカンマ、エスケープされていない文字、不完全なkey-value...などの一般的なJSON構文エラーを修正します。
2年前
068.5K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor:見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント

概論 Gemini Cursorは、GoogleのGemini 2.0 Flash(実験的)モデルをベースとしたデスクトップ知的アシスタントである。Gemini Cursorは、マルチモーダルAPIを通じて、視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延な利用を提供します。
1年前
068.5K
Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

Ultravox: リアルタイムのエンドツーエンド音声対話のための音声マルチモーダル・マクロモデル、GPT-4o音声対話のオープンソース実装

包括的な紹介 Ultravoxは、リアルタイム音声処理のために設計された革新的なマルチモーダル大規模言語モデル(LLM)です。従来の音声認識システムとは異なり、Ultravoxは音声認識(ASR)ステージを別途用意する必要がなく、音声を直接高次元空間に...
1年前
068.4K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT:ジェミニ・モデルを使用して、ワンクリックで短いナレーション付きビデオや長いビデオの要約ビデオを作成する。

包括的な紹介 AI2SRTは、GeminiAIのビッグモデルを使用して、ワンクリックで短いナレーション付きビデオと長いビデオのビデオ要約を生成し、音声とビデオの書き起こし字幕をサポートするオープンソースプロジェクトです。このプロジェクトは、ビデオコンテンツの作成プロセスを簡素化し、効率的な字幕生成と翻訳機能を提供することを目的としています。ユーザーは、字幕を作成した後、その字幕を字幕翻訳ソフトに渡すことができます。
1年前
068.3K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

MMAudio:ビデオ映像に同期した効果音やサウンドトラックを生成する、ビデオと音声のマルチモーダル共同トレーニングツール

一般的な紹介 MMAudioは、マルチモーダルな共同トレーニングによって高品質な同期音声を生成することを目的としたオープンソースプロジェクトである。香港中文大学のHo Kei Chengらによって開発されたこのプロジェクトの主な機能は、ビデオやテキスト入力に基づいて同期された音声を生成することである。
1年前
068.3K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest:世界をリードする軽量・高性能エンドサイド・ビッグモデル

概要 ModelBestは、軽量かつ高性能な大型モデルの開発に注力する企業であり、先進的なAI技術をメインストリーム家電や日常生活のあらゆるエンドデバイスに応用することに専念している。同社のMiniCPMシリーズは、非常に高い演算能力とメモリ使用効率を備えたエンドサイドモデルです。
2年前
068.3K
Morphik Core:处理多模态数据的开源 RAG 平台

Morphik Core:マルチモーダルデータ処理のためのオープンソースRAGプラットフォーム

一般的な紹介 Morphik Coreはmorphik-orgチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。以前はDataBridge Coreと呼ばれていましたが、現在はMorphik Coreに改名されています。
1年前
068.2K
Diffusers Image Outpaint:超强开源AI图像扩展工具,图像外绘(image outpainting)

ディフューザー画像アウトペイント:超強力なオープンソースAI画像拡張ツール、画像アウトペイント(outpainting)

一般的な紹介 Diffusers Image Outpaintは、Hugging Faceコミュニティメンバーのfffiloniによって作成された強力なAI画像拡張ツールです。このツールは、高度な拡散モデリング技術を利用して、画像を...
2年前
068.1K
Ai2 OLMoE:基于 OLMoE 模型离线运行的开源iOS AI应用

Ai2 OLMoE:オフラインで動作するOLMoEモデルに基づくオープンソースのiOS AIアプリ

概要 Ai2 OLMoEは、Allen Institute for AI (Ai2, Allen Institute for Artificial Intelligence)によって開発されたオープンソースのiOSアプリで、デバイス上で動作するAIモデルを提供します。このアプリは、Ai2のオープンソースOLMoEを活用しています。
1年前
068.1K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: Smart Spectrumのグラフィカル・インターフェース自動化のためのオープンソースのインテリジェント視覚言語モデル

包括的な紹介 CogAgentは清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースの視覚言語モデルであり、プラットフォーム間のグラフィカルユーザインタフェース(GUI)操作の自動化を目的としている。このモデルはCogVLM(GLM-4V-9B)をベースにしており、中国語と英語の二ヶ国語をサポートしている。
1年前
068.1K
Gemini Playground:无服务器部署Gemini多模态对话网站

Gemini Playground: Geminiマルチモーダル対話サイトのサーバーレス展開

一般的な紹介 Gemini Playgroundは、ユーザーが迅速にマルチモーダル対話サイトを展開するために設計されたオープンソースプロジェクトです。このプロジェクトは、技術的なクロールエビによって開発され、デプロイを完了するために10秒でGemini API Keyの使用をサポートしています。ユーザが...
1年前
068K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

MarkItDown:Microsoftドキュメントインテリジェント変換ツール、様々なファイルをMarkdown形式に変換

一般的な紹介 MarkItDownはMicrosoftによって開発されたPythonツールで、様々なファイルやオフィス文書をMarkdown形式に変換するように設計されています。このツールは、PDF、PowerPoint、Word、Excel、ダイアグラム...など、幅広い種類のファイルをサポートしています。
1年前
067.8K
LazyLLM:商汤开源构建多智能体应用的低代码开发工具

LazyLLM:マルチインテリジェント・ボディ・アプリケーション構築のためのShangtangオープンソース・ローコード開発ツール

包括的な紹介 LazyLLMはLazyAGIチームによって開発されたオープンソースツールで、マルチインテリジェンス大規模モデルアプリケーションの開発プロセスを簡素化することに重点を置いています。ワンクリックのデプロイと軽量なゲートウェイ機構により、開発者が複雑なAIアプリケーションを素早く構築できるよう支援し、面倒なエンジニアリングの設定を省きます。
1年前
067.8K
Ruyi-Models:生成图像到视频开源模型,支持镜头控制与运动幅度控制

Ruyi-Models: レンズ制御とモーション振幅制御をサポートする、画像からビデオへのオープンソースモデルを生成します。

概要 Ruyi-Modelsは、画像から高品質の動画を生成するために設計されたオープンソースプロジェクトです。IamCreateAIチームによって開発されたこのプロジェクトは、768の解像度、毎秒24フレーム、5秒で120フレームの映画のようなビデオの生成をサポートしています。
1年前
067.7K
Infinity:生成高分辨率图像的比特自回归建模,实现无限制高分辨率图像生成

無限大:無制限の高解像度画像生成のためのビット単位の自己回帰モデリング

概要 Infinityは、FoundationVisionチームによって開発された画期的な高解像度画像生成フレームワークです。このプロジェクトは、革新的なビットレベルの視覚的自己回帰モデリング・アプローチによって、従来の画像生成モデルの限界を打ち破ります。
1年前
067.7K
VideoRAG:理解超长视频的RAG框架,支持多模态检索和知识图谱构建

VideoRAG:マルチモーダル検索と知識グラフ構築をサポートする超長尺動画理解のためのRAGフレームワーク

包括的な紹介 VideoRAGは、非常に長い文脈動画を処理し理解するために設計された、検索機能を強化した生成フレームワークです。このツールは、グラフ駆動のテキスト知識ベースと階層的なマルチモーダルコンテキストエンコーディングを組み合わせ、1つのNVIDIA RTX 3090 GPUで効率的に処理します...
1年前
067.6K
Awesome LLM Apps:收集和探索优秀开源的LLM应用程序,一行命令快速部署

素晴らしいLLMアプリ:優れたオープンソースのLLMアプリを収集・探索し、コマンド1つで素早くデプロイできます!

概要 Awesome LLM Appsは、Shubham Sabooによって作成されたGitHubリポジトリで、素晴らしいLLM(大規模言語モデリング)アプリを幅広く集め、紹介することに特化しています。このリポジトリには、OpenAI、An...
1年前
067.6K
Text generation web UI:基于 Gradio 大语言模型聊天界面,支持多种后端服务

テキスト生成ウェブUI:複数のバックエンド・サービスをサポートするGradioベースの大規模言語モデル・チャット・インターフェース

概論 テキスト生成ウェブUIは、大規模言語モデル(LLM)のために設計されたGradioベースのウェブUIです。Transformers、llama.cp...を含む様々なテキスト生成バックエンドをサポートしています。
1年前
067.6K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: ビデオから任意の移動物体を自動的にセグメント化するオープンソースツール

概要 SegAnyMoは、カリフォルニア大学バークレー校と北京大学の研究者チームによって開発されたオープンソースプロジェクトで、Nan Huangなどのメンバーが参加している。このツールはビデオ処理に重点を置いており、ビデオ内の任意の動く物体、例えば人、動物、...を自動的に識別し、セグメント化することができる。
1年前
067.5K
Fullmoon:本地大语言模型聊天的iOS应用

Fullmoon:ネイティブの多言語モデルチャット用iOSアプリ

一般的な説明 FullmoonはiOSデバイス用に設計されたアプリで、ネイティブの大規模な言語モデルとのプライベートチャット機能を提供することを目的としています。このアプリはApple Siliconに最適化されており、iPhone、iPad、Macに対応しています。チャットのユーザー...
1年前
067.4K
OWL:多智能体协作完成现实任务的自动化工具

OWL:現実的なタスクにおけるマルチインテリジェンス・コラボレーションのための自動化ツール

概論 OWL(Optimized Workforce Learning)は、CAMEL-AIチームによって開発されたオープンソースのフレームワークで、実世界のタスクを自動化するためのマルチインテリジェンス・コラボレーションの最適化に焦点を当てている。CAMEL-AIフレームワークに基づいて...
1年前
067.4K
Bilingual Book Maker:使用AI翻译制作双语电子书,全书自动化翻译工具

バイリンガルブックメーカー: AI翻訳を使用して、バイリンガルの電子書籍を作成します。

一般的な紹介 バイリンガルブックメーカーは、ユーザーがAI技術を使って多言語版の電子書籍を作成できるように設計されたオープンソースプロジェクトです。このツールは主に翻訳にChatGPTを使用し、epub、txt、srtを含む複数のファイル形式をサポートしています。
1年前
067.4K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit:画像修復・編集のオールインワンツール、テンセントアークがリリース

総合紹介 BrushEditは、Tencent ARC Labsが開発したオールインワンの画像修復・編集ツールです。このツールは最新のAI技術に基づいており、画像の欠陥を自動的に識別して修復することができ、ユーザーによるインタラクティブな編集もサポートしています。
1年前
067.4K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格

YuE:歌詞を完全な曲のベースモデルに変換し、幅広い音楽スタイルをサポートします。

概要 YuEは、歌詞をフルソングに変換することに重点を置いた、オープンソースのフルソング生成ベースモデルです。ボーカル以外の短いスニペットしか生成しない他のモデルとは異なり、YuEはリードボーカルとバッキングボーカルを含む、長さ数分のフルソングを生成することができます。YuEは、歌詞から曲への変換に特化したモデルである。
1年前
067.3K
xyks:小猿口算逆向笔记,逆向工程与解密算法

xyks:小型猿口計算リバースノート、リバースエンジニアリング、復号アルゴリズム

包括的な紹介 猿の口計算機リバースノートは、猿の口計算機アプリケーションのリバースエンジニアリングのプロセスと方法を文書化し、共有することを目的としたオープンソースプロジェクトです。このプロジェクトには、Fridaやdexdumpなどの命令を使用するための様々なリバースツールやテクニックが含まれています。
2年前
067.2K
Amurex:开源AI会议记录助手,自动记录会议内容生成总结

Amurex:オープンソースのAI会議記録アシスタント、会議内容を自動記録して要約を生成

概要 Amurexは、The Personal AI Companyによって開発されたオープンソースのAIミーティングアシスタントで、インテリジェントな機能によってミーティングの効率を向上させるように設計されています。Amurexは、リアルタイムのアドバイスを提供し、インテリジェントなサマリーを生成し、ミーティング内容を記録し、自動的にフォローを送信することができます。
1年前
067.2K
Eko:自然语言构建智能体工作流,实现桌面与浏览器自动化

Eko: デスクトップとブラウザの自動化のための自然言語によるインテリジェント・ボディ・ワークフローの構築

概論 Eko は、自然言語記述によって効率的なインテリジェントエージェントワークフローを構築するために設計された、プロダクショングレードの JavaScript フレームワークです。開発者が深いプログラミングをすることなく、AI 技術を使って日常的なタスクを自動化できるよう設計されています。
1年前
067.1K
mcp-ui:基于MCP协议的简洁AI聊天界面

mcp-ui: MCPプロトコルに基づいたクリーンなAIチャットインターフェース

包括的な紹介 mcp-uiは、開発者machaojin1917939763によって作成されたオープンソースプロジェクトであり、構築するためのモデルコンテキストプロトコル(MCP)プロトコルに基づき、Webおよびデスクトップ環境のためのサポートです スマート ...
1年前
067K
Deep Recall:为大模型提供企业级记忆框架的开源工具

Deep Recall:大規模モデルのためのエンタープライズクラスのメモリフレームワークを提供するオープンソースツール

包括的な紹介 Deep Recallは、大規模言語モデル(LLM)のために設計されたオープンソースのエンタープライズクラスのメモリフレームワークです。効率的な文脈検索と統合により、超パーソナライズされた応答性を提供します。このフレームワークは、メモリサービス、推論サービス、コーディネータを含む3層アーキテクチャを採用しており、...
12ヶ月前
066.8K
Weebo:实时语音聊天机器人,提供自然语言对话体验

Weebo: 自然言語での対話体験を提供するリアルタイム音声チャットボット

はじめに Weeboは、音声認識にWhisper Small、自然言語生成にLlama 3.2、音声合成にKokoro-82Mを利用したオープンソースのリアルタイム音声チャットボットです。このプロジェクトはAman...によって開発されました。
1年前
066.8K
AnimeGamer:用语言指令生成动漫视频和角色互动的开源工具

AnimeGamer: 言語コマンドでアニメ動画とキャラクターのインタラクションを生成するオープンソースツール

AnimeGamerはテンセントのARC Labが開発したオープンソースツール。ユーザーは、「宗介が紫の車でドライブする」といった簡単な言語コマンドでアニメ動画を生成したり、「魔法少女の冒険」のキキや「スカイシティ」...といった異なるアニメキャラクターを相互作用させたりすることができる。
1年前
066.8K
OpenAI Agents SDK:搭建多智能体协作工作流的Python框架

OpenAIエージェントSDK:協調的マルチインテリジェンスワークフロー構築のためのPythonフレームワーク

概論 OpenAI Agents SDKは、マルチインテリジェントワークフローを構築するために設計された、OpenAIの軽量な開発ツールです。Pythonをベースとしており、使いやすく、開発者はAgentを設定し、タスクをカットすることができます。
1年前
066.8K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NVインジェスト:複雑なフォーマットのドキュメントを解析し、マルチモーダルデータをメタデータとテキストに抽出する。

包括的な紹介 NV Ingest (NVIDIA Ingest)は、何十万もの複雑で厄介な非構造化PDFやその他の企業ドキュメントを解析するために設計された、早期アクセス可能なマイクロサービス群です。これらのドキュメントをメタデータとテキストに変換し、検索に埋め込むことができます...
1年前
066.8K
DeepRant:实时翻译游戏聊天内容的开源客户端

DeepRant: ゲームチャットコンテンツのリアルタイム翻訳用オープンソースクライアント

概要 DeepRantは、国際サーバーにおける言語の障壁の問題を解決するために設計された、ゲーマー向けのオープンソース翻訳ツールです。ショートカットキーを使ってゲーム内のテキストを瞬時に翻訳することができ、複数の言語による相互翻訳をサポートし、プレイヤーがゲームを終了することなくチャットメッセージを素早く理解し、返信することを可能にします。
1年前
066.7K
ANP:实现智能代理间安全高效通信的开源协议

ANP: インテリジェントエージェント間の安全で効率的な通信のためのオープンソースプロトコル

概要 AgentNetworkProtocol(略してANP)は、GitHubでホストされているオープンソースのプロトコルプロジェクトで、インテリジェントエージェント(AIエージェント)に安全で効率的な通信ソリューションを提供することに焦点を当てている。このプロトコルは、アイデンティティと暗号化という3つのレイヤーから構成されています。
1年前
066.6K