AIオープンソースプロジェクト

合計1020記事
WebPilot:智能网页信息处理工具,网页内容抓取免费API

WebPilot:インテリジェントなウェブ情報処理ツール、ウェブコンテンツ取得のための無料API

WebPilot 概要 Webpilotはフリーでオープンソースの "ウェブアシスタント "です。ページを切り替えたり、コピー&ペーストする必要はなく、テキストを選択したり、コマンドを入力するだけで、ウェブパイロット...
2年前
063.9K
CoolCline:又一个增强版Cline智能编码助手,结合ClineRoo Cline和Bao Cline的优点

クールクライン:クラインのインテリジェント・コーディング・アシスタントの改良版で、クラインルー・クラインとバオ・クラインの利点を組み合わせたもの。

一般的な説明 CoolClineは、Cline、Roo Cline、Bao Clineの最高の機能を組み合わせた強力なコーディングアシスタントです。コマンドラインインターフェイス(CLI)やエディタとシームレスに動作し、最もパワフルな...
1年前
063.9K
Proxy Lite:3B参数视觉模型驱动的网页自动化工具

Proxy Lite:3Bパラメトリック・ビジュアルモデル駆動型ウェブ自動化ツール

包括的な紹介 Proxy Liteは、Convergence AIによって開発されたオープンソースの軽量なWeb自動化ツールで、Proxyのミニバージョンとしてオープンウェイト設計になっています。3BパラメータのVisual Language Model (VLM)をベースにしており、自己...
1年前
063.9K
Langui:开源的AI用户界面组件库

Langui: AIユーザーインターフェイスコンポーネントのオープンソースライブラリ

概要 LangbaseIncのLanguiは、生成AIや大規模言語モデリング(LLM)プロジェクトのために設計されたオープンソースのユーザーインターフェイスコンポーネントライブラリです。このライブラリはTailwind CSSをベースにしており、開発者が素早くUIを構築できるように、あらかじめビルドされたUIコンポーネントのコレクションを提供します。
1年前
063.9K
Text generation web UI:基于 Gradio 大语言模型聊天界面,支持多种后端服务

テキスト生成ウェブUI:複数のバックエンド・サービスをサポートするGradioベースの大規模言語モデル・チャット・インターフェース

概論 テキスト生成ウェブUIは、大規模言語モデル(LLM)のために設計されたGradioベースのウェブUIです。Transformers、llama.cp...を含む様々なテキスト生成バックエンドをサポートしています。
1年前
063.8K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NVインジェスト:複雑なフォーマットのドキュメントを解析し、マルチモーダルデータをメタデータとテキストに抽出する。

包括的な紹介 NV Ingest (NVIDIA Ingest)は、何十万もの複雑で厄介な非構造化PDFやその他の企業ドキュメントを解析するために設計された、早期アクセス可能なマイクロサービス群です。これらのドキュメントをメタデータとテキストに変換し、検索に埋め込むことができます...
1年前
063.8K
OWL:多智能体协作完成现实任务的自动化工具

OWL:現実的なタスクにおけるマルチインテリジェンス・コラボレーションのための自動化ツール

概論 OWL(Optimized Workforce Learning)は、CAMEL-AIチームによって開発されたオープンソースのフレームワークで、実世界のタスクを自動化するためのマルチインテリジェンス・コラボレーションの最適化に焦点を当てている。CAMEL-AIフレームワークに基づいて...
1年前
063.8K
OpenAI Agents SDK:搭建多智能体协作工作流的Python框架

OpenAIエージェントSDK:協調的マルチインテリジェンスワークフロー構築のためのPythonフレームワーク

概論 OpenAI Agents SDKは、マルチインテリジェントワークフローを構築するために設計された、OpenAIの軽量な開発ツールです。Pythonをベースとしており、使いやすく、開発者はAgentを設定し、タスクをカットすることができます。
1年前
063.7K
WritingBench:测试大模型写作能力的基准评估工具

WritingBench:大規模モデルのライティング能力をテストするベンチマーク評価ツール

概要 WritingBenchはX-PLUGチームによって開発され、GitHubでホストされているオープンソースプロジェクトである。大規模なモデルのライティング能力をテストするために設計されたツールで、1239の実世界のライティングタスクを提供する。これらのタスクは...
1年前
063.7K
opensource_notebooklm:基于Deepseek-V3和PlayHT TTS的NotebookLM开源实现

opensource_notebooklm: Deepseek-V3とPlayHT TTSに基づくNotebookLMのオープンソース実装

概論 オープンソースNotebookLMは、Deepseek-V3の言語理解能力とPlayHTの音声合成技術を組み合わせた革新的な人工知能プロジェクトであり、インテリジェントなノート作成対話システムを目指しています。このプロジェクトは、Build Fast社によって開発されました。
1年前
063.7K
CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2: 映像理解と複数回の対話を支援するオープンソースのマルチモーダルモデル

包括的な紹介 CogVLM2は清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースのマルチモーダルモデルで、Llama3-8Bアーキテクチャをベースとしており、GPT-4Vに匹敵するか、それ以上の性能を提供することを目指している。このモデルは画像理解、多ラウンド対話、視覚...
1年前
063.7K
SmartRead:自动标注技术PDF文档并提供相关引用源

SmartRead: PDF技術文書に自動的に注釈を付け、関連する引用を提供

包括的な紹介 SmartReadは、技術文書向けに設計されたAIベースのオープンソースツールです。PDFファイルを自動的に分析し、重要な用語、タイトル、核となるアイデアなどの重要なコンテンツをマークし、ユーザーが複雑な文書を素早く理解できるようにします。同時に、主な内容を提供し、文書化することもできます。
1年前
063.7K
OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

OmniGen:マルチモーダル入力を用いた統一的な画像生成モデルによる、文字の一貫性を保った画像生成

概論 OmniGenはVectorSpaceLabによって開発された「ユニバーサル」画像生成モデルであり、ユーザーは簡単なテキストプロンプトやマルチモーダル入力で、多様で文脈に富んだ視覚効果を作成することができる。OmniGenは、特に、...を認識する必要があるアプリケーションに適しています。
1年前
063.6K
VBDeepSeek:使用DeepSeek生成四级单词学习资料的开源工具

VBDeepSeek:DeepSeekを使用して4年生の単語学習教材を作成するためのオープンソースツール

総合紹介 "Vocabulary Book by DeepSeek "はDeepSeekのビッグモデルに基づいて開発されたオープンソースプロジェクトで、英語学習者が大学英語レベル4(CET-4)の語彙を効率的に習得することを目的としています。プロジェクトはGitHubでホストされています...
1年前
063.6K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: 視覚言語モデルの汎化能力のための低コスト強化学習

包括的な紹介 R1-Vは、低コストの強化学習(RL)を通して視覚言語モデリング(VLM)のブレークスルーを達成することを目的としたオープンソースプロジェクトです。このプロジェクトは、VLMが一般的な計数能力を学習する動機付けとなる、検証可能な報酬メカニズムを利用している。驚くべきことに、R1-Vの2B ...
1年前
063.6K
AgentGPT:创建并运行自动化AI智能体的开源项目

AgentGPT:自動化されたAIインテリジェンスを作成・実行するオープンソースプロジェクト

一般的な紹介 AgentGPTは、Reworkdチームによって開発され、GitHubでホストされているオープンソースプロジェクトで、ユーザーがブラウザを通して自律的にAIインテリジェンスを作成、設定、デプロイできるように設計されています。ユーザーは目標を設定するだけで、AgentGPTは...
1年前
063.5K
ANP:实现智能代理间安全高效通信的开源协议

ANP: インテリジェントエージェント間の安全で効率的な通信のためのオープンソースプロトコル

概要 AgentNetworkProtocol(略してANP)は、GitHubでホストされているオープンソースのプロトコルプロジェクトで、インテリジェントエージェント(AIエージェント)に安全で効率的な通信ソリューションを提供することに焦点を当てている。このプロトコルは、アイデンティティと暗号化という3つのレイヤーから構成されています。
1年前
063.5K
AI Chatbot:Vercel 构建和部署智能聊天机器人

AIチャットボット:ヴェルセル、インテリジェントなチャットボットを構築・展開

概要 AI ChatbotはVercelによって開発されたオープンソースプロジェクトで、開発者がインテリジェントなチャットボットを素早く構築し、デプロイすることを支援します。このプロジェクトはNext.jsフレームワークに基づいており、OpenAI...などの様々なAIモデルプロバイダと統合されています。
1年前
063.5K
Devika:开源的AI软件工程师智能体,能够理解、拆分指令为子任务并编写代码

Devika:命令を理解し、サブタスクに分割してコードを書く、オープンソースのAIソフトウェアエンジニアの知能

一般的な紹介 Devikaは高度なAIソフトウェアエンジニアであり、人間の高度な指示を理解し、それをステップに分解し、関連する情報を研究し、与えられた目標を達成するためにコードを書く。大規模な言語モデル、計画・推論アルゴリズム、ウェブブラウジング機能を使って、インテリジェントにソフトウェアを開発する。
1年前
063.5K
Sketch-Gen:生成高质量线稿和草图,反推图像提示词,一键安装包

Sketch-Gen: 高品質の線画とスケッチを生成、イメージキューワードをバックプロパゲート、ワンクリックパッケージインストール

概要 Sketch-Genは、アーティストやデザイナーが高品質な線画やスケッチを素早く生成できるように設計された、AI技術ベースの線画・スケッチ生成ツールです。Paints-UNDOプロジェクトから生まれたこのツールは、高度な機械学習モデルを使用しています。
1年前
063.5K
Omni-RGPT:图像和视频区域级理解多模态大模型,提升视觉内容分析能力

Omni-RGPT:画像・映像の領域レベル理解のためのマルチモーダルグランドモデルによるビジュアルコンテンツ分析の強化

包括的な紹介 Omni-RGPTは、画像や動画の領域レベルでの理解を可能にするために設計されたマルチモーダルな大規模言語モデルである。トークンマークテクニックを導入することで、Omni-RGPTは、視覚特徴空間内のターゲット領域を領域キュー(例えば、ボックスや...
1年前
063.5K
OpenManus-RL:微调大模型强化智能体推理与决策能力

OpenManus-RL: 大規模モデルの微調整による知的身体推論と意思決定の強化

概論 OpenManus-RLは、UIUC-UlabがMetaGPTコミュニティのOpenManusチームと共同で開発したオープンソースプロジェクトであり、GitHubでホストされている。このプロジェクトは、強化学習(RL)技術によって大規模言語モデリング(LLM)を強化する...
1年前
063.5K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse:各タイプのドキュメントをLLMで利用可能なデータに解析し、表や写真などドキュメント内のすべての情報をそのまま保存する。

概論 MegaParseは、Large Language Model (LLM)のデータ処理を最適化するために設計された、パワフルで多機能な文書解析ツールです。MegaParseは、テキスト、PDF、PowerPointプレゼンテーション、Word文書など、どのような文書を扱う場合でも...
1年前
063.4K
TableGPT Agent:专为分析复杂表格数据设计的智能工具

TableGPTエージェント:複雑な表形式データを分析するために設計されたインテリジェントツール

包括的な紹介 TableGPTエージェントは、GitHubオープンソースプロジェクトに基づくインテリジェントなツールで、表形式データの処理と分析のために設計されています。TableGPT2 Big Language Model に依存し、自然言語インタラクションを使用して、ユーザが簡単にクエリ、操作...
1年前
063.4K
Zed:Rust开发的高性能多人协作代码编辑器

Zed: Rustによって開発された高性能なマルチプレイヤー共同コードエディタ

一般的な紹介 Zedは、AtomとTree-sitterのクリエイターによって開発された、高性能なマルチユーザー共同コードエディターです。Rust言語で書かれたZedは、高速で流動的なコーディング体験を提供するように設計されています。主な機能として、マルチプレイヤー...
1年前
063.3K
Feeds.Fun:自动标记和筛选新闻的RSS订阅工具

Feeds.Fun:自動的にタグ付けとフィルタリングを行うRSSフィード

一般的な紹介 Feeds.Funは、ユーザーが効率的にニュースを読むためのツールであり、自動的にニュースにタグを付けたり、ユーザーの好みに基づいてコンテンツをフィルタリングするなどのコア機能を備えています。開発者のAliaksei Yaletski(スクリーンネームTiendil)によって作成され、...
1年前
063.3K
Agent Inbox:与AI智能体进行人机交互的管理界面

エージェント・インボックス:AIインテリジェンスとのヒューマンコンピュータインタラクションのための管理インターフェース

概論 Agent InboxはLangChainチームによって開発されたオープンソースプロジェクトで、AIインテリジェンスと対話するための新しいユーザー体験を提供します。このプロジェクトにより、ユーザーは一元化されたインターフェイスを通して、複数のAIインテリジェンスとのインタラクションを管理し、最適化することができます。
1年前
063.2K
AIBot PRO:集成多种AI产品的商业化聚合平台

AIBot PRO:複数のAI製品を統合した商品化アグリゲーション・プラットフォーム

総合紹介 AIBot PROは、複数のAI製品を統合するための便利なプラットフォームをユーザーに提供するために設計された、.NET 6ベースのAIアグリゲーションクライアントです。このクライアントは、無感覚な切り替え対話をサポートし、ChatGPT、Gemini、Claude、Wenxin Yiyin...を統合します。
1年前
063.1K
Easy Voice Toolkit:本地部署的AI语音工具箱

Easy Voice Toolkit: 地域展開のためのAI音声ツールキット

包括的な紹介 Easy-Voice-ToolkitはOpen Source Speech Projectに基づく多機能なツールキットで、音声認識、音声トランスクリプション、音声変換、データセット作成、モデルトレーニングのための幅広い自動音声ツールを提供します。ユーザーは、必要に応じてこれらのツールを選択的に使用することができます...
2年前
063.1K
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块

MiniRAG:簡易検索拡張生成フレームワーク、エンティティグラフインデックスリコール関連テキストブロック

包括的な紹介 MiniRAGは、極めてシンプルなRAG(Retrieval Augmented Generation)フレームワークであり、ヘテロジニアスグラフインデキシングと軽量なトポロジー拡張検索によって、小さなモデルでも優れたRAG性能を実現することを目的としている。香港大学データサイエンス研究室(HKUDS)によって開発され、...
1年前
063.1K
Leffa:高保真模特虚拟试穿与人物姿势调整,Meta开源的可控人物图像生成模型

Leffa:高忠実度モデルのバーチャル試着とキャラクターポーズ調整、メタ・オープンソース制御キャラクター画像生成モデル

包括的な紹介 Leffaは、制御可能なキャラクター画像を生成するための統一されたフレームワークであり、キャラクターの外見(バーチャルフィッティングなど)やポーズ(ポーズ転送など)の精密な操作を可能にする。このフレームワークは、ターゲットクエリをアテンション層の正しい参照キーにフォーカスさせることで、細かいディテールの歪みを大幅に低減する。
1年前
063K
Open Deep Research:生成基于网络搜索内容的AI研究报告

オープン・ディープ・リサーチ:ウェブ検索コンテンツに基づくAI研究の生成

概論 Open Deep Researchは、Google Geminiのディープリサーチ機能に代わるオープンソースのAI駆動型リサーチレポート作成ツールである。プロジェクトはTypeScriptで開発されており、Next.js 1...をベースにしています。
1年前
063K
Easegen:开源数字人课程制作平台,PPT一键生成克隆数字人讲解视频

Easegen:オープンソースデジタルヒューマンコース制作プラットフォーム、PPTワンクリック生成クローンデジタルヒューマン講義ビデオ

総合紹介 Easegenはオープンソースのデジタルヒューマン講座作成プラットフォームであり、AI技術によって教育コンテンツの制作と管理の効率化を目指している。このプラットフォームは、コース制作、ビデオ管理からインテリジェントな質問までワンストップソリューションを提供し、ユーザーはデジタル人間説明ビデオコースを作成することができます...
1年前
063K
Memora:构建人性化AI记忆模块,保存并更新与人类的互动信息

Memora:人間との相互作用に関する情報を保存・更新するための、人間化されたAIメモリモジュールの構築

概要 Memoraは、パーソナライズされたAIに人間の記憶を複製するように設計されたエージェントである。タイムスタンプ付きの記憶、感情マーカー、マルチモーダル記憶などの機能により、AIが人間のように過去の交流、感情、共有された経験の詳細を記憶することを支援する。
1年前
063K
Deep Research Web UI:支持多语言深度研究的AI助手

ディープリサーチWeb UI:多言語でのディープリサーチをサポートするAIアシスタント

包括的な紹介 Deep Research Web UIは、AI技術に基づいたオープンソースのリサーチアシスタントツールであり、ユーザーがあらゆるトピックについて深い反復研究を行うことを支援するように設計されています。直感的なウェブインターフェースを通じて、検索エンジン、ウェブクローリング、大規模言語モデリングのパワーを組み合わせています...
1年前
063K
sensitive-word:敏感词过滤工具,高效DFA算法实现

sensitive-word: センシティブワードフィルタリングツール、効率的なDFAアルゴリズムの実装

包括的な紹介 Sensitive Wordフィルタリングツール(Sensitive Word)は、DFAアルゴリズムフレームワークの実装に基づいた高性能なJavaのセンシティブワードフィルタリングツールです。このツールは、センシティブワードを効率的に検出してフィルタリングすることができ、様々なフォーマット変換やカスタム置換ストラテジーをサポートします。このツールの設計目標は、...
2年前
062.9K
MindSearch:开源AI搜索引擎框架,部署您自己的 Perplexity 搜索引擎!

MindSearch: オープンソースのAI検索エンジンフレームワーク!

包括的な紹介 MindSearchは、上海人工知能研究所(SAL)が立ち上げたオープンソースのAI検索エンジン・フレームワークで、複雑な情報収集と統合のための人間の思考プロセスをシミュレートすることを目的としている。このツールは、大規模言語モデリング(LLM)とマルチインテリジェンス検索エンジンの高度な技術を組み合わせたものである。
1年前
062.8K
MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音

MockingBird: 高速音声クローニングとモデルトレーニング、xtts v2に基づく音声合成

包括的な紹介 MockingBirdはオープンソースプロジェクトであり、AI技術を通じて、迅速な音声クローンと音声合成を実現することを目指している。ユーザーは5秒間の音声サンプルを提供するだけで、どのような音声コンテンツでも生成できる。このプロジェクトは様々な中国語データセットをサポートし、Windows ...
1年前
062.8K
Raycast-G4F:通过Raycast免费使用GPT-4、Llama-3等多种 AI 模型

Raycast-G4F: Raycastを通じてGPT-4、Llama-3、その他多くのAIモデルに無料でアクセスできます!

概論 Raycast-G4F(GPT4Free)は、GPT-4、Llama-3を含む幅広い先進的なAIモデルに無料でアクセスできる強力なRaycast拡張機能です。この拡張機能は、リアルタイムのダイアログストリーミングを提供するだけでなく...
1年前
062.8K
Paper Reviewer:自动生成arXiv论文的综合评审并转化为博客文章

Paper Reviewer: arXiv論文の包括的なレビューを自動生成し、ブログ記事に変換する。

一般的な紹介 Paper Reviewerは、arXivの論文から包括的なレビューを生成し、ブログ記事にするために設計されたオープンソースプロジェクトです。このプロジェクトはHugging FaceのDaily Papersウェブサイトを動かしており、自動的に...
1年前
062.7K
RLAMA:命令行操作的本地文档智能问答 RAG 系统

RLAMA: コマンドラインから操作するローカルドキュメントのインテリジェントなクイズのためのRAGシステム

一般的な紹介 RLAMAはDonTiziによってオープンソースで開発され、GitHubでホストされている文書インテリジェンスクイズRAG(Retrieval Augmentation Generation)システムである。ユーザは簡単なターミナルコマンドを使って、ローカルの...
1年前
062.7K
MiniMind-V:1小时训练26M参数视觉语言模型

MiniMind-V:26Mパラメトリック視覚言語モデルの1時間トレーニング

概要 MiniMind-Vは、GitHubでホストされているオープンソースプロジェクトで、わずか2600万個のパラメータを持つ軽量な視覚言語モデル(VLM)を1時間以内に学習できるように設計されています。MiniMind 言語モデルをベースに、新しいビジュアル...
12ヶ月前
062.6K
Step-Video-T2V:支持多语言输入和长视频生成的文生视频模型

Step-Video-T2V:多言語入力とロングビデオ生成をサポートするVincennesビデオモデル

総合紹介 Step-Video-T2VはStepFun AI (StepFun Star)による先進的なテキストから動画への変換モデルです。このモデルは30億のパラメータを持ち、最大204fpsの動画を生成することができます。深く圧縮された可変オートエンコーダ(VAE)により、このモデルは...
1年前
062.6K
XRAG:优化检索增强生成系统的可视化评估工具

XRAG:検索機能拡張生成システムの最適化のための視覚的評価ツール

包括的な紹介 XRAG(eXamining the Core)は、高度な検索機能拡張生成(RAG)システムの基本コンポーネントを評価するために設計されたベンチマークフレームワークです。各コアモジュールのプロファイリングと分析により、XRAGは、異なる構成やコンポーネントがRAGにどのような影響を与えるかについての情報を提供します。
1年前
062.6K
ConsisID:一张人像参考图,生成人物一致的视频,多终端快速集成

ConsisID:キャラクタ一貫性のある映像を生成するポートレート参照マップ、迅速な多端末統合

包括的な紹介 ConsisIDは、北京大学のYuan Rong氏のグループによって開発されたオープンソースプロジェクトであり、周波数分解技術によって、同一性のあるテキストからビデオへの生成(IPT2V)を実現することを目的としている。プロジェクトの中核は、DiT(Diffusion Transfor...
1年前
062.5K
Flashcard:基于Dify构建的单词闪卡外语学习工具,替代多邻国(Duolingo)

フラッシュカード:Duolingoに代わってDify上に構築された単語フラッシュカード外国語学習ツール

概要 Flashcardは、Duolingoに代わるオープンソースの言語学習ツールです。Steven Lynn (GitHub username: stvlynn) によって開発されたこのプロジェクトは、モダンなユーザーインターフェイスと多言語を特徴としています。
1年前
062.5K
CodeArena:开源LLM编程能力对比竞技场,实时查看最佳代码生成模型

CodeArena: オープンソースLLMプログラミング能力比較アリーナ、最適なコード生成モデルをリアルタイム表示

一般的な紹介 CodeArenaは、リアルタイムの対決を通じて最高のオープンソースコード生成モデル(LLM)を紹介するために設計されたユニークなプラットフォームです。ユーザーは、異なる LLM が同じプログラミング・タスクで競い合う様子を見たり、リアルタイム・リーダーボードを通じて最高のパフォーマンスを発揮したモデルを見ることができます。このプラットフォームは、Togetter...
1年前
062.5K
KBLaM:为大模型嵌入外部知识的开源增强工具

KBLaM:大規模モデルに外部知識を埋め込むためのオープンソース拡張ツール

KBLaMはマイクロソフトによって開発されたオープンソースプロジェクトで、正式名称は「知識ベース拡張言語モデル」(Knowledge Base Augmented Language Model)である。これは、外部の知識をベクトルに変換し、大規模なモデルに埋め込むことで、...
1年前
062.5K
AnimatedDrawings:儿童手绘涂鸦转换动画,自动化儿童绘画动画生成工具

AnimatedDrawings:子供の手描きの落書きをアニメーションに変換、子供のお絵かきアニメーション自動生成ツール

概論 AnimatedDrawingsはFacebook Researchによって開発されたオープンソースプロジェクトで、自動化技術によって子供の絵をアニメーションのキャラクターに変換する。このプロジェクトは、「A Method for A...
1年前
062.4K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun:ウェブデータを自動的にクロールし、APIやスプレッドシートに変換するオープンソースのコード不要プラットフォーム

包括的な紹介 Maxunはオープンソースのコード不要のウェブデータ抽出プラットフォームで、ウェブデータを自動的にクロールしてAPIやスプレッドシートに変換するロボットを数分で訓練することができます。このプラットフォームは、ページングとスクロールをサポートし、ウェブサイトのレイアウトの変更に適応し、強力なデータクローリングを提供します。
1年前
062.3K
Novel:模仿Notion AI的开源写作编辑器

小説:Notion AIを模倣したオープンソースのライティング・エディター

包括的な紹介 これは、Steven Teyによって開発されたオープンソースプロジェクトで、Novelと呼ばれ、NotionスタイルのWYSIWYGテキストエディタであり、ユーザーがテキスト入力の効率を向上させることができる統合されたAIの自動補完機能です。このプロジェクトは、詳細なドキュメントとインストール手順を提供します。
2年前
062.3K
RapBank:根据歌词和伴奏直接生成说唱(Rap)人声的模型(目前开放了数据集)

RapBank: 歌詞とバッキングトラックからラップ(Rap)ボーカルを直接生成するモデル(現在オープンデータセット)

概要 RapBankは、ラップ歌詞生成のために設計されたデータセットとツールセットです。このプロジェクトはNZqianによって作成され、YouTubeからラップ曲を収集・処理することで、研究者や開発者に高品質のラップ歌詞データを提供する。
1年前
062.3K
Kreuzberg:从任何文档中提取文本的开源工具

Kreuzberg: あらゆる文書からテキストを抽出するオープンソースツール

一般的な紹介 Kreuzbergは、PDFファイルからのテキスト抽出を簡素化するためのライブラリで、シンプルで手間のかからないテキスト抽出ソリューションを提供するように設計されています。このライブラリは、特にRAG(Retrieval-Augmented Generatio...
1年前
062.3K
Clevrr Computer:使用 PyAutoGUI 库实现自动化桌面操作智能体

Clevrr Computer: PyAutoGUIライブラリでデスクトップ操作のインテリジェンスを自動化する

一般的な紹介 Clevrr Computerは、PyAutoGUIライブラリを使用してシステム操作を自動化することを目的としたオープンソースプロジェクトです。このプロジェクトはAnthropicにインスパイアされ、PyAutoGUIライブラリを使用して正確かつ効率的に操作を実行できる自動化エージェントを設計しました。
1年前
062.3K
Aggregator:一站式代理爬取与聚合平台,免费代理池(请合规使用)

アグリゲーター:エージェントのクロールとアグリゲーションのワンストッププラットフォーム。

包括的な紹介 Aggregatorは、利用可能なプロキシノードの様々なクロールすることができます無料のプロキシプールを作成することを目的としたオープンソースのプロジェクトです。このプラットフォームは、柔軟なプラグインシステムを持って、ユーザーが特定の機能を実現するためにプラグインを介して、ターゲットサイトの特別なニーズに応じてすることができます。プロジェクトは、主にクロールすることを学ぶために使用されている...
1年前
062.3K
MeetingMind:依赖OpenAI Whisper的开源智能会议记录与总结工具

MeetingMind: OpenAI Whisperを利用したオープンソースのインテリジェント会議記録・要約ツール

はじめに MeetingMindは、ビジネスミーティングの記録と要約の効率を改善するために設計された高度なAIアプリケーションです。このアプリは、OpenAIのWhisperテクノロジーを統合して正確な音声テキスト化を実現し、IBM Watso...
1年前
062.3K
simple-one-api:一键集成多种免费大模型API,统一对外提供 OpenAI 接口

simple-one-api:様々な無料の大規模モデルAPIをワンクリックで統合、統一された外部OpenAIインターフェース

総合紹介 simple-one-apiは、複数のビッグモデルAPIの統合を簡素化するために設計されたオープンソースプロジェクトです。Thousand Sails Big Model Platform、Xunfei Starfire Big Model、Tencent Mixed Element、MiniMax、Deep-Seek...などのOpenAI互換APIをサポートしています。
1年前
062.2K
ChatAnyone:从照片生成半身数字人肖像视频的工具

ChatAnyone:写真から半身のデジタル人物ビデオを生成するツール

はじめに ChatAnyoneはHumanAIGCチームによって開発された革新的なプロジェクトです。人工知能技術を用いて、1枚の写真と音声入力から、上半身の動きを含むデジタル人物ビデオを生成する。このプロジェクトは、頭の動きを生成する階層的な動き拡散モデルに基づいています...
1年前
062.1K
PicMenu:文字菜单转换为美观的图文菜单

PicMenu:テキストメニューを美しいグラフィックメニューに変換する

総合紹介 PicMenuは、簡単な写真操作で従来の紙メニューを鮮やかで直感的な画像メニューに変換する革新的なAIツールです。各料理の高画質画像を自動生成するだけでなく、料理に関する豊富な情報を提供し、外食産業のデジタル変革に貢献します...
1年前
062.1K
MCP Server ChatSum:依赖MCP在Claude中查询和总结微信聊天消息

MCPサーバーChatSum: ClaudeでWeChatメッセージをクエリーし要約するためにMCPに頼る

一般的な紹介 MCPサーバー ChatSumは、ユーザーがチャットメッセージを照会し要約するために設計されたオープンソースプロジェクトです。このプロジェクトはGitHubでホストされており、ユーザーが特定のパラメータに基づいてチャットログを照会し、対応する要約を生成することができる強力なツールセットを提供します...
1年前
062K
Coding Agent:基于Langgraph构建的简单编程助手

コーディング・エージェント:Langgraph上に構築されたシンプルなプログラミング・アシスタント

概要 Coding AgentはAbhinavTheDevによって開発されたインテリジェントなプログラミングアシスタントで、開発者のプログラミング効率を向上させるために設計されています。このツールは、人工知能技術を使用して、コードを自動的に生成し、プログラミングの提案を行い、さまざまなコーディングで開発者を支援します。
1年前
062K
DeepClaude:融合DeepSeek R1链式推理与Claude创造力的聊天界面

DeepClaude:DeepSeekのR1チェーン推論とClaudeの創造性を融合したチャットインターフェース

包括的な紹介 DeepClaudeは、DeepSeek R1の連鎖推論(CoT)機能とAnthropic Claudeモデルの創造性とコード生成を統合した、高性能な大規模言語モデル(LLM)推論APIとチャット・インターフェースです...
1年前
062K
Story-Adapter:根据长篇故事生成连续且风格一致的图像插画

Story-Adapter:長いストーリーに基づき、連続的で一貫性のあるグラフィック・イラストレーションを生成します。

概論 Story-Adapterは、テキストストーリーを首尾一貫した画像シーケンスに変換する革新的なストーリー視覚化フレームワークである。研究者によって開発されたこのプロジェクトは、高品質のストーリーイラストを生成するためのトレーニングが不要な反復アプローチを採用している。このフレームワークの特徴は、長いストーリーを扱えることである。
1年前
061.9K
FiveThirtyNine:基于搜索知识对未来事件发生概率预测

FiveThirtyNine:検索知識に基づいて未来の出来事の確率を予測する

概論 Forecast AIは高度な人工知能技術に基づく優れた予測プラットフォームです。強力なデータ分析と機械学習アルゴリズムを駆使し、ユーザーに精度の高い未来予測を提供します。政治選挙、経済動向、社会的出来事のいずれであっても、Forecast ...
2年前
061.9K
AppAgent:利用多模态智能体自动操作智能手机

AppAgent:マルチモーダルインテリジェンスによるスマートフォンの自動操作

包括的な紹介 AppAgentは、スマートフォンのアプリケーションを操作するために設計されたLarge Language Model(LLM)ベースのマルチモーダルエージェントフレームワークです。このフレームワークは、簡素化された操作空間を通じて、タップやスワイプといった人間のインタラクションを模倣する。そのため、システムのバックエンドにアクセスする必要がなく、さまざまなアプリケーションでの利用が可能である。
1年前
061.8K
DeepSeek-RAG-Chatbot:本地运行的 DeepSeek RAG 聊天机器人

DeepSeek-RAG-Chatbot: ローカルで動作する DeepSeek RAG チャットボット

一般的な紹介 DeepSeek-RAG-Chatbotは、GitHubでホストされているDeepSeek R1モデルに基づいて構築されたオープンソースのチャットボットプロジェクトで、開発者のSaiAkhil066によって作成されました。DeepSeek-RAG-Chatbotは、拡張された生成...
1年前
061.8K
Dolphin:面向亚洲语言识别与语音转文本模型

ドルフィン:アジア言語認識とアジア言語のための音声テキストモデル

総合紹介 Dolphinは、DataoceanAIと清華大学によって開発された、アジア言語の音声認識と言語認識に特化したオープンソースモデルです。東アジア、南アジア、東南アジア、中東の40の言語と22の中国語方言をサポートしています。
1年前
061.8K
Optexity:用人类演示训练AI执行网页操作的开源项目

Optexity:人間の実演を見ながらウェブ操作を行うAIを訓練するオープンソースプロジェクト

概論 OptexityはGitHub上のオープンソースプロジェクトで、Optexityチームによって開発されている。このプロジェクトの核心は、人間のデモ・データを使って、コンピュータ・タスク、特にウェブ・ページ操作をこなすAIを訓練することである。このプロジェクトには3つのコードライブラリが含まれている。
1年前
061.7K
DCT-Net:照片和视频转绘为动漫风格化的开源工具

DCT-Net:写真やビデオをスタイリッシュなアニメに変換するオープンソースツール

概説 DCT-Netは、DAMOアカデミーと北京大学王宣コンピューター技術研究所によって開発されたオープンソースプロジェクトで、画像のアニメスタイル変換を目的としている。このプロジェクトは、ディープラーニング技術を活用し、ドメインキャリブレーション翻訳(Domain-Calibrat...
1年前
061.7K

「常時稼働のDeepseek AIアシスタント:Deepseek-V3に基づくインテリジェントな音声対話システムの構築

総合紹介 Always-On AI Assistantは、Deepseek-V3、RealtimeSTT、Typerなどの先進技術を統合することで、強力で永続的なオンラインAIアシスタントシステムを構築する革新的なAIアシスタントプロジェクトです。
1年前
061.7K
MIDI-3D:从单张图片快速生成多物体3D场景的开源工具

MIDI-3D: 1枚の画像からマルチオブジェクトの3Dシーンを高速生成するオープンソースツール

一般的な紹介 MIDI-3DはVAST-AI-Researchチームによって開発されたオープンソースプロジェクトで、開発者、研究者、クリエイターのために1つの画像から複数のオブジェクトを含む3Dシーンを素早く生成します。このツールはマルチインスタンス拡散モデリング技術に基づいています。
1年前
061.7K
Klavis AI:面向AI应用的模型上下文协议(MCP)集成工具

Klavis AI: AIアプリケーションのためのモデルコンテキストプロトコル(MCP)統合ツール

概論 Klavis AIは、AIアプリケーションが外部のツールやデータソースと動的に接続することを可能にするオープンスタンダードであるモデルコンテキストプロトコル(MCP)の使用と統合を簡素化することに焦点を当てたオープンソースプラットフォームです。
11ヶ月前
061.7K
Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

Ichigo (llama3-s): ローカルリアルタイム音声AIアシスタント、オープンソース版Siri

はじめに Ichigoはオープンソースのリアルタイム音声AIプロジェクトで、テキストベースの言語モデルをネイティブな「聞き取り」機能で拡張することを目的としています。このプロジェクトでは、MetaのChameleon論文にインスパイアされた初期のフュージョン技術を使用している。
1年前
061.7K
pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版

pdf2htmlEX: テキストフォーマットを維持したまま、PDFをHTMLにロスレス変換。

包括的な紹介 pdf2htmlEXは、PDFファイルをHTML形式に変換するために設計されたオープンソースのツールであり、PDFファイルの内容を分析し、HTML + CSSを使用して正確にその視覚効果を復元することにより、PDF文書は、ブラウザに変換されます。
1年前
061.7K
InfiniteYou:保留人脸特征的照片生成与编辑工具

InfiniteYou:顔の特徴を保持する写真生成・編集ツール

概要 InfiniteYouは、ByteDance Intelligent Creationチームによって開発されたオープンソースプロジェクトです。拡散トランスフォーマー(DiTs)技術に基づき、FLUX.1-devモデルを使用しています。主な機能は、ユーザーが写真をアップロードし、テキストの説明を入力することで、写真を生成することです。
1年前
061.7K
Agentic Security:开源的LLM漏洞扫描工具,提供全面的模糊测试和攻击技术

Agentic Security: オープンソースのLLM脆弱性スキャンツール。

概要 Agentic Securityは、開発者やセキュリティ専門家に包括的なファズテストと攻撃技術を提供するために設計されたオープンソースのLLM(Large Language Model)脆弱性スキャンツールです。このツールは、カスタムルールセットやエージェントベースの攻撃をサポートし、LLM APを統合することができます。
1年前
061.6K
Taipy:为数据科学家打造的高效数据分析与AI应用开源Python库

Taipy: 効率的なデータ分析とAIアプリケーションのためのデータサイエンティスト向けPythonオープンソースライブラリ

概要 TaipyはAvaiga社によって開発された強力なPythonライブラリで、データ科学者や機械学習エンジニアがデータ駆動型のWebアプリケーションを迅速に構築・展開できるように設計されています。
1年前
061.6K
Agenta:集成到AI应用的提示词与模型效果评估工具

Agenta:AIアプリケーションに統合されたキューワードとモデルの効果を評価するツール

包括的な紹介 AgentaはオープンソースのAIモデル管理ツールで、ユーザが簡単にキューワードを使って実験したり、モデルの効果をテストしたり、実行をモニターしたりできるように設計されています。AIアプリケーションを素早く開発したい人に適しており、操作が簡単なプラットフォームを提供します。様々なキューワードの効果を試すことができます。
1年前
061.6K
AIEditor:创建AI驱动的富文本编辑器,支持多种前端框架

AIEditor: 複数のフロントエンドフレームワークをサポートするAI駆動型リッチテキストエディタの作成

包括的な紹介 AIEditorは、Webコンポーネント開発に基づいて、Vue、React、Angularおよび他のほとんどすべての主流のフロントエンドフレームワークをサポートしているAI駆動型の次世代リッチテキストエディタです。PCのWebと...
1年前
061.5K
SVFR:实现视频人脸修复的统一框架,修复黑白、模糊的人像老视频

SVFR:ビデオ顔修復を実装する統一フレームワーク、白黒、ぼやけたポートレート古いビデオの修復

包括的な紹介 SVFR(Stable Video Face Restoration)は、基本顔復元(Basic Face Restoration: BFR)、色付け、修復、およびそれらの組み合わせタスクをサポートする、ビデオ顔復元のための統一フレームワークである。このフレームワークは、生成的プリオールと運動学的プリオールを利用し...
1年前
061.5K
VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

VideoChat:カスタムイメージとトーンクローニングによるリアルタイムの音声対話型デジタルパーソンは、エンドツーエンドの音声ソリューションとカスケードソリューションをサポートします。

概要 VideoChatは、オープンソース技術に基づくリアルタイム音声対話デジタルパーソンプロジェクトで、エンドツーエンドの音声スキーム(GLM-4-Voice - THG)とカスケードスキーム(ASR-LLM-TTS-THG)の両方をサポートしています。このプロジェクトでは、ユーザーがデジタルパーソンをカスタマイズすることができます。
1年前
061.5K
Audiblez:生成有声书,使用Kokoro将电子书转换为有声读物

Audiblez: ココロでオーディオブックを作成、電子書籍をオーディオブックに変換

概要 Audiblezは、電子書籍(.epub形式など)をオーディオブック(.m4b形式など)に変換するためのオープンソースプロジェクトです。Kokoroの高品質音声合成技術を利用し、多言語・多音声をサポートしています。ユーザーは単純に...
1年前
061.4K
Quick Prompt:快速管理和使用提示词的浏览器扩展

Quick Prompt: プロンプトを素早く管理・使用するためのブラウザ拡張機能

General Quick Promptはプロンプトの管理と高速入力に特化したオープンソースのブラウザ拡張機能です。ユーザーはプロンプトのライブラリを作成、整理、保存し、プリセットされたプロンプトコンテンツをウェブページの入力ボックスに素早く挿入することができます。このツールは特に...
11ヶ月前
061.4K
VideoSeal:先进的开源视频隐藏水印嵌入与提取工具,保护视频版权

VideoSeal: ビデオ著作権を保護する高度なオープンソースビデオ隠し透かし埋め込み・抽出ツール

一般的な紹介 VideoSealはFacebook Researchによって開発されたオープンソースのビデオ透かしツールであり、効率的なビデオ透かしの埋め込みと抽出を提供するように設計されている。このツールは、最新のオープンソースモデルをサポートし、事前学習済みモデル、学習コード、推論コード、評価ツールを含んでいます。
1年前
061.4K
EchoMimic:音频驱动人像照片生成说话视频(EchoMimicV2加速版安装包)

EchoMimic: 音声駆動ポートレートによるトーキングビデオ生成 (EchoMimicV2 アクセラレータ)

概要 EchoMimicは、音声によってリアルなポートレートアニメーションを生成するために設計されたオープンソースプロジェクトです。AntグループのTerminal Technologies部門によって開発されたこのプロジェクトは、編集可能なマーカーポイント条件を利用し、音声と顔のマーカーポイントを組み合わせて、ダイナミックなポートレート動画を生成します。
1年前
061.4K
Cosmos:世界基础模型,构建物理世界的人工智能基础模型平台

Cosmos:ワールド・ベース・モデル、物理世界のAIベース・モデルを構築するためのプラットフォーム

包括的な紹介 NVIDIA Cosmosは開発者向けのワールドベースのモデリング・プラットフォームであり、物理AI開発者がより良く、より速く物理AIシステムを構築できるように特別に設計されています。このプラットフォームは、拡散モデルや自己回帰モデルなど、さまざまな訓練済みモデルを提供します。
1年前
061.4K