AIオープンソースプロジェクト

合計1020記事
IOPaint:全能AI图像处理工具,擦除、扩图、替换元素与绘制文本

IOPaint:オールラウンドなAI画像処理ツールで、要素の消去、拡大、置換、テキストの描画が可能です。

概要 IOPaintは、画像の消去、修復、拡大をサポートする、フリーでオープンソースのAI画像処理ツールです。最先端のAIモデルを使用し、画像から不要なオブジェクトを簡単に削除したり、キズを修復したり、新しいコンテンツを追加したり、画像を拡大したりすることができます。
10ヶ月前
010.8K
Auto-Deep-Research:多Agent协作执行文献查询并生成研究报告

オートディープリサーチ:マルチエージェント連携による文献検索と研究報告書の作成

概説 Auto-Deep-Researchは、香港大学データインテリジェンス研究所(HKUDS)によって開発されたオープンソースのAIツールであり、ユーザーがディープリサーチタスクを自動化することを目的としている。AutoAgentフレームワークをベースに構築されており、複数の大規模言語モデルをサポートしている。
4ヶ月前
04.5K
Roo Code(Roo Cline):基于Cline的增强版自主编程助手,智能化IDE编程助手

Roo Code (Roo Cline): Clineをベースに強化された自律型プログラミングアシスタント、インテリジェントIDEプログラミングアシスタント

概要 Roo Code(旧Roo Cline)Roo Code(Roo Cline)は、VS Codeの強力な拡張プラグインであるClineをベースに強化された自律型プログラミングアシスタントです。このツールは、あなたのセットで使用することができます...
7ヶ月前
04K
Cherry Studio:集成API/Web/本地模型的AI助手桌面客户端

Cherry Studio:API/Web/ローカルモデルを統合したAIアシスタント用デスクトップクライアント

概要 Cherry StudioはLarge Language Model (LLM)サービスを幅広くサポートするデスクトップクライアントで、Windows、Mac、Linuxシステムに対応しています。豊富なパーソナライズオプションと最先端の機能を提供し、さまざまな場面でユーザーを支援するように設計されています...
6ヶ月前
03.8K
CosyVoice:阿里推出的3秒急速语音克隆开源项目,支持情感控制标签

CosyVoice:3秒間の突進ボイス・クローニング・オープンソース・プロジェクトがアリによって立ち上げられる。

包括的な紹介 CosyVoiceは、推論、トレーニングからデプロイまでフルスタックの機能を提供する多言語大規模音声生成モデルです。FunAudioLLMチームによって開発され、高度な自己回帰変換器とODEベースの拡散モデルにより、高品質な音声の実現を目指しています。
6ヶ月前
03.7K
Riona-AI-Agent:社交媒体自动化互动智能体,自动搜索、点赞、留言

Riona-AI-Agent: 自動的に検索、いいね!、メッセージを残すソーシャルメディア自動対話型インテリジェンス

概要 Riona-AI-Agentは、主要なソーシャルメディア・プラットフォームの運用を管理・最適化するために特別に設計された、AIを搭載した革新的な自動化ツールです。このプロジェクトは、Instagram、Twitter、GitHub などのプラットフォーム用の高度な AI モデルを利用して、...
6ヶ月前
03.4K
LlamaCoder:使用提示词快速生成并发布小型web应用

LlamaCoder: プロンプトワードを使って小さなウェブアプリケーションを素早く生成・公開

一般的な紹介 LlamaCoderは、Llama 3.1とTogether AIをベースにしたオープンソースのコード生成ツールです。LlamaCoderは、Llama 3.1とTogether AIをベースにしたオープンソースのコード生成ツールです。
8ヶ月前
03.4K
OpenHands:AI 驱动的软件开发多智能代理助手,覆盖开发者各类操作

OpenHands:ソフトウェア開発のためのAI駆動型マルチインテリジェントエージェントアシスタント。

概論 OpenHandsはAll-Hands-AIチームによって開発されたオープンソースプロジェクトで、AI技術によってソフトウェア開発プロセスを効率化することを目的としている。以前はOpenDevinとして知られ、現在はOpenHandsと改名されたこのプラットフォームは、強力なAI技術を提供します。
7ヶ月前
03.3K
Sherpa-ONNX:使用ONNXRuntime实现离线语音识别和合成

Sherpa-ONNX: ONNXRuntimeによるオフライン音声認識と合成

概要 sherpa-onnxは、Next-gen Kaldiチームによって開発されたオープンソースプロジェクトで、効率的なオフライン音声認識および音声合成ソリューションを提供します。Android、iOS、Raspber...など複数のプラットフォームをサポートしています。
7ヶ月前
03.3K
视频分析工具(Video Analyzer):分析视频内容并生成详细描述

ビデオアナライザー:ビデオコンテンツを分析し、詳細な説明を生成します。

Comprehensive Introduction Video Analyzerは、コンピュータ・ビジョン、音声転写、自然言語処理技術を組み合わせて、詳細なビデオ・コンテンツの説明を生成する、総合的なビデオ分析ツールです。このツールは、動画から主要なフレームを抽出し、音声コンテンツを書き起こします。
6ヶ月前
03.2K
GitDiagram:可视化GitHub代码库结构,将代码仓库转换为交互式系统架构图

GitDiagram: GitHubコードベースの構造を視覚化し、コードリポジトリをインタラクティブなシステムアーキテクチャ図に変換します。

概要 GitDiagramは、GitHubのコードベースを可視化する革新的なツールで、GitHubのリポジトリをインタラクティブなシステムアーキテクチャ図に素早く変換します。先進的なAI技術(Claude 3.5 Sonnet)を使用し、開発者に...
7ヶ月前
03.2K
EXO:利用闲置家用设备运行分布式AI集群,支持多种推理引擎和自动设备发现。

EXO:アイドル状態の家庭用デバイスを使用して分散AIクラスタを実行し、複数の推論エンジンとデバイスの自動検出をサポートする。

一般的な紹介 Exoは、日常的なデバイス(iPhone、iPad、Android、Mac、Linuxなど)を使用して独自のAIクラスタを実行するように設計されたオープンソースプロジェクトです。動的なモデル分割と自動化されたデバイス検出により、Exoは複数のデバイスを1つの強力な...
8ヶ月前
03.1K
cognee:基于知识图谱构建的RAG开源框架,核心prompts学习

cognee:知識グラフベースのRAG構築のためのオープンソースフレームワーク、コアプロンプト学習

概要 CogneeはAIアプリケーションとAIエージェントのために設計された信頼性の高いデータレイヤーソリューションです。LLM(大規模言語モデル)コンテキストのロードと構築を行い、ナレッジグラフとベクトルストアを通じて正確で解釈可能なAIソリューションを作成するように設計されています。このフレームワークは、コスト削減、解釈可能な...
7ヶ月前
03.1K
Kokoro TTS API:快速文本转语音的Docker化FastAPI封装(Kokoro-82M模型)

ココロTTS API: 高速音声合成のためのDocker化FastAPIラッパー (ココロ-82Mモデル)

概要 Kokoro-FastAPIは、Kokoro-82M音声合成モデルをサポートするために設計されたDockerベースのFastAPIラッパーです。このプロジェクトはNVIDIA GPUアクセラレーションをサポートし、キュー処理と自動スプライシングを提供します。
7ヶ月前
03.1K
Dify:生成式AI应用开发平台,可视化编排, 支持私有化部署

Dify: ジェネレーティブAIアプリケーション開発プラットフォーム、ビジュアルオーケストレーション、プライベートデプロイメントサポート

包括的な紹介 DifyはオープンソースのジェネレーティブAIアプリケーション開発プラットフォームで、開発者が大規模言語モデル(LLM)に基づくネイティブAIアプリケーションを迅速に構築・運用できるように設計されています。このプラットフォームは、エージェントの構築からAIワークフローのオーケストレーション、RAG検索...
7ヶ月前
03K
Dify Connect MCP:Dify 工作流无缝集成 MCP(模型上下文协议)

Dify Connect MCP: DifyワークフローへのMCP(モデルコンテキストプロトコル)のシームレスな統合

概要 Dify Connect MCPは、GitHubでホストされているオープンソースプロジェクトで、Difyプラットフォームのユーザーにモデルコンテキストプロトコル(MCP)を通じてモデリングするための便利なツールを提供することを目的としています...
5ヶ月前
03K
Cobalt:万能视频下载器,YouTube、Vimeo、Twitter、Reddit、SoundCloud等

Cobalt:ユニバーサルビデオダウンローダー、YouTube、Vimeo、Twitter、Reddit、SoundCloudなど!

Cobaltは、ユーザーフレンドリーなダウンロード体験を提供するために設計されたオープンソースのメディアダウンローダーです。Cobaltは、ユーザーフレンドリーなダウンロード体験を提供するように設計されたオープンソースのメディアダウンローダです。
8ヶ月前
03K
XHS-Downloader:免费小红书数据采集工具,支持笔记批量下载、视频提取、图片去水印

XHS-Downloader:無料小洪集データ収集ツール、サポートノート一括ダウンロード、ビデオ抽出、画像透かし処理

概論 XHS-DownloaderはXiaohongshuユーザーのために設計されたオープンソースツールで、Xiaohongshu上で透かしのない画像や動画作品の抽出とダウンロードをサポートします。このツールは、ブラウザからクッキーを取得したり、コマンドライン操作をサポートしたり、一括ダウンロード...など、様々な機能を提供します。
12ヶ月前
03K
Smolagents:AIインテリジェンスの迅速な開発とインテリジェンスの軽量化のためのオープンソースプロジェクト

Smolagents:AIインテリジェンスの迅速な開発とインテリジェンスの軽量化のためのオープンソースプロジェクト

包括的な紹介 Smolagentsは、HuggingFaceによって開発された軽量インテリジェントエージェントライブラリで、AIエージェントシステムの開発プロセスを簡素化することに重点を置いています。このプロジェクトは、約1000行のコアコードしかないシンプルな設計思想で知られていますが、強力な機能統合機能を提供しています。このライブラリの最も ...
7ヶ月前
03K
Obsidian Copilot:在Obsidian中使用AI助手体验智能化笔记助手

オブシディアン・コパイロット:オブシディアンのAIアシスタントでインテリジェントなノートテイクアシスタントを体験しよう

概論 Obsidian CopilotはObsidian Notesソフトウェア用の強力なAIアシスタントプラグインで、Obsidian NotesのワークフローにOpenAIのインテリジェンスをシームレスに統合します。このプラグインは、開発者のLogan Yang...によって作成されました。
8ヶ月前
03K
Page Assist:本地AI模型对话与检索文档的网页助手插件

Page Assist: ネイティブAIモデルの対話とドキュメントの検索のためのウェブアシスタントプラグイン

概要 Page Assistは、ローカルのAIモデルと対話する簡単な方法をユーザーに提供するために設計されたオープンソースのブラウザ拡張機能です。この拡張機能を使うと、ユーザーはどのウェブページでもサイドバーを開き、ローカルで動作しているAIモデルと対話することができます。
4ヶ月前
03K
Browser Use Web UI:运行AI智能体浏览网页,让AI能够自动操作网页的开源框架

Browser Use Web UI: AIインテリジェンスがウェブをブラウズするためのオープンソースフレームワーク。

概要 ブラウザユースWeb UIは、AIエージェントにグラフィカルインターフェースツールとしてブラウザインタラクション機能を提供することに焦点を当てた革新的なオープンソースプロジェクトです。このプロジェクトは、ブラウザユースコアフレームワークの上に構築されており、Gradio ...
2ヶ月前
02.9K
HeyGem:硅基智能开源的 Heygen 数字人平替产品

HeyGem:シリコン・インテリジェンスのオープンソースHeygenデジタル・ヒューマン・ピンクッション製品

概論 HeyGemはWindowsシステム用に設計された完全オフラインのビデオ合成ツールで、GuijiAI (Silicon Intelligence)チームによって開発され、GitHubでオープンソース化されています。高度なAIアルゴリズムを使用し、ユーザーの外見と声を正確にクローニングします。
2ヶ月前
02.9K
MuseV+Muse Talk:完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步

MuseV+Muse Talk:完全なデジタルヒューマンビデオ生成フレームワーク|ポートレートからビデオへ|ポーズからビデオへ|リップシンク

一般的な紹介 MuseVはGitHubで公開されているプロジェクトで、長さ無制限で忠実度の高いアバター動画生成を目的としています。拡散技術に基づいており、Image2Video、Text2Image2Video、Video2Video...を提供します。
8ヶ月前
02.9K
PraisonAI:低代码多智能体框架,简化复杂任务的自动化解决方案

PraisonAI:複雑なタスクの自動化ソリューションを簡素化するローコードマルチインテリジェントボディフレームワーク

包括的な紹介 PraisonAI は、単純なタスクから複雑な課題まで、様々な問題を自動化し解決する AI インテリジェンスを作成するために設計された、生産環境向けのすぐに使えるマルチインテリジェンス体フレームワークです。このフレームワークは、マルチインテリジェントボディ LLM システムの構築を簡素化するローコードソリューションを提供し、...
6ヶ月前
02.9K
Continue:与VS Code集成并自定义模型和embedding的开源AI代码助手

Continue:VSコードと統合し、モデルと埋め込みをカスタマイズするオープンソースのAIコードアシスタント

一般的な紹介 Continueは、ソフトウェア開発者の効率を向上させるために設計されたオープンソースのAIコードアシスタントです。主な機能として、コードの自動補完、コードの最適化、VS CodeとJetBrains IDE用のインテリジェントなコード提案があります。
6ヶ月前
02.9K
Ollama OCR:使用Ollama中视觉模型提取图像中的文本

Ollama OCR: Ollamaの視覚モデルを使った画像からのテキスト抽出

包括的な紹介 Ollama OCRは、Ollamaプラットフォームが提供する最先端の視覚言語モデルを使用して画像からテキストを抽出する、強力な光学式文字認識(OCR)ツールキットです。このプロジェクトはPythonパッケージとして提供されており、ユーザーフレンドリーなストリー...
7ヶ月前
02.9K
TableGPT2:表格数据集成的多模态模型

TableGPT2: 表形式データ統合のためのマルチモーダルモデル

包括的な紹介 TableGPT2は浙江大学のチームによって開発されたマルチモーダルモデルで、表形式データの統合と処理に焦点を当てている。このモデルは、強力な汎用言語とコーディング能力を維持しながら、表データ関連のタスクで優れた性能を発揮できるよう、事前に訓練され、微調整されている。
9ヶ月前
02.9K
GraphRAG-Dify:让Dify具备GraphRAG能力

GraphRAG-Dify:DifyにGraphRAGの機能を装備する

包括的な紹介 GraphRAG-Difyは、GraphRAGとDifyの技術を組み合わせて、AIエージェントを素早く作成し、デプロイするために設計されたオープンソースプロジェクトです。このプロジェクトでは、サービス構築にFastAPIとUvicornを使用し、DSLのインポートをサポートしています。
9ヶ月前
02.9K
Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR

Docling:様々なフォーマットのドキュメントをサポート MarkdownやJSONへの解析とエクスポート PDFサポート OCR

包括的な紹介 Doclingは、PDF、DOCX、PPTX、XLSX、画像、HTML、AsciiDocおよびMarkdownを含む幅広い文書形式をサポートする強力な文書解析およびエクスポートツールです。
8ヶ月前
02.9K
Dify 工作流 DSL 文件合集下载

Dify Workflow DSL File Collection ダウンロード

概要 Awesome-Dify-Workflowは、便利なDifyワークフローテンプレートの共有に焦点を当てたオープンソースのGitHubプロジェクトです。Difyは大規模な言語モデリングアプリケーションの開発をサポートするワークフロープラットフォームであり、このプロジェクトはユーザーに...
4ヶ月前
02.9K
Kolors Virtual Try On:高效的虚拟试穿/模特换装,文本到图像生成模型

Kolorsバーチャル試着:効率的なバーチャル試着/モデル着せ替え、テキストから画像生成モデル

概要 Kolors Virtual Try-Onは、Kwai-KolorsチームによるHugging Faceプラットフォーム上のバーチャル試着アプリです。このアプリは、高度な人工知能技術を使って、ユーザーがバーチャル試着をするのを手助けします。
8ヶ月前
02.9K
Easy-Wav2Lip:高质量视频唇同步的工具,优化版Wav2Lip

Easy-Wav2Lip: Wav2Lipに最適化された高品質ビデオリップ同期ツール

はじめに Easy-Wav2LipはWav2Lipをベースに改良されたツールで、ビデオのリップシンクのプロセスを簡素化するように設計されています。このツールは、Google Colabとローカルインストールをサポートし、よりシンプルなセットアップと実装を提供します。アルゴリズムを最適化することで、Ea...
8ヶ月前
02.9K
Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

Browser-Use:AIインテリジェントがブラウザを簡単に操作するためのインテリジェント・ウェブ・オートメーション・ツールの構築

包括的な紹介 Browser-Useは、言語モデル(LLM)がウェブサイトと自然に対話できるように特別に設計された、革新的なオープンソースのウェブ自動化ツールです。強力で柔軟なフレームワークを提供し、GPT-4、Claud...などの主流の言語モデルを幅広くサポートします。
8ヶ月前
02.8K
E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一

E2M: 複数のファイル形式をMarkdownに変換し、簡単に統一されたドキュメントフォーマットを実現する

概要 E2M (Everything to Markdown)は、様々なファイルフォーマットをMarkdownフォーマットに変換するために設計されたオープンソースのPythonライブラリです。このツールは、doc、docx、epub、html、htm、u...などのフォーマットをサポートしています。
8ヶ月前
02.8K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools:音声字幕ツール、Cutscene、Racer、Must-Cutへのインターフェースを内蔵した軽量クライアント

包括的な紹介 AsrToolsはCutscene、Racer、Must Cutなどの大手メーカーのインタフェースを内蔵したインテリジェントな音声テキスト変換ツールです。PyQt5をベースに開発されており、美しくユーザーフレンドリーなインターフェイスで、SRTやTXT形式の単語を出力することができます。
10ヶ月前
02.8K
ComfyUI Portrait Master 中文版:优化肖像生成的提示词工具

ComfyUI ポートレートマスター中国語版:似顔絵生成を最適化するキューワードツール

はじめに ComfyUI Portrait Master 中国語版は、AI画像クリエイターのために設計された似顔絵キューワード生成ツールです。このツールは、ユーザーがキューワードを最適化することによって、高品質の似顔絵を生成するのに役立ちます。ユーザーは、要求に応じて異なるレンズを選択することができます...
11ヶ月前
02.8K
Wav2Lip:开源高精度口型同步生成工具(推荐)

Wav2Lip: オープンソースの高精度リップシンク生成ツール(推奨)

一般的な紹介 Wav2Lipはオープンソースの高精度リップシンク生成ツールで、任意のオーディオとビデオのリップシンクを正確に同期させるように設計されています。このツールはRudrabha MukhopadhyayらによってACM Multimedia 20...で開発されました。
7ヶ月前
02.8K
FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

FunASR: オープンソース音声認識ツールキット、話者分離/多人数対話音声認識

総合紹介 FunASRはAlibaba Dharmo Academyが学術研究と産業応用の橋渡しをするために開発したオープンソースの音声認識ツールキットです。音声認識(ASR)、音声終点検出(VAD)、句読点復元、言語モデリング、スピーキング...など、幅広い音声認識機能をサポートしています。
10ヶ月前
02.8K
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

OpenAI Realtime Agents: マルチインテリジェントなボディスピーチインタラクションアプリケーション(OpenAIの例)

概論 OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した)高レベルのインテリジェントボディモデルを提供し、...
7ヶ月前
02.8K
ElizaOS:构建自主执行的多智能体,功能完备的开源AI智能体开发框架

ElizaOS: 自律実行型マルチインテリジェントの構築、完全機能のオープンソースAIインテリジェントボディ開発フレームワーク

包括的な紹介 Elizaは先進的なマルチインテリジェントボディ(マルチエージェント)開発フレームワークで、自律的なインテリジェントボディ(自律エージェント)の構築と展開プロセスを簡素化することに取り組んでいます。異なる役割設定を持つ複数のインテリジェントボディの配置をサポートし、インテリジェントな...
7ヶ月前
02.8K
Cursor Reset:重置 Cursor 0.45.x 以上版本设备标识的脚本

Cursor Reset: Cursorバージョン0.45.x以上のデバイス識別子をリセットするスクリプト。

概要 Cursor Reset は、Cursor IDE でデバイス識別子をリセットするための PowerShell スクリプト・ツールで、Cursor バージョン 0.45.x をサポートしています。このツールは、ユーザーが Cursor IDE のデバイス識別子をリセットできるように設計されています。
6ヶ月前
02.8K
腾讯混元3D(Hunyuan3D):生成高分辨率3D资产,多种3D素材生成工作流

Tencent Hybrid 3D(Hunyuan3D):高解像度3Dアセットの生成、複数の3Dマテリアル生成ワークフロー

包括的な紹介 Tencent Hunyuan3D (Hunyuan3D 2.0)は、高解像度のテクスチャ3Dアセットを生成するために設計されたTencentの高度な大規模3D合成システムです。Hunyuan3D-DiTは大規模な形状生成モデルで、Hunyuan3D-DiTは大規模なテクスチャ生成モデルです。
7ヶ月前
02.7K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

概要 Chunkrは、PDF、PPTX、DOCX、ExcelファイルをRAG(Retrieval Augmented Generation)やLLM(Large Language Modelling)で使用するのに適したデータに変換するためのセルフホストAPIです。このプロジェクトはLumina...によって開発されました。
8ヶ月前
02.7K
AI Hedge Fund:开源自动化交易系统,利用多智能体进行复杂对冲基金交易决策

AIヘッジファンド:複雑なヘッジファンド取引の意思決定に複数の知性を利用するオープンソースの自動取引システム

一般的な紹介 AIヘッジファンドは、マルチ・エージェント・システムを利用して取引の意思決定を行う人工知能ヘッジファンドである。このシステムは、マーケット・データ・エージェント、クオンツ・エージェント、リスク管理エージェント、ポートフォリオ管理エージェントなど、複数の専門エージェントと連携し、複雑な取引を実現する。
7ヶ月前
02.7K
Memary:利用知识图谱增强Agent长期记忆的开源项目

Memary:知識グラフを使ってエージェントの長期記憶を強化するオープンソースプロジェクト

概要 Memaryは、自律型知能に長期的なメモリ管理ソリューションを提供することに焦点を当てた、革新的なオープンソースプロジェクトです。このプロジェクトは、インテリジェンスが従来のコンテキストウィンドウの限界を突破し、知識グラフと特殊化されたメモリモジュールを通じて、よりスマートなインタラクション体験を実現できるよう支援する。
7ヶ月前
02.7K
OpenBB:开源金融数据分析平台,集成私有数据集和 AI 来增强投资决策

OpenBB: プライベートデータとAIを統合し、投資の意思決定を強化するオープンソースの金融データ分析プラットフォーム

概要 OpenBBは、すべての人に金融データと分析ツールへの簡単なアクセスを提供するために設計された、無料で完全にオープンソースの金融データ分析プラットフォームです。このプラットフォームは、株式、オプション、暗号通貨、外国為替、マクロ経済指標、固定...をカバーする100以上の異なるデータソースを統合しています。
7ヶ月前
02.7K
Chatbot UI:模仿ChatGPT界面和功能的开源AI聊天应用程序

チャットボットUI:ChatGPTのインターフェースと機能を模倣したオープンソースのAIチャットアプリ

一般的な紹介 Chatbot UIは、開発者がパーソナライズされたインテリジェントな会話インターフェースを作成できるように設計されたオープンソースプロジェクトです。このプロジェクトは、ユーザーにより流暢でインテリジェントな対話体を提供するために、既存のチャットボットシステムに簡単に統合できる一連のインターフェースコンポーネントと対話機能を提供します。
11ヶ月前
02.7K
Screenshot to Code:将截图转换为干净前端代码的AI工具

スクリーンショットをコードに:スクリーンショットをクリーンなフロントエンドコードに変換するAIツール

概要 Screenshot-to-Codeは、人工知能を使用してスクリーンショット、デザインドラフト、Figmaデザインをクリーンで機能的なコードに変換するオープンソースツールです。このツールは、HTML、Tailwind CS...など、複数のフロントエンド技術スタックをサポートしています。
9ヶ月前
02.7K
DeOldify:使用AI技术为黑白照片和视频上色的经典开源工具

DeOldify:モノクロ写真やビデオをAI技術でカラー化する定番のオープンソースツール

包括的な紹介 DeOldifyは、白黒写真やビデオのインテリジェントな着色と復元に特化した、ディープラーニング技術に基づくオープンソースプロジェクトです。このプロジェクトは、革新的なNoGAN学習方法を用いて、画像の着色プロセスにおける従来のGANネットワークの一般的な欠点を解決することに成功しています...
8ヶ月前
02.7K
Paperless-AI:使用AI自动分析和标记文档,适用 paperless-ngx 文档管理系统

Paperless-AI: Paperless-NGX文書管理システムのためのAIを使った文書の自動分析とタグ付け

概要 Paperless-AIは、Paperless-ngx文書管理システム専用に設計された革新的な文書自動化分析ツールです。このツールは、OpenAI APIとOllama...のような様々な高度なAIモデルを巧みに組み合わせています。
7ヶ月前
02.7K
GitIngest:快速将Github代码仓库转为适合LLM理解的文本

GitIngest: GithubのコードリポジトリをLLMの理解に適したテキストに素早く変換

概要 GitIngestは、GitHubのコードリポジトリをLarge Language Model (LLM)のヒントに適したテキストに変換するためのオープンソースツールです。簡単な操作で、あらゆるGitHubリポジトリの内容を抽出し、LLMヒントに適合するように整形することができます。
8ヶ月前
02.7K
RAGFlow:基于深度文档理解的开源RAG引擎,提供高效的检索增强生成工作流

RAGFlow: 深い文書理解に基づくオープンソースのRAGエンジンで、効率的な検索強化生成ワークフローを提供します。

包括的な紹介 RAGFlowは、深い文書理解技術に基づいたオープンソースのRAG(Retrieval Augmented Generation)エンジンです。RAGFlowは、あらゆる規模の企業向けに効率的なRAGワークフローを提供し、実際の文書に基づいた複雑な形式のデータを提供できる大規模言語モデル(LLM)を組み込んでいます。
7ヶ月前
02.7K
AI Chatbot Supabase:开源的Next.js和Supabase构建的AI聊天机器人,快速部署到Vercel。

AIチャットボット Supabase: オープンソースのNext.jsとSupabaseで構築されたAIチャットボットをVercelに迅速に導入。

概要 AIチャットボット Supabaseは、Next.jsとSupabaseで構築されたオープンソースのAIチャットボットテンプレートです。Vercelによって開発されたこのプロジェクトは、完全に機能的でカスタマイズ可能なチャットボットソリューションを提供することを目的としています。...
8ヶ月前
02.7K
Gemini-OpenAI:反代Gemini地址绕过区域限制并转换为OpenAI兼容API

Gemini-OpenAI:リージョン制限を回避し、OpenAI互換APIに変換する逆世代Geminiアドレス

一般的な紹介 Gemini OpenAI API Agentは、無料でサーバーのメンテナンスが不要なOpenAI準拠のエンドポイントです。ユーザは、Vercel、Netlify、Cloudflareなどのプラットフォームに、個人で簡単にデプロイすることができます。プロジェクト ...
7ヶ月前
02.7K
AutoGen Studio:多代理系统AutoGen的简易用户界面版

AutoGen Studio:マルチエージェントシステムAutoGenの使いやすいインターフェイス版

概要 AutoGen Studio 2.0は、マルチエージェント・ソリューションの作成と管理のプロセスを簡素化するために設計されたAutoGenによるユーザー・インターフェースです。このプラットフォームでは、直感的なインターフェースを通じて、エージェントとそのワークフローを宣言的に定義および変更することができます...
7ヶ月前
02.7K
Amphion MaskGCT:零样本文本到语音克隆模型(本地一键部署包)

Amphion MaskGCT: ゼロサンプル音声合成クローンモデル (ローカルのワンクリックデプロイパッケージ)

包括的な紹介 MaskGCT (Masked Generative Codec Transformer)は、Funky Maru Technologyと香港中文大学が共同で導入した完全非自律回帰型音声合成(TTS)モデルである。このモデルは明示的な音声合成を必要としない。
9ヶ月前
02.7K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

MMAudio:ビデオ映像に同期した効果音やサウンドトラックを生成する、ビデオと音声のマルチモーダル共同トレーニングツール

一般的な紹介 MMAudioは、マルチモーダルな共同トレーニングによって高品質な同期音声を生成することを目的としたオープンソースプロジェクトである。香港中文大学のHo Kei Chengらによって開発されたこのプロジェクトの主な機能は、ビデオやテキスト入力に基づいて同期された音声を生成することである。
8ヶ月前
02.7K

「常時稼働のDeepseek AIアシスタント:Deepseek-V3に基づくインテリジェントな音声対話システムの構築

総合紹介 Always-On AI Assistantは、Deepseek-V3、RealtimeSTT、Typerなどの先進技術を統合することで、強力で永続的なオンラインAIアシスタントシステムを構築する革新的なAIアシスタントプロジェクトです。
7ヶ月前
02.6K
Text generation web UI:基于 Gradio 大语言模型聊天界面,支持多种后端服务

テキスト生成ウェブUI:複数のバックエンド・サービスをサポートするGradioベースの大規模言語モデル・チャット・インターフェース

概論 テキスト生成ウェブUIは、大規模言語モデル(LLM)のために設計されたGradioベースのウェブUIです。Transformers、llama.cp...を含む様々なテキスト生成バックエンドをサポートしています。
9ヶ月前
02.6K
Marker:快速将PDF转换为Markdown的开源工具

Marker:PDFをMarkdownに素早く変換するオープンソースツール

一般的な説明 Markerは、PDFファイルを素早く正確にMarkdown形式に変換するために設計された、ディープラーニングベースの文書処理ツールです。幅広い種類のドキュメントをサポートし、特に書籍や科学論文の変換に最適化されています。Markerはヘッダーを削除することができます...
5ヶ月前
02.6K
LiveTalking:开源实时互动数字人直播系统,实现音视频同步对话

LiveTalking: オープンソースのリアルタイム・インタラクティブ・デジタル・ヒューマン・ライブ・システム。

包括的な紹介 LiveTalkingは、オープンソースのリアルタイムインタラクティブデジタルヒューマンシステムであり、高品質のデジタルヒューマンライブソリューションの構築に取り組んでいます。このプロジェクトは、Apache 2.0オープンソースプロトコルを使用し、ER-NeRFレンダリング、リアルタイムオーディオおよびビデオストリーミング処理を含む多くの最先端技術と統合されています。
7ヶ月前
02.6K
Surya:专业多语言文档OCR工具,开源本地部署

Surya: プロフェッショナルな多言語ドキュメントOCRツール、オープンソース・ネイティブデプロイメント

包括的な紹介 Suryaは、90以上の言語のテキスト認識をサポートするオープンソースの多言語文書OCRツールキットです。行単位のテキスト検出だけでなく、レイアウト分析、読み順検出、表認識も実行します。Suryaの性能は、あらゆる種類の文書でクラウドサービスに匹敵します。
10ヶ月前
02.6K
OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

OmniGen:マルチモーダル入力を用いた統一的な画像生成モデルによる、文字の一貫性を保った画像生成

概論 OmniGenはVectorSpaceLabによって開発された「ユニバーサル」画像生成モデルであり、ユーザーは簡単なテキストプロンプトやマルチモーダル入力で、多様で文脈に富んだ視覚効果を作成することができる。OmniGenは、特に、...を認識する必要があるアプリケーションに適しています。
9ヶ月前
02.6K
Nanobrowser:浏览器中实现任务自动化的多智能插件

ナノブラウザ:ブラウザのタスク自動化のためのマルチインテリジェンス・プラグイン

概要 NanobrowserはオープンソースのChrome拡張機能で、AI主導のマルチエージェントシステムによってウェブタスクを自動化するように設計されています。OpenAI Operatorに代わる無償の拡張機能で、ユーザーはLLMを提供するだけです。
5ヶ月前
02.6K
LatentSync:用音频直接生成唇形同步视频的开源工具

LatentSync: 音声から直接リップシンクされたビデオを生成するオープンソースツール

概要 LatentSyncはByteDanceによって開発され、GitHubでホストされているオープンソースツールです。動画内のキャラクターの唇の動きを音声を通して直接駆動し、口の形が音声と正確に一致するようにします。このプロジェクトは、Stable Di...
2ヶ月前
02.6K
Model Context Provider CLI:任意大模型中使用MCP服务的命令行工具,不依赖Claude

Model Context Provider CLI: クロードに依存しない、あらゆる大規模モデルでMCPサービスを使用するためのコマンドラインツール。

包括的な紹介 モデルコンテキストプロバイダCLI(mcp-cli)は、モデルコンテキストプロバイダサーバと対話するためのプロトコルレベルのコマンドラインツールです。このツールによって、ユーザーはコマンドを送信したり、データを照会したり、サーバーが提供する様々なリソースと対話したりすることができます...
5ヶ月前
02.6K
LibreChat:模仿ChatGPT界面交互的AI对话开源项目

LibreChat: ChatGPTインターフェイスを模倣したAI対話オープンソースプロジェクト

概要 LibreChat は、カスタマイズオプションが豊富で、複数のAIプロバイダー、サービス、統合をサポートする、無料のオープンソースAIチャットプラットフォームです。使い慣れたインターフェースと革新的な機能を備え、複数のAIモデル、プラグイン、多言語をサポートすることで、すべてのAI会話を一つの場所に集約します。バイ...
12ヶ月前
02.6K
LLPlayer:生成实时字幕并双语翻译的视频播放器

LLPlayer: 対訳付きリアルタイム字幕を生成するビデオプレーヤー

概要 LLPlayerはGitHubでホストされている、開発者umlx5hによって作成された言語学習者のためのオープンソースメディアプレーヤーです。バイリンガル字幕表示、AI自動生成字幕、リアルタイム翻訳、単語検索など様々な便利な機能が統合されています。
2ヶ月前
02.6K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: PDFドキュメントの抽出とマルチモーダルMarkdownフォーマットへの変換、電子書籍OCRスキャンのサポート

包括的な紹介 MinerUは、上海人工知能研究所のOpenDataLabチームによって開発されたオープンソースのデータ抽出ツールで、複雑なPDF文書、ウェブページ、電子ブックからコンテンツを効率的に抽出することに重点を置いている。画像、数式、表、その他の要素を含むマルチモーダルPDFを取り込むことができる。
10ヶ月前
02.6K
Fish Speech:快速且高精度使用少样本克隆中英文语音

フィッシュ・スピーチ:少ないサンプル数で中国語と英語の音声を高速かつ高精度にクローニング

概要 フィッシュ・スピーチはフィッシュ・オーディオが開発したオープンソースの音声合成ツールです。このツールはVQ-GAN、Llama、VITSなどの最先端のAI技術に基づいており、テキストをリアルな音声に変換することができます。
6ヶ月前
02.6K
推荐Github优秀开源下载工具

推奨されるGithubの優れたオープンソース・ダウンロードツール

今日のインターネットの急速な発展において、ユーザーが情報やリソースを入手するための重要な手段として、ダウンロードツールは欠かすことのできない役割を果たしている。この記事では、5つのオープンソース・ダウンロードツールを系統的に分析する:AB Download Manager、XDM(Xtreme Download ...
10ヶ月前
02.6K
Weebo:实时语音聊天机器人,提供自然语言对话体验

Weebo: 自然言語での対話体験を提供するリアルタイム音声チャットボット

はじめに Weeboは、音声認識にWhisper Small、自然言語生成にLlama 3.2、音声合成にKokoro-82Mを利用したオープンソースのリアルタイム音声チャットボットです。このプロジェクトはAman...によって開発されました。
7ヶ月前
02.5K
Crawl4AI:开源的异步网页爬虫工具,无需LLM提取结构化数据

Crawl4AI:LLMなしで構造化データを抽出するオープンソースの非同期ウェブクローラツール

包括的な紹介 Crawl4AIは、大規模言語モデル(LLM)と人工知能(AI)アプリケーションのために設計されたオープンソースの非同期ウェブクローラツールです。ウェブクローリングとデータ抽出プロセスを簡素化し、効率的なウェブクローリングをサポートし、LLMに適した出力フォーマットを提供します。
9ヶ月前
02.5K
Local File Organizer:本地文件整理助手,AI自动整理文件

ローカル・ファイル・オーガナイザー:AIが自動的にファイルを整理するローカル・ファイル・オーガナイザー・アシスタント

概要説明 ローカルファイルオーガナイザーは、ユーザーがコンピュータ上のファイルを整理し、分類するために設計されたAIを搭載したローカルファイル管理ツールです。このツールは、Llama3.2 3BやLlav...などの高度なAIモデルを利用しています。
10ヶ月前
02.5K
OpenSPG:开源知识图谱引擎

OpenSPG: オープンソース知識グラフエンジン

包括的な紹介 OpenSPGは、SPG (Semantic Augmented Programmable Graph)フレームワークに基づいて、Ant GroupがOpenKGと共同で開発したオープンソースの知識グラフエンジンです。このエンジンは、ドメイン知識グラフの構築と管理をサポートするために、 明示的な意味表現、論理ルール定義、運用フレームワークなどの機能を提供するように設計されています...
11ヶ月前
02.5K
KAG:知识图谱与向量混合检索的专业知识库问答框架

KAG: ハイブリッド知識グラフとベクトル検索のための専門知識ベースQ&Aフレームワーク

包括的な紹介 KAG (Knowledge Augmented Generation)は、OpenSPGエンジンと大規模言語モデル(LLMs)に基づいた、論理的なフォームに導かれた推論と検索のフレームワークです。このフレームワークは、専門的なドメイン知識ベースを構築するために特別に設計されています...
8ヶ月前
02.5K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor:見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント

概論 Gemini Cursorは、GoogleのGemini 2.0 Flash(実験的)モデルをベースとしたデスクトップ知的アシスタントである。Gemini Cursorは、マルチモーダルAPIを通じて、視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延な利用を提供します。
6ヶ月前
02.5K
Edge TTS Worker:使用Cloudflare部署微软语音合成API,兼容OpenAI 格式并封装Web界面

Edge TTS Worker: Cloudflare、OpenAI互換フォーマット、パッケージ化されたウェブインターフェースを使用したMicrosoft音声合成APIの展開

概要 Edge TTS Worker(edge-tsに依存)は、Microsoft Edge TTSサービスをOpenAI互換フォーマットでカプセル化し、Cloudflare Workerにデプロイされたプロキシサービスです。
7ヶ月前
02.5K
NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目

NeoAI:AIにコンピュータの遠隔操作を委ね、自然言語で制御させるオープンソースプロジェクト

一般的な紹介 NeoAIは革新的なオープンソースのAIアシスタントツールで、ユーザーは自然言語対話を通じて簡単にコンピュータを制御・管理することができます。コードを書くことなく、日常的な対話だけでファイルの検索、タスクの自動化、デバイスの管理などを行うことができます。
7ヶ月前
02.5K
Langflow:构建强大AI智能体和工作流的低代码工具

Langflow:強力なAIインテリジェンスとワークフローを構築するためのローコードツール

概要 Langflowは、強力なAIエージェントとワークフローを構築するために開発者向けに設計されたローコードツールです。あらゆるAPI、モデル、データベースの使用をサポートし、複雑なAIアプリケーションの開発を簡素化します。Langflowは直感的なビジュアル・インターフェースを提供します。
8ヶ月前
02.5K
Open Operator:通过AI智能体在云浏览器中执行自动化操作

オープン・オペレーター:AIインテリジェンスでクラウド・ブラウザの操作を自動化する

概論 Open Operatorは、AIインテリジェンスによってブラウザの操作を自動化することを目的としたオープンソースプロジェクトである。このプロジェクトはBrowserbaseによって開発され、StagehandとBrowserbaseの技術を組み合わせています...
7ヶ月前
02.5K
GPT4Free:反编译AI对话网站接口,免费使用多种GPT模型

GPT4Free: 複数のGPTモデルを自由に使用するためのAI対話ウェブサイトのインターフェイスをデコンパイルします。

GPT4Freeの概要 GPT4Freeは、開発者のxtekkyがGitHubで公開したオープンソースプロジェクトで、GPT-3.5、GPT-4、Llama、Gemini-Pro、Bar...など、さまざまな強力な言語モデルを無料で提供することを目的としています。
9ヶ月前
02.5K