AIオープンソースプロジェクト

合計1020記事
Ollama OCR:使用Ollama中视觉模型提取图像中的文本

Ollama OCR: Ollamaの視覚モデルを使った画像からのテキスト抽出

包括的な紹介 Ollama OCRは、Ollamaプラットフォームが提供する最先端の視覚言語モデルを使用して画像からテキストを抽出する、強力な光学式文字認識(OCR)ツールキットです。このプロジェクトはPythonパッケージとして提供されており、ユーザーフレンドリーなストリー...
7ヶ月前
04.4K
FitDiT:高保真度AI虚拟试衣工具,提升服装细节真实性

FitDiT:衣服のディテールの信憑性を高める高忠実度AIバーチャルフィッティングツール

包括的な紹介 FitDiTは、拡散トランスフォーマー(Diffusion Transformers)に基づいた高忠実度のバーチャルフィッティングシステムである。Tencent AI Labによって開発されたこのプロジェクトは、衣服の詳細を表示するという従来のバーチャルフィッティングシステムの限界に対処することを目的としている。
7ヶ月前
02.7K
Thin-Plate-Spline-Motion-Model:静态人像图参考视频人像动作生成视频

薄板-スプライン-モーションモデル:静的ポートレートマップ参考動画 ポートレートモーション生成動画

概論 Thin-Plate-Spline-Motion-Model は、CVPR 2022 で発表された画期的な画像アニメーション生成プロジェクトである。このプロジェクトは、薄板スプライン変換の理論に基づいており、走行映像に基づく静止画から高品質な動きを実現することができる...
7ヶ月前
02.7K
DUIX:实时互动的智能数字人,支持多平台一键部署

DUIX: リアルタイムのインタラクションを実現するインテリジェントなデジタルピープル、マルチプラットフォームのワンクリック導入をサポート

概論 DUIX(Dialogue User Interface System)は、シリコン・インテリジェンスが開発したAIを搭載したデジタル・ヒューマン・インタラクション・プラットフォームです。オープンソースのデジタル・ヒューマン・インタラクション機能により、開発者は大規模モデル、自動音声認識(ASR...
7ヶ月前
03.7K
Fay数字人框架:集成语言模型与3D数字角色,支持多种应用场景

Fayデジタルヒューマンフレームワーク:言語モデルと3Dデジタルキャラクターを統合し、様々なアプリケーションシナリオをサポート。

包括的な紹介 Fayはオープンソースの3Dバーチャルデジタルヒューマンフレームワークであり、バーチャルショッピングガイド、バーチャルキャスター、アシスタント、ウェイター、教師、音声またはテキストベースのモバイルアシスタントなど、様々なアプリケーションシナリオのための言語モデルとデジタルキャラクタを統合しています。
7ヶ月前
03.1K
MOFA Video:运动场适配技术将静态图像转换为视频

MOFAビデオ:静止画を動画に変換するモーション・フィールド・アダプテーション技術

概論 MOFA-Videoは、生成的運動場適応技術を利用して静止画像を動的動画に変換する最先端の画像アニメーション生成ツールである。東京大学とTencent AI Labとの共同研究により開発され、2024年のEuropean Conference on Computer Vision (EV)で発表される。
7ヶ月前
02.6K
Amurex:开源AI会议记录助手,自动记录会议内容生成总结

Amurex:オープンソースのAI会議記録アシスタント、会議内容を自動記録して要約を生成

概要 Amurexは、The Personal AI Companyによって開発されたオープンソースのAIミーティングアシスタントで、インテリジェントな機能によってミーティングの効率を向上させるように設計されています。Amurexは、リアルタイムのアドバイスを提供し、インテリジェントなサマリーを生成し、ミーティング内容を記録し、自動的にフォローを送信することができます。
7ヶ月前
03.4K
E2B Open Computer Use:E2B沙盒中安全的运行AI操作系统

E2Bオープンコンピュータの使用:E2BサンドボックスでAIオペレーティングシステムを安全に実行する

概要 E2B Open Computer Useは、E2B Desktop Sandboxを通じて、安全なクラウドベースのLinuxコンピュータ利用体験を提供することを目的としたオープンソースプロジェクトです。E2B Sandboxは、ユーザが任意の大規模コンピュータに接続できるデスクトップグラフィカル環境を提供します。
7ヶ月前
02.5K
Agent Laboratory:为研究人员提供自动化代码及研究报告撰写助手

エージェントラボラトリー:研究者のための自動化されたコードとスタディライティングアシスタント

包括的な紹介 エージェントラボラトリーは、研究者の研究アイデアの実現を支援するために設計された、エンドツーエンドの自律的な研究ワークフローです。このシステムは、大規模な言語モデルによって駆動される専用エージェントで構成され、文献調査や計画の立案から実行まで、研究ワークフロー全体をサポートします。
4ヶ月前
02.8K
Kokoro TTS API:快速文本转语音的Docker化FastAPI封装(Kokoro-82M模型)

ココロTTS API: 高速音声合成のためのDocker化FastAPIラッパー (ココロ-82Mモデル)

概要 Kokoro-FastAPIは、Kokoro-82M音声合成モデルをサポートするために設計されたDockerベースのFastAPIラッパーです。このプロジェクトはNVIDIA GPUアクセラレーションをサポートし、キュー処理と自動スプライシングを提供します。
7ヶ月前
05.2K
CoolCline:又一个增强版Cline智能编码助手,结合ClineRoo Cline和Bao Cline的优点

クールクライン:クラインのインテリジェント・コーディング・アシスタントの改良版で、クラインルー・クラインとバオ・クラインの利点を組み合わせたもの。

一般的な説明 CoolClineは、Cline、Roo Cline、Bao Clineの最高の機能を組み合わせた強力なコーディングアシスタントです。コマンドラインインターフェイス(CLI)やエディタとシームレスに動作し、最もパワフルな...
7ヶ月前
02.9K
J.A.R.V.I.S.:具有上下文感知的智能代码助手,生成和修改代码,多IDE支持

J.A.R.V.I.S.:コンテキストを考慮したインテリジェントコードアシスタント、コードの生成と修正、マルチIDEサポート

概論 J.A.R.V.I.S. (Just A Rather Very Intelligent System) は、複数の最先端の言語モデルを使用して、開発者のコード生成、修正、技術的なディスカッションを支援するように設計されたインテリジェントなコード・アシスタントです。
7ヶ月前
03.4K
AI投资系统:自动化A股投资决策系统,利用多智能体系统分析市场数据

AI投資システム:市場データを分析するマルチインテリジェンスシステムを利用したA株投資の自動意思決定システム

総合紹介 A_Share_investment_Agentは、マルチインテリジェンスシステムに基づくA株投資判断支援システムです。このシステムは、市場データの分析、銘柄の本質的価値の計算、市場心理の分析、複数の協調知能を通じたファンダメンタルズデータの分析を行うように設計されており、...
7ヶ月前
02.6K
Company Researcher:公司研究工具,输入公司网址以获取详细研究信息

企業リサーチャー:企業リサーチツールで、企業のウェブアドレスを入力すると詳細なリサーチ情報が得られます。

概要 Company Researcher (カンパニーリサーチャー)は、ユーザーが任意の会社の迅速かつ包括的な概要を取得するために設計されたフリーでオープンソースのツールです。会社のURLを入力するだけで、このツールはウェブから包括的な情報を収集し、組織や製品に関する情報を表示します。
4ヶ月前
02.2K
GitPodcast:将GitHub仓库转化为播客,随时随地收听代码更新

GitPodcast: GitHubのリポジトリをポッドキャストにして、いつでもどこでもコードの更新を聞くことができます!

はじめに GitPodcastは、GitHubのリポジトリをポッドキャストに変える革新的なツールで、開発者はいつでもどこでもコードの更新を聞くことができます。OpenAIとAzure Speech SDKを使って、GitPodca...
7ヶ月前
02.4K
Paperless-AI:使用AI自动分析和标记文档,适用 paperless-ngx 文档管理系统

Paperless-AI: Paperless-NGX文書管理システムのためのAIを使った文書の自動分析とタグ付け

概要 Paperless-AIは、Paperless-ngx文書管理システム専用に設計された革新的な文書自動化分析ツールです。このツールは、OpenAI APIとOllama...のような様々な高度なAIモデルを巧みに組み合わせています。
7ヶ月前
04.9K
Cosmos:世界基础模型,构建物理世界的人工智能基础模型平台

Cosmos:ワールド・ベース・モデル、物理世界のAIベース・モデルを構築するためのプラットフォーム

包括的な紹介 NVIDIA Cosmosは開発者向けのワールドベースのモデリング・プラットフォームであり、物理AI開発者がより良く、より速く物理AIシステムを構築できるように特別に設計されています。このプラットフォームは、拡散モデルや自己回帰モデルなど、さまざまな訓練済みモデルを提供します。
7ヶ月前
02.7K
Mini LLM Flow:使用100行代码构建“有向图结构”的LLM微型智能体

ミニLLMフロー:100行のコードで「有向グラフ構造」を持つLLMミニインテリジェントを構築する

概論 miniLLMFlowは、「シンプルであること」という設計哲学を実証する、わずか100行のコアコードからなる最小主義の大規模言語モデル(LLM)開発フレームワークです。このフレームワークは、AIアシスタント(ChatGPT、Claudeなど)が...
7ヶ月前
02.8K
小智 AI 聊天机器人:打造你的AI聊天伴侣,轻松实现语音对话和智能互动

Xiaozhi AIチャットボット:AIチャットコンパニオンを構築、簡単な音声対話とインテリジェントな対話

包括的な紹介 Xiaozhi AI Chatbotは、ESP32開発ボードをベースにしたオープンソースプロジェクトで、ユーザーが独自のAIチャットコンパニオンを構築できるように設計されています。このプロジェクトはShrimpによって開発され、より多くの人がAIハードウェア開発を始め、大規模な言語モデルを実...
5ヶ月前
03.7K
OpenAI Realtime API Next.js:构建实时语音对话AI应用的Next.js模板

OpenAI Realtime API Next.js: リアルタイムの音声対話AIアプリケーションを構築するためのNext.jsテンプレート

概要 OpenAI Realtime API Next.jsは、Next.jsフレームワークをベースとしたオープンソースプロジェクトで、開発者がリアルタイム音声AIアプリケーションを素早く構築できるように設計されています。このプロジェクトは、OpenAIのリアルタイムAPIとWebRTC技術を統合しています。
7ヶ月前
02.6K
Auto-Coder.Chat:基于终端命令行的AI辅助编程助手,提供VSCode插件

Auto-Coder.Chat:VSCodeプラグインを備えたターミナル・コマンドライン・ベースのAI支援プログラミング・アシスタント

概論 Auto-Coder.Chatは、インテリジェントな手段によって開発者のプログラミング効率を向上させるために設計された、端末ベースのAI支援プログラミングツールです。このツールは、あらゆるIDEで使用することができ、開発ツールでAIアシストプログラミングを可能にします。
4ヶ月前
02.7K
Kokoro:高效语音合成模型,生成自然流畅的语音

こころ:自然で滑らかな音声を生成する効率的な音声合成モデル

一般的な紹介 ココロ82MはHugging Faceが提供する効率的な音声合成モデルで、より少ないパラメータとデータで高品質な音声を生成するように設計されています。このモデルは8,200万個のパラメータを持ち、Apache 2.0の下でライセンスされています。
7ヶ月前
03.3K
WrenAI:对话式数据分析AI助手,直接获取答案、SQL查询与分析报表

WrenAI: 回答、SQLクエリ、分析レポートに直接アクセスできる会話型データ分析AIアシスタント

概要 WrenAIは、データチーム、製品チーム、ビジネスチームが自然言語での会話を通じてデータの洞察を得ることを支援するために特別に設計されたオープンソースのSQL AIアシスタントです。自然言語をSQLクエリに変換し、チャート、スプレッドシート、レポートを生成し、多言語をサポートします。
7ヶ月前
03.4K
Activepieces:AI工作流程自动化,适合非技术用户的任务编排工具,开源Zapier替代品

Activepieces:AIワークフロー自動化、非技術者向けタスクスケジューリングツール、Zapier代替オープンソース

概要 Activepiecesは、企業や個人ユーザーに直感的で強力な自動化ソリューションを提供することに焦点を当てた、オープンソースのオールインワン自動化ワークフロープラットフォームです。TypeScriptで開発されたこのプラットフォームは非常にスケーラブルで、200以上の統合サービスをサポートしています。
7ヶ月前
02.7K
SHMT:自监督分层化妆转移模型,虚拟化妆,将妆容迁移到新的人像中

SHMT: Self-Supervised Hierarchical Makeup Transfer Model, バーチャルメイク, 新しいポートレートへのメイクの移行

包括的な紹介 SHMT(Self-supervised Hierarchical Makeup Transfer)は、潜在拡散モデルに基づく自己教師ありの階層的メイクアップ移行プロジェクトであり、教師なし学習方法によってメイクアップ効果の高品質を実現することを目的としている...
7ヶ月前
02.9K
VITA:开源视觉与语音实时交互的多模态大语言模型

VITA: リアルタイム視覚・音声インタラクションのためのオープンソース・マルチモーダル大規模言語モデル

概論 VITAは、オープンソースの対話型マルチモーダル大規模言語モデリング・プロジェクトのリーダーであり、真の完全なマルチモーダル対話を実現する能力を開拓している。プロジェクトは2024年8月にVITA-1.0を立ち上げ、初のオープンソース対話型フルモーダル大規模言語モデルを開拓した。
7ヶ月前
03.1K
Trend Finder:实时追踪社交媒体趋势、热门话话题和新原文,助力营销决策

Trend Finder: ソーシャルメディアのトレンド、トレンドトピック、新着記事をリアルタイムで追跡し、マーケティングの意思決定に活用。

はじめに Trend Finderは、ソーシャルメディア上のトレンドトピックやトレンドをリアルタイムで追跡できるように設計された強力なツールです。主要なインフルエンサーからの投稿を収集・分析することで、Trend Finderは新しいトレンドや製品リリースをいち早く察知し、発信することができます。
7ヶ月前
02.9K
TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

TransRouter:Geminiマルチモーダルモデルに基づく中英翻訳用リアルタイム音声変換ツール

TransRouterは、GoogleのGeminiモデルをベースにしたリアルタイム音声翻訳ツールで、特に英語と中国語のリアルタイム音声翻訳用に設計されている。このツールは、Zoomのようなビデオ会議ソフトウェアにシームレスに統合され、クロスランゲージのための強力なツールを提供します...
7ヶ月前
03.1K
opensource_notebooklm:基于Deepseek-V3和PlayHT TTS的NotebookLM开源实现

opensource_notebooklm: Deepseek-V3とPlayHT TTSに基づくNotebookLMのオープンソース実装

概論 オープンソースNotebookLMは、Deepseek-V3の言語理解能力とPlayHTの音声合成技術を組み合わせた革新的な人工知能プロジェクトであり、インテリジェントなノート作成対話システムを目指しています。このプロジェクトは、Build Fast社によって開発されました。
7ヶ月前
02.7K
Open Deep Research:生成基于网络搜索内容的AI研究报告

オープン・ディープ・リサーチ:ウェブ検索コンテンツに基づくAI研究の生成

概論 Open Deep Researchは、Google Geminiのディープリサーチ機能に代わるオープンソースのAI駆動型リサーチレポート作成ツールである。プロジェクトはTypeScriptで開発されており、Next.js 1...をベースにしています。
4ヶ月前
02.8K
Vision is All You Need:使用视觉语言模型构建智能文档检索系统(Vision RAG)

必要なのは視覚だけ:視覚言語モデルを用いた知的文書検索システムの構築 (Vision RAG)

包括的な紹介 Vision-is-all-you-needは革新的なビジュアルRAG(Retrieval Augmented Generation)システム実証プロジェクトであり、文書処理領域にビジュアル言語モデリング(VLM)を適用する新境地を開くものである。従来のテキスト・チャンキング手法とは異なり、このシステムは直接、...
7ヶ月前
03.2K
Scira(MiniPerplx):模仿Perplexity的开源项目,集成AI对话、网页搜索、天气查询等功能

Scira (MiniPerplx): Perplexityを模倣したオープンソースプロジェクトで、AI対話、ウェブ検索、天気クエリなどを統合している。

概論 MiniPerplx (Sciraに改名) はミニマリストデザインのAI駆動型検索エンジンであり、様々な便利な機能を統合し、ユーザーにあらゆる情報検索サービスを提供する。このプロジェクトでは、Next.js、Tailwi...
7ヶ月前
03.2K
Diffbot GraphRAG LLM:依赖外部实时知识图谱数据的LLM推理服务

Diffbot GraphRAG LLM: 外部リアルタイム知識グラフデータに依存するLLM推論サービス

包括的な紹介 Diffbot LLM Reasoning Server は LLama モデルアーキテクチャに基づいた特別な最適化と改良が施された革新的な大規模言語モデリングシステムです。このプロジェクトの最も重要な特徴は、リアルタイムナレッジグラフと検索を強化した生成の統合です...
7ヶ月前
02.9K
LuminaBrush:使用智能绘画工具为图像添加照明打光效果

LuminaBrush:スマートペイントツールで画像にイルミネーションを加える

はじめに LuminaBrushは、人工知能技術を搭載した、照明効果のための革新的なインタラクティブ画像編集ツールです。このプロジェクトでは、2段階のフレームワークを使用して画像を処理します。第1段階では、入力画像を「均一な照明」ルックに変換し、第2段階では、...
7ヶ月前
03.5K
MetaGPT:多智能体协作框架,构建 AI 软件开发团队实现自然语言编程

MetaGPT:自然言語プログラミングのためのAIソフトウェア開発チーム構築のための多知能コラボレーションフレームワーク

包括的な紹介 MetaGPTは、完全なAIソフトウェア会社の運営をシミュレートするために設計された革新的なマルチインテリジェンス体のフレームワークです。geekan(アレクサンダー・ウー)によって作成されたこのプロジェクトの目標は、異なる役割を持つGPTモデルを協調的なエンティティに結合することです...
5ヶ月前
03.5K
Groq AppGen:使用Groq API展示Llama 3.3 70B HTML代码生成能力的实验项目

Groq AppGen: Groq APIを使用したLlama 3.3 70B HTMLコード生成機能の実証実験プロジェクト

一般的な紹介 Groq AppGenは、Groq Inc.によって開発され、オープンソース化された革新的なインタラクティブ・ウェブ・アプリケーション・ジェネレーターです。このプロジェクトは、HTMLコード生成のためのLlama 3.3 70Bモデルのパワーを実証しています。Groq...
7ヶ月前
02.8K
llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

llms.txt Generator: Webサイトのコンテンツを素早くキャプチャし、LLMトレーニング用テキストデータセットを生成します。

包括的な紹介 llmstxt-generatorは、大規模言語モデリング(LLM)の訓練と推論のための高品質のテキストデータセットを準備するための専門的なウェブコンテンツ抽出と統合ツールです。このツールはMendable AIによって開発され、@firec...
7ヶ月前
03K
Roo Code(Roo Cline):基于Cline的增强版自主编程助手,智能化IDE编程助手

Roo Code (Roo Cline): Clineをベースに強化された自律型プログラミングアシスタント、インテリジェントIDEプログラミングアシスタント

概要 Roo Code(旧Roo Cline)Roo Code(Roo Cline)は、VS Codeの強力な拡張プラグインであるClineをベースに強化された自律型プログラミングアシスタントです。このツールは、あなたのセットで使用することができます...
7ヶ月前
05.2K
Raycast-G4F:通过Raycast免费使用GPT-4、Llama-3等多种 AI 模型

Raycast-G4F: Raycastを通じてGPT-4、Llama-3、その他多くのAIモデルに無料でアクセスできます!

概論 Raycast-G4F(GPT4Free)は、GPT-4、Llama-3を含む幅広い先進的なAIモデルに無料でアクセスできる強力なRaycast拡張機能です。この拡張機能は、リアルタイムのダイアログストリーミングを提供するだけでなく...
7ヶ月前
03.1K
Devin.cursorrules:增强Cursor IDE开发体验,将Cursor/Windsurf打造成类Devin智能编程助手

Devin.cursorrules:カーソルIDE開発体験の向上、Cursor/WindsurfをDevinライクなインテリジェント・プログラミング・アシスタントに

概要 Devin.cursorrulesは、手頃な価格のCursorまたはWindsurf IDE(~20ドル)をDevinのような強力なAIプログラミング・アシスタントに変換するために設計された革新的なオープンソース・プロジェクトです。このプロジェクトは、CursorまたはWindsurf IDE(~20ドル)をDevinのような強力なAIプログラミング・アシスタントに変換するために設計されています。
7ヶ月前
03.3K
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

フィッシュ・エージェント:エンド・ツー・エンドのAIボイス・クローン・アシスタント、リアルタイム音声対話アシスタント、フィッシュ・スピーチ・スピンオフ・プロジェクト

包括的な紹介 フィッシュ・スピーチ派生プロジェクト フィッシュ・エージェントは、V0.1 3Bモデル・アーキテクチャに基づいて開発された、革命的なエンド・ツー・エンドのAIスピーチ・クローン・システムです。完全なエンド・ツー・エンドの音声クローン処理システムとして、その最大の特徴は、革新的なスピーチレス...
7ヶ月前
03.2K
FunClip:智能剪辑视频内容为短片,轻松实现精准视频片段提取/裁剪

FunClip:ビデオコンテンツをショートフィルムにインテリジェントに編集。

総合紹介 FunClipは、アリババ達磨研究所のTONGYI Speech Labによって開発された、完全オープンソースのローカライズされた自動ビデオ編集ツールです。このツールは、産業グレードのParaformer-Large音声認識モデルを統合し、ビデオ内の音声を正確に識別することができます...
7ヶ月前
03.7K
Dify-WebUI:基于Dify API的桌面智能对话客户端,提供企业级AI对话能力

Dify-WebUI: Dify APIをベースとしたデスクトップインテリジェントダイアログクライアントで、エンタープライズグレードのAIダイアログ機能を提供します。

包括的な紹介 Dify-WebUIは、Dify APIに基づいた最新のデスクトップインテリジェント対話アプリケーションで、企業に強力なAI対話機能を提供するように設計されています。このアプリケーションは、企業の個々のニーズを満たすために、様々なプリセットテーマカラーをサポートし、ナレッジベース管理機能をサポートします。
7ヶ月前
03.5K
小红书AI运营助手:自动生成和发布小红书文章

XiaohongshuのAI操作アシスタント:自動的にXiaohongshuの記事を生成し、公開します。

総合紹介 Xiaohongshu AI Operation Assistant(xhsaipublisher)は、Xiaohongshuプラットフォームで記事を公開するために設計された自動化ツールです。このプロジェクトは、グラフィカル・ユーザー・インターフェースと自動化スクリプトを組み合わせ、ビッグモデル技術を使ってコンテンツを生成し、ブラウザ経由で自動的にログインして公開します...
7ヶ月前
03.8K
微信Markdown编辑器:简洁高效的微信图文排版工具,一键粘贴文章到微信公众号

WeChat Markdownエディタ:シンプルで効率的なWeChatグラフィックレイアウトツール、WeChat公開番号に記事を貼り付けるためのキー

総合紹介 WeChat Markdown Editor (WeChat Markdown Editor)は、ユーザーが簡単に美しいWeChat投稿を作成できるように設計された、非常に簡潔なWeChatグラフィックレイアウトツールです。このエディタはすべての基本的なMarkdown ...
7ヶ月前
02.7K
オーケストラ:より簡単で効率的なマルチインテリジェンス共同開発のためのスマートAIチーム構築

オーケストラ:より簡単で効率的なマルチインテリジェンス共同開発のためのスマートAIチーム構築

Orchestraは革新的な軽量Pythonフレームワークで、大規模言語モデル(LLM)に基づくマルチインテリジェンス協調システムの構築に重点を置いています。複数のAI知能が交響楽団のように調和して動作するように、知能を配置する独自の方法を採用している。モデル化することで ...
7ヶ月前
02.1K
GraphAgent:构建知识图谱,自动化任务规划与执行

GraphAgent: タスク計画と実行を自動化する知識グラフの構築

包括的な紹介 グラフエージェントは、グラフ生成、タスク計画、タスク実行を統合した自動インテリジェント・ボディ・システムである。構造化および非構造化データを処理し、複雑な意味依存グラフを構築し、自己計画およびツールマッチングによってユーザタスクを効率的に実行することができる。
7ヶ月前
02.3K
Harbor:一键部署本地LLM开发环境,轻松管理和运行AI服务的容器化工具集

Harbor: ローカルのLLM開発環境をワンクリックでデプロイし、AIサービスを簡単に管理・実行するためのコンテナ化されたツールセット。

概論 Harborは、ローカルのAI開発環境のデプロイと管理を簡素化することに焦点を当てた、画期的なコンテナ化LLMツールセットです。クリーンなコマンドラインインターフェイス(CLI)とコンパニオンアプリケーションにより、ワンクリックでLLMバックエンド、APIインターフェイス、フロント...
7ヶ月前
02.7K
ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程

ExtractThinker: ドキュメントを構造化データに抽出・分類し、ドキュメント処理プロセスを最適化します。

包括的な紹介 ExtractThinkerは、大規模言語モデル(LLM)を使用してドキュメントから構造化データを抽出・分類し、シームレスなORMライクなドキュメント処理ワークフローを提供する、柔軟なドキュメントインテリジェンスツールです。LLMを含む様々なドキュメントローダーをサポートしています。
7ヶ月前
02.7K
NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目

NeoAI:AIにコンピュータの遠隔操作を委ね、自然言語で制御させるオープンソースプロジェクト

一般的な紹介 NeoAIは革新的なオープンソースのAIアシスタントツールで、ユーザーは自然言語対話を通じて簡単にコンピュータを制御・管理することができます。コードを書くことなく、日常的な対話だけでファイルの検索、タスクの自動化、デバイスの管理などを行うことができます。
7ヶ月前
04.1K
TryOffAnyone:从人物身上提取服装为平铺服装展示图的AI工具

TryOffAnyone: 人物の衣服をタイル状の衣服表示画像として抽出するAIツール

包括的な紹介 TryOffAnyoneは、Eコマース分野における衣服ディスプレイの課題を解決するために特別に設計された画期的なAI画像処理ツールです。TryOffAnyoneは、実際に服を着ている人の写真を、レイフラットディスプレイ効果のある画像にインテリジェントに変換することができ、この技術は最新のLatent Dif...
7ヶ月前
02.7K
Agentarium:複数のAIインテリジェンス間の相互作用の管理と調整

Agentarium:複数のAIインテリジェンス間の相互作用の管理と調整

概要 Agentariumは、AIインテリジェントエージェント(Agent)の管理とオーケストレーションに特化した強力なPythonフレームワークです。このフレームワークは、複数のAIエージェント間のインタラクションを作成、管理、オーケストレーションするための柔軟で直感的な方法を提供します。A...
7ヶ月前
03.1K
LTX Video(LTXV):生成高质量视频的实时视频生成开源模型

LTX Video (LTXV): 高品質ビデオを生成するリアルタイムビデオ生成のオープンソースモデル

概要 LTX-Videoは、Lightricksが開発した初のDiT(拡散トランスフォーマー)ベースのリアルタイムビデオ生成モデルです。このモデルは768x512の解像度で24フレーム/秒の高画質を生成することができます。
7ヶ月前
04.1K
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

ScrapeGraphAI:ウェブクローリングのための単一のキューワード、ルールを書く必要のないインテリジェントなウェブコンテンツ抽出ツール

包括的な紹介 ScrapeGraphAIは革新的なPythonのWebスクレイピングライブラリで、Large Language Modelling (LLM)とDirect Graph Logicを巧みに組み合わせ、Webサイトやローカルドキュメントのスクレイピングパイプラインを作成します。このツールのユニークな点は、完璧なレベルのシンプルさとパワーです。
7ヶ月前
02.2K
AnkiAIUtils:メモリーカードを自動的に最適化する知的アシスタント、Ankiフラッシュカード学習AIツールセット

AnkiAIUtils:メモリーカードを自動的に最適化する知的アシスタント、Ankiフラッシュカード学習AIツールセット

概要説明 AnkiAIUtilsは、フラッシュカード学習システムAnkiのために設計されたAI強化ツールのセットです。医学生によって開発されたこのツールは、AI技術により、学習中にユーザーが苦手とするカードを自動的に改善するように設計されています。ユーザーにパーソナライズされた学習をインテリジェントに提供します。
7ヶ月前
02.9K
Story-Adapter:根据长篇故事生成连续且风格一致的图像插画

Story-Adapter:長いストーリーに基づき、連続的で一貫性のあるグラフィック・イラストレーションを生成します。

概論 Story-Adapterは、テキストストーリーを首尾一貫した画像シーケンスに変換する革新的なストーリー視覚化フレームワークである。研究者によって開発されたこのプロジェクトは、高品質のストーリーイラストを生成するためのトレーニングが不要な反復アプローチを採用している。このフレームワークの特徴は、長いストーリーを扱えることである。
7ヶ月前
02.8K
GitDiagram:可视化GitHub代码库结构,将代码仓库转换为交互式系统架构图

GitDiagram: GitHubコードベースの構造を視覚化し、コードリポジトリをインタラクティブなシステムアーキテクチャ図に変換します。

概要 GitDiagramは、GitHubのコードベースを可視化する革新的なツールで、GitHubのリポジトリをインタラクティブなシステムアーキテクチャ図に素早く変換します。先進的なAI技術(Claude 3.5 Sonnet)を使用し、開発者に...
7ヶ月前
04.5K
ElizaOS:构建自主执行的多智能体,功能完备的开源AI智能体开发框架

ElizaOS: 自律実行型マルチインテリジェントの構築、完全機能のオープンソースAIインテリジェントボディ開発フレームワーク

包括的な紹介 Elizaは先進的なマルチインテリジェントボディ(マルチエージェント)開発フレームワークで、自律的なインテリジェントボディ(自律エージェント)の構築と展開プロセスを簡素化することに取り組んでいます。異なる役割設定を持つ複数のインテリジェントボディの配置をサポートし、インテリジェントな...
7ヶ月前
04.1K
ebook2audiobook:将电子书转换为有声读物,支持多语言和语音克隆的开源工具

ebook2audiobook: 電子書籍をオーディオブックに変換する、多言語サポートと音声クローンを持つオープンソースツール

一般的な紹介 ebook2audiobookは、強力なオープンソースの電子書籍からオーディオブックツールです。複数のフォーマットのeBookを、完全なチャプターマーカーとメタデータ付きのオーディオブックに変換することができます。このツールは、電子書籍フォーマットの変換にCo...
7ヶ月前
03.7K
Memary:利用知识图谱增强Agent长期记忆的开源项目

Memary:知識グラフを使ってエージェントの長期記憶を強化するオープンソースプロジェクト

概要 Memaryは、自律型知能に長期的なメモリ管理ソリューションを提供することに焦点を当てた、革新的なオープンソースプロジェクトです。このプロジェクトは、インテリジェンスが従来のコンテキストウィンドウの限界を突破し、知識グラフと特殊化されたメモリモジュールを通じて、よりスマートなインタラクション体験を実現できるよう支援する。
7ヶ月前
04.4K
AI reads books:AI逐页阅读PDF书籍,自动提取知识要点并生成总结

AIが本を読む:AIがPDFの本を1ページずつ読み、知識の要点を自動的に抽出し、要約を生成する。

包括的な紹介 AI-reads-books-page-by-pageはPythonベースのインテリジェントなPDFブック分析ツールで、PDFブックのページごとの分析を自動化し、重要な知識ポイントを抽出し、指定されたページ間隔の後にフェーズを生成します...
7ヶ月前
03.5K
OpenAI WebRTC Python:与OpenAI实时API进行语音交互的Python库

OpenAI WebRTC Python: OpenAIリアルタイムAPIと音声対話するためのPythonライブラリ

包括的な紹介 OpenAI Realtime WebRTC Pythonは、OpenAI Realtime APIを使った音声インタラクションの完全なソリューションを開発者に提供する、プロフェッショナルなPythonライブラリです。このプロジェクトは、低遅延を可能にするWebRTC技術に基づいています...
7ヶ月前
02.8K
Melty:体验AI驱动的代码编辑器 ,让每一次对话都成为Git提交

Melty:AIを搭載したコードエディターを体験しよう!

概論 Meltyは、チャットによる会話とGitによるバージョン管理を組み合わせた画期的なAIコードエディターである。ReplicateのCharlieとJacksonによって開発されたこのツールは、従来のAIコーディングツールのペインポイントを解決することを目指している。最大の特徴は...
7ヶ月前
02.6K
AnyText:生成和编辑多语言图像文本,高可控在图像中生成多行中文

AnyText:多言語の画像テキストを生成・編集し、画像内に複数行の中国語を生成することができます。

総合紹介 AnyTextは、拡散モデルに基づいて開発された画期的な多言語ビジュアルテキスト生成・編集ツールです。画像の中に自然で高品質な多言語テキストを生成し、柔軟なテキスト編集機能をサポートします。研究チームによって開発され、ICLR 2024で発表されました。
7ヶ月前
03.1K
AIGCPanel:开源克隆数字人整合系统,一键部署免费数字人客户端

AIGCPanel: デジタルマンインテグレーションシステムのオープンソースクローン。

総合紹介 AigcPanelは、electron+vue3+typescriptの技術スタックで開発され、Windows上でワンクリックで展開できる、すべてのユーザーのためのワンストップAIデジタルヒューマン制作システムです。AigcPanelは、ユーザーフレンドリーな設計を核心としており、...
7ヶ月前
03.3K
AIEditor:创建AI驱动的富文本编辑器,支持多种前端框架

AIEditor: 複数のフロントエンドフレームワークをサポートするAI駆動型リッチテキストエディタの作成

包括的な紹介 AIEditorは、Webコンポーネント開発に基づいて、Vue、React、Angularおよび他のほとんどすべての主流のフロントエンドフレームワークをサポートしているAI駆動型の次世代リッチテキストエディタです。PCのWebと...
7ヶ月前
03.4K
AI Dev Gallery:Windows本地AI模型开发工具集,端侧模型集成到Windows应用

AI Dev Gallery: WindowsネイティブAIモデル開発ツールセット、Windowsアプリケーションへのエンドサイドモデルの統合

概論 AI Dev Galleryは、Windows開発者向けに設計されたマイクロソフトのAI開発ツールアプリケーション(現在パブリックプレビュー中)である。開発者がAI機能を簡単にWindo...
7ヶ月前
02.8K
Edge TTS Worker:使用Cloudflare部署微软语音合成API,兼容OpenAI 格式并封装Web界面

Edge TTS Worker: Cloudflare、OpenAI互換フォーマット、パッケージ化されたウェブインターフェースを使用したMicrosoft音声合成APIの展開

概要 Edge TTS Worker(edge-tsに依存)は、Microsoft Edge TTSサービスをOpenAI互換フォーマットでカプセル化し、Cloudflare Workerにデプロイされたプロキシサービスです。
8ヶ月前
04K
BetterWhisperX:自动语音识别与说话人分离,提供高精度单词级时间戳

BetterWhisperX:話者から切り離された自動音声認識により、高精度の単語レベルのタイムスタンプを提供

はじめに BetterWhisperXは、効率的で正確な自動音声認識(ASR)サービスを提供することに重点を置いたWhisperXプロジェクトの最適化バージョンです。WhisperXの改良版として、このプロジェクトはFederico ...
8ヶ月前
03K
Copilot后端代理服务:用其他模型接管GitHub Copilot插件服务端

Copilotバックエンドプロキシサービス:他のモデルでGitHub Copilotプラグインサーバーを引き継ぐ

概要 Copilot Backend Agent Service は、DeepSeek などの他の FIM モデルを活用して GitHub Copilot プラグイン・サーバーを管理するために設計されたオープンソース・プロジェクトです。このサービスは、V...を含む様々なIDEをサポートしています。
8ヶ月前
02.8K
Gemini Balance:Gemini模型API兼容OpenAI格式,解锁区域限制并支持多API Key轮询

Gemini Balance: GeminiモデルAPIはOpenAIフォーマットと互換性があり、リージョン制限を解除し、マルチAPIキーポーリングをサポートする。

包括的な紹介 Gemini Balanceは、FastAPIフレームワークに基づいて開発されたOpenAI APIプロキシサービスで、効率的なマルチAPI Key管理と最適化機能を提供することを目的としている。このプロジェクトはGeminiモデルコールをサポートしており、主な機能にはマルチAPI...
4ヶ月前
02.9K
AIaW:全功能、轻量级、可拓展插件的跨平台AI客户端

AIaW:拡張可能なプラグインを備えた、フル機能の軽量クロスプラットフォームAIクライアント

包括的な紹介 AIaW(AI as Workspace)は、フル機能で軽量かつ拡張可能なソリューションを提供するために設計された次世代AIクライアントです。このプラットフォームは、OpenAI、Anthropic、Googleを含む幅広いサービスプロバイダをサポートし、...
8ヶ月前
02.7K
DeepSeek Engineer:基于DeepSeek API的实验性编码助手,附提示词

DeepSeek Engineer:DeepSeek APIに基づく実験的なコーディングアシスタント。

概要 DeepSeek Engineerは、DeepSeek APIに基づく強力なプログラミングアシスタントツールで、直感的なコマンドラインインタフェースを通じてユーザーと対話し、さまざまなソフトウェア開発タスクを支援します。このツールは、大規模な言語モデリングと実...
6ヶ月前
03K
OrionChat:集成多平台AI模型的简易网页聊天界面(免部署)

OrionChat:マルチプラットフォームAIモデルを統合したシンプルなWebチャットインタフェース(デプロイメント不要)

OrionChatは、複数の主流AIモデルと対話するための統一されたプラットフォームをユーザーに提供する、ウェブベースのAIチャット・インターフェースです。このプロジェクトは、Ollama(ローカルで動作)、OpenAI GPT、Google Gemi...を含む幅広いAIモデルをサポートしています。
8ヶ月前
02.6K
X-Kit:Twitter数据抓取和分析X用户数据与推文的工具

X-Kit: XユーザーデータとツイートのためのTwitterデータクロールとアナリティクス

概要 X-Kitは、X(旧Twitter)のユーザーデータやツイートをクロールして分析するために設計されたオープンソースツールです。GitHubユーザーのxiaoxiuniqueによって開発されたこのツールは、ユーザーが任意のXユーザーに関する基本的な情報やツイートを取得するプロセスを自動化するために設計されています。
8ヶ月前
03K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT:ジェミニ・モデルを使用して、ワンクリックで短いナレーション付きビデオや長いビデオの要約ビデオを作成する。

包括的な紹介 AI2SRTは、GeminiAIのビッグモデルを使用して、ワンクリックで短いナレーション付きビデオと長いビデオのビデオ要約を生成し、音声とビデオの書き起こし字幕をサポートするオープンソースプロジェクトです。このプロジェクトは、ビデオコンテンツの作成プロセスを簡素化し、効率的な字幕生成と翻訳機能を提供することを目的としています。ユーザーは、字幕を作成した後、その字幕を字幕翻訳ソフトに渡すことができます。
8ヶ月前
03.1K
Open Notebook:个性化AI笔记工具,Notebook LM开源替代方案

Open Notebook: パーソナライズされたAIノートツール、Notebook LMに代わるオープンソース

概要 Open Notebookは、Google Notebook LMに代わるソリューションをユーザーに提供するために設計された、プライバシーに重点を置いたオープンソースのノート管理ツールです。Open Notebookを使えば、ユーザーは自分自身で...
8ヶ月前
03.6K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: Smart Spectrumのグラフィカル・インターフェース自動化のためのオープンソースのインテリジェント視覚言語モデル

包括的な紹介 CogAgentは清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースの視覚言語モデルであり、プラットフォーム間のグラフィカルユーザインタフェース(GUI)操作の自動化を目的としている。このモデルはCogVLM(GLM-4V-9B)をベースにしており、中国語と英語の二ヶ国語をサポートしている。
8ヶ月前
02.9K
DisPose:生成人体姿态精准控制的视频,创作跳舞的小姐姐

ディスポーズ:人間の姿勢を精密に制御してビデオを生成し、踊る女性を作り出す

一般的な紹介 DisPoseは、制御されたキャラクター画像アニメーション生成に焦点を当てた革新的なオープンソースの人工知能プロジェクトです。研究者チームによって開発され、GitHubでオープンソース化されたこのプロジェクトは、高度なディープラーニング技術を用いて、骨格のポーズ情報を分解することで正確なキャラクターアニメーションの制御を実現しています。
8ヶ月前
02.5K
Smolagents:AIインテリジェンスの迅速な開発とインテリジェンスの軽量化のためのオープンソースプロジェクト

Smolagents:AIインテリジェンスの迅速な開発とインテリジェンスの軽量化のためのオープンソースプロジェクト

包括的な紹介 Smolagentsは、HuggingFaceによって開発された軽量インテリジェントエージェントライブラリで、AIエージェントシステムの開発プロセスを簡素化することに重点を置いています。このプロジェクトは、約1000行のコアコードしかないシンプルな設計思想で知られていますが、強力な機能統合機能を提供しています。このライブラリの最も ...
7ヶ月前
04.2K
Vision Parse: 視覚言語モデルを用いたPDFドキュメントのMarkdownフォーマットへのインテリジェント変換

Vision Parse: 視覚言語モデルを用いたPDFドキュメントのMarkdownフォーマットへのインテリジェント変換

包括的な紹介 Vision Parseは画期的な文書処理ツールで、最先端の視覚言語モデル(Vision Language Models)技術と、PDF文書を高品質のMarkdown形式にインテリジェントに変換する機能を巧みに組み合わせています...
8ヶ月前
02.8K
InvSR:开源图像超分辨率项目,提升图像分辨率质量

InvSR: 画像解像度の質を向上させるオープンソース画像超解像プロジェクト

一般的な紹介 InvSRは、低解像度画像を高品質な高解像度画像に変換できる拡散インバージョン技術に基づいた革新的なオープンソースの画像超解像プロジェクトです。このプロジェクトは、事前に訓練された大規模拡散モデルに埋め込まれた豊富な画像事前知識を利用し、柔軟なサンプリングメカニズムを通じて、...
8ヶ月前
03.5K
Infinity:生成高分辨率图像的比特自回归建模,实现无限制高分辨率图像生成

無限大:無制限の高解像度画像生成のためのビット単位の自己回帰モデリング

概要 Infinityは、FoundationVisionチームによって開発された画期的な高解像度画像生成フレームワークです。このプロジェクトは、革新的なビットレベルの視覚的自己回帰モデリング・アプローチによって、従来の画像生成モデルの限界を打ち破ります。
8ヶ月前
03.5K
GeminiCoder:基于LlamaCoder项目,使用Gemini API快速生成Web应用程序

GeminiCoder: LlamaCoderプロジェクトに基づき、Gemini APIを使用してWebアプリケーションを素早く生成する。

包括的な紹介 GeminiCoderは、Google Gemini APIに基づいて開発された革新的なWebアプリケーション生成ツールです。このプロジェクトは、LlamaCoderの優れた機能を継承し、最新のGemini 1.5 Prを統合しています。
8ヶ月前
02.9K
GPTme:在命令行终端中运行的智能编程助手,ChatGPT代码解释器的本地化替代方案

GPTme: コマンドライン・ターミナルで動作するインテリジェント・プログラミング・アシスタント、ChatGPTコード・インタープリターのローカライズされた代替品

総合紹介 GPTMeは、開発者の作業効率を向上させるために設計された革新的な端末AIアシスタントツールです。強力なAI機能と端末環境を完璧に組み合わせ、コード実行、ファイル編集、ウェブブラウジング、視覚認識など多様な機能をサポートします。ChatGPTのコード解...
8ヶ月前
02.9K
LogoCreator:开源Logo生成器,使用AI智能生成专业品牌Logo

LogoCreator:オープンソースのロゴジェネレーター、AIインテリジェンスを使用してプロフェッショナルなブランドロゴを生成します。

一般的な紹介 LogoCreatorは、Together AIとFluxモデルに基づいたオープンソースのロゴ・ジェネレーターで、企業や個人に迅速でプロフェッショナルなロゴ・デザイン・サービスを提供することに焦点を当てています。このプロジェクトは、開発者Nutlopeによって開発され、Gitでオープンソース化されています...
8ヶ月前
03.3K
KAG:知识图谱与向量混合检索的专业知识库问答框架

KAG: ハイブリッド知識グラフとベクトル検索のための専門知識ベースQ&Aフレームワーク

包括的な紹介 KAG (Knowledge Augmented Generation)は、OpenSPGエンジンと大規模言語モデル(LLMs)に基づいた、論理的なフォームに導かれた推論と検索のフレームワークです。このフレームワークは、専門的なドメイン知識ベースを構築するために特別に設計されています...
8ヶ月前
04.3K
VideoSeal:先进的开源视频隐藏水印嵌入与提取工具,保护视频版权

VideoSeal: ビデオ著作権を保護する高度なオープンソースビデオ隠し透かし埋め込み・抽出ツール

一般的な紹介 VideoSealはFacebook Researchによって開発されたオープンソースのビデオ透かしツールであり、効率的なビデオ透かしの埋め込みと抽出を提供するように設計されている。このツールは、最新のオープンソースモデルをサポートし、事前学習済みモデル、学習コード、推論コード、評価ツールを含んでいます。
8ヶ月前
02.8K
Obsidian Copilot:在Obsidian中使用AI助手体验智能化笔记助手

オブシディアン・コパイロット:オブシディアンのAIアシスタントでインテリジェントなノートテイクアシスタントを体験しよう

概論 Obsidian CopilotはObsidian Notesソフトウェア用の強力なAIアシスタントプラグインで、Obsidian NotesのワークフローにOpenAIのインテリジェンスをシームレスに統合します。このプラグインは、開発者のLogan Yang...によって作成されました。
8ヶ月前
04.3K