AIオープンソースプロジェクト

合計1020記事

順番に並べる

Ollama OCR: Ollamaの視覚モデルを使った画像からのテキスト抽出

包括的な紹介 Ollama OCRは、Ollamaプラットフォームが提供する最先端の視覚言語モデルを使用して画像からテキストを抽出する、強力な光学式文字認識（OCR）ツールキットです。このプロジェクトはPythonパッケージとして提供されており、ユーザーフレンドリーなストリー...

1年前

0105.1K

FitDiT：衣服のディテールの信憑性を高める高忠実度AIバーチャルフィッティングツール

包括的な紹介 FitDiTは、拡散トランスフォーマー（Diffusion Transformers）に基づいた高忠実度のバーチャルフィッティングシステムである。Tencent AI Labによって開発されたこのプロジェクトは、衣服の詳細を表示するという従来のバーチャルフィッティングシステムの限界に対処することを目的としている。

1年前

060.5K

Thin-Plate-Spline-Motion-Model：静态人像图参考视频人像动作生成视频

薄板-スプライン-モーションモデル：静的ポートレートマップ参考動画ポートレートモーション生成動画

概論 Thin-Plate-Spline-Motion-Model は、CVPR 2022 で発表された画期的な画像アニメーション生成プロジェクトである。このプロジェクトは、薄板スプライン変換の理論に基づいており、走行映像に基づく静止画から高品質な動きを実現することができる...

1年前

057.1K

DUIX: リアルタイムのインタラクションを実現するインテリジェントなデジタルピープル、マルチプラットフォームのワンクリック導入をサポート

概論 DUIX（Dialogue User Interface System）は、シリコン・インテリジェンスが開発したAIを搭載したデジタル・ヒューマン・インタラクション・プラットフォームです。オープンソースのデジタル・ヒューマン・インタラクション機能により、開発者は大規模モデル、自動音声認識（ASR...

1年前

071.7K

Fayデジタルヒューマンフレームワーク：言語モデルと3Dデジタルキャラクターを統合し、様々なアプリケーションシナリオをサポート。

包括的な紹介 Fayはオープンソースの3Dバーチャルデジタルヒューマンフレームワークであり、バーチャルショッピングガイド、バーチャルキャスター、アシスタント、ウェイター、教師、音声またはテキストベースのモバイルアシスタントなど、様々なアプリケーションシナリオのための言語モデルとデジタルキャラクタを統合しています。

1年前

067.2K

MOFAビデオ：静止画を動画に変換するモーション・フィールド・アダプテーション技術

概論 MOFA-Videoは、生成的運動場適応技術を利用して静止画像を動的動画に変換する最先端の画像アニメーション生成ツールである。東京大学とTencent AI Labとの共同研究により開発され、2024年のEuropean Conference on Computer Vision (EV)で発表される。

1年前

051.3K

Amurex：オープンソースのAI会議記録アシスタント、会議内容を自動記録して要約を生成

概要 Amurexは、The Personal AI Companyによって開発されたオープンソースのAIミーティングアシスタントで、インテリジェントな機能によってミーティングの効率を向上させるように設計されています。Amurexは、リアルタイムのアドバイスを提供し、インテリジェントなサマリーを生成し、ミーティング内容を記録し、自動的にフォローを送信することができます。

1年前

065.1K

E2Bオープンコンピュータの使用：E2BサンドボックスでAIオペレーティングシステムを安全に実行する

概要 E2B Open Computer Useは、E2B Desktop Sandboxを通じて、安全なクラウドベースのLinuxコンピュータ利用体験を提供することを目的としたオープンソースプロジェクトです。E2B Sandboxは、ユーザが任意の大規模コンピュータに接続できるデスクトップグラフィカル環境を提供します。

1年前

066.3K

エージェントラボラトリー：研究者のための自動化されたコードとスタディライティングアシスタント

包括的な紹介エージェントラボラトリーは、研究者の研究アイデアの実現を支援するために設計された、エンドツーエンドの自律的な研究ワークフローです。このシステムは、大規模な言語モデルによって駆動される専用エージェントで構成され、文献調査や計画の立案から実行まで、研究ワークフロー全体をサポートします。

1年前

057.1K

Kokoro TTS API：快速文本转语音的Docker化FastAPI封装（Kokoro-82M模型）

ココロTTS API: 高速音声合成のためのDocker化FastAPIラッパー (ココロ-82Mモデル)

概要 Kokoro-FastAPIは、Kokoro-82M音声合成モデルをサポートするために設計されたDockerベースのFastAPIラッパーです。このプロジェクトはNVIDIA GPUアクセラレーションをサポートし、キュー処理と自動スプライシングを提供します。

1年前

0128.3K

CoolCline：又一个增强版Cline智能编码助手，结合ClineRoo Cline和Bao Cline的优点

クールクライン：クラインのインテリジェント・コーディング・アシスタントの改良版で、クラインルー・クラインとバオ・クラインの利点を組み合わせたもの。

一般的な説明 CoolClineは、Cline、Roo Cline、Bao Clineの最高の機能を組み合わせた強力なコーディングアシスタントです。コマンドラインインターフェイス(CLI)やエディタとシームレスに動作し、最もパワフルな...

1年前

063.3K

J.A.R.V.I.S.：具有上下文感知的智能代码助手，生成和修改代码，多IDE支持

J.A.R.V.I.S.：コンテキストを考慮したインテリジェントコードアシスタント、コードの生成と修正、マルチIDEサポート

概論 J.A.R.V.I.S. (Just A Rather Very Intelligent System) は、複数の最先端の言語モデルを使用して、開発者のコード生成、修正、技術的なディスカッションを支援するように設計されたインテリジェントなコード・アシスタントです。

1年前

083.8K

AI投資システム：市場データを分析するマルチインテリジェンスシステムを利用したA株投資の自動意思決定システム

総合紹介 A_Share_investment_Agentは、マルチインテリジェンスシステムに基づくA株投資判断支援システムです。このシステムは、市場データの分析、銘柄の本質的価値の計算、市場心理の分析、複数の協調知能を通じたファンダメンタルズデータの分析を行うように設計されており、...

1年前

073.1K

Company Researcher：公司研究工具，输入公司网址以获取详细研究信息

企業リサーチャー：企業リサーチツールで、企業のウェブアドレスを入力すると詳細なリサーチ情報が得られます。

概要 Company Researcher (カンパニーリサーチャー)は、ユーザーが任意の会社の迅速かつ包括的な概要を取得するために設計されたフリーでオープンソースのツールです。会社のURLを入力するだけで、このツールはウェブから包括的な情報を収集し、組織や製品に関する情報を表示します。

1年前

049.3K

GitPodcast: GitHubのリポジトリをポッドキャストにして、いつでもどこでもコードの更新を聞くことができます！

はじめに GitPodcastは、GitHubのリポジトリをポッドキャストに変える革新的なツールで、開発者はいつでもどこでもコードの更新を聞くことができます。OpenAIとAzure Speech SDKを使って、GitPodca...

1年前

050.9K

Paperless-AI：使用AI自动分析和标记文档，适用 paperless-ngx 文档管理系统

Paperless-AI: Paperless-NGX文書管理システムのためのAIを使った文書の自動分析とタグ付け

概要 Paperless-AIは、Paperless-ngx文書管理システム専用に設計された革新的な文書自動化分析ツールです。このツールは、OpenAI APIとOllama...のような様々な高度なAIモデルを巧みに組み合わせています。

1年前

0125.6K

Cosmos：ワールド・ベース・モデル、物理世界のAIベース・モデルを構築するためのプラットフォーム

包括的な紹介 NVIDIA Cosmosは開発者向けのワールドベースのモデリング・プラットフォームであり、物理AI開発者がより良く、より速く物理AIシステムを構築できるように特別に設計されています。このプラットフォームは、拡散モデルや自己回帰モデルなど、さまざまな訓練済みモデルを提供します。

1年前

060.6K

Mini LLM Flow：使用100行代码构建“有向图结构”的LLM微型智能体

ミニLLMフロー：100行のコードで「有向グラフ構造」を持つLLMミニインテリジェントを構築する

概論 miniLLMFlowは、「シンプルであること」という設計哲学を実証する、わずか100行のコアコードからなる最小主義の大規模言語モデル（LLM）開発フレームワークです。このフレームワークは、AIアシスタント（ChatGPT、Claudeなど）が...

1年前

058.1K

Xiaozhi AIチャットボット：AIチャットコンパニオンを構築、簡単な音声対話とインテリジェントな対話

包括的な紹介 Xiaozhi AI Chatbotは、ESP32開発ボードをベースにしたオープンソースプロジェクトで、ユーザーが独自のAIチャットコンパニオンを構築できるように設計されています。このプロジェクトはShrimpによって開発され、より多くの人がAIハードウェア開発を始め、大規模な言語モデルを実...

1年前

0218.6K

OpenAI Realtime API Next.js：构建实时语音对话AI应用的Next.js模板

OpenAI Realtime API Next.js: リアルタイムの音声対話AIアプリケーションを構築するためのNext.jsテンプレート

概要 OpenAI Realtime API Next.jsは、Next.jsフレームワークをベースとしたオープンソースプロジェクトで、開発者がリアルタイム音声AIアプリケーションを素早く構築できるように設計されています。このプロジェクトは、OpenAIのリアルタイムAPIとWebRTC技術を統合しています。

1年前

050K

Auto-Coder.Chat：基于终端命令行的AI辅助编程助手，提供VSCode插件

Auto-Coder.Chat：VSCodeプラグインを備えたターミナル・コマンドライン・ベースのAI支援プログラミング・アシスタント

概論 Auto-Coder.Chatは、インテリジェントな手段によって開発者のプログラミング効率を向上させるために設計された、端末ベースのAI支援プログラミングツールです。このツールは、あらゆるIDEで使用することができ、開発ツールでAIアシストプログラミングを可能にします。

12ヶ月前

054K

こころ：自然で滑らかな音声を生成する効率的な音声合成モデル

一般的な紹介ココロ82MはHugging Faceが提供する効率的な音声合成モデルで、より少ないパラメータとデータで高品質な音声を生成するように設計されています。このモデルは8,200万個のパラメータを持ち、Apache 2.0の下でライセンスされています。

1年前

070.6K

WrenAI: 回答、SQLクエリ、分析レポートに直接アクセスできる会話型データ分析AIアシスタント

概要 WrenAIは、データチーム、製品チーム、ビジネスチームが自然言語での会話を通じてデータの洞察を得ることを支援するために特別に設計されたオープンソースのSQL AIアシスタントです。自然言語をSQLクエリに変換し、チャート、スプレッドシート、レポートを生成し、多言語をサポートします。

1年前

086.7K

Activepieces：AI工作流程自动化，适合非技术用户的任务编排工具，开源Zapier替代品

Activepieces：AIワークフロー自動化、非技術者向けタスクスケジューリングツール、Zapier代替オープンソース

概要 Activepiecesは、企業や個人ユーザーに直感的で強力な自動化ソリューションを提供することに焦点を当てた、オープンソースのオールインワン自動化ワークフロープラットフォームです。TypeScriptで開発されたこのプラットフォームは非常にスケーラブルで、200以上の統合サービスをサポートしています。

1年前

070.7K

k8m: Kubernetesクラスタ管理を簡素化する軽量AIコンソールツール

概要 k8mはクラスタ管理を簡素化するために設計された軽量でクロスプラットフォームなMini Kubernetes AI Dashboardです。AMIS上に構築されており、Kubernetes APIゲストとしてkomから利用可能です。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

063.9K

SHMT: Self-Supervised Hierarchical Makeup Transfer Model, バーチャルメイク, 新しいポートレートへのメイクの移行

包括的な紹介 SHMT（Self-supervised Hierarchical Makeup Transfer）は、潜在拡散モデルに基づく自己教師ありの階層的メイクアップ移行プロジェクトであり、教師なし学習方法によってメイクアップ効果の高品質を実現することを目的としている...

1年前

054.1K

VITA: リアルタイム視覚・音声インタラクションのためのオープンソース・マルチモーダル大規模言語モデル

概論 VITAは、オープンソースの対話型マルチモーダル大規模言語モデリング・プロジェクトのリーダーであり、真の完全なマルチモーダル対話を実現する能力を開拓している。プロジェクトは2024年8月にVITA-1.0を立ち上げ、初のオープンソース対話型フルモーダル大規模言語モデルを開拓した。

1年前

090.3K

Trend Finder：实时追踪社交媒体趋势、热门话话题和新原文，助力营销决策

Trend Finder: ソーシャルメディアのトレンド、トレンドトピック、新着記事をリアルタイムで追跡し、マーケティングの意思決定に活用。

はじめに Trend Finderは、ソーシャルメディア上のトレンドトピックやトレンドをリアルタイムで追跡できるように設計された強力なツールです。主要なインフルエンサーからの投稿を収集・分析することで、Trend Finderは新しいトレンドや製品リリースをいち早く察知し、発信することができます。

1年前

092.2K

AIの自作組：AIによる映像の多言語字幕の自動生成と翻訳

概論 AIの字幕組は、動画字幕の自動抽出、自動文字起こし、自動翻訳を可能にする、強力なコマンドライン動画字幕処理ツールです。このツールには、ウィスパー音声を含む高度なAI技術が統合されています。

1年前

062.5K

TransRouter：Geminiマルチモーダルモデルに基づく中英翻訳用リアルタイム音声変換ツール

TransRouterは、GoogleのGeminiモデルをベースにしたリアルタイム音声翻訳ツールで、特に英語と中国語のリアルタイム音声翻訳用に設計されている。このツールは、Zoomのようなビデオ会議ソフトウェアにシームレスに統合され、クロスランゲージのための強力なツールを提供します...

1年前

058.6K

opensource_notebooklm：基于Deepseek-V3和PlayHT TTS的NotebookLM开源实现

opensource_notebooklm: Deepseek-V3とPlayHT TTSに基づくNotebookLMのオープンソース実装

概論オープンソースNotebookLMは、Deepseek-V3の言語理解能力とPlayHTの音声合成技術を組み合わせた革新的な人工知能プロジェクトであり、インテリジェントなノート作成対話システムを目指しています。このプロジェクトは、Build Fast社によって開発されました。

1年前

063.1K

オープン・ディープ・リサーチ：ウェブ検索コンテンツに基づくAI研究の生成

概論 Open Deep Researchは、Google Geminiのディープリサーチ機能に代わるオープンソースのAI駆動型リサーチレポート作成ツールである。プロジェクトはTypeScriptで開発されており、Next.js 1...をベースにしています。

1年前

062.4K

Vision is All You Need：使用视觉语言模型构建智能文档检索系统（Vision RAG）

必要なのは視覚だけ：視覚言語モデルを用いた知的文書検索システムの構築 (Vision RAG)

包括的な紹介 Vision-is-all-you-needは革新的なビジュアルRAG（Retrieval Augmented Generation）システム実証プロジェクトであり、文書処理領域にビジュアル言語モデリング（VLM）を適用する新境地を開くものである。従来のテキスト・チャンキング手法とは異なり、このシステムは直接、...

1年前

048.4K

Scira（MiniPerplx）：模仿Perplexity的开源项目，集成AI对话、网页搜索、天气查询等功能

Scira (MiniPerplx): Perplexityを模倣したオープンソースプロジェクトで、AI対話、ウェブ検索、天気クエリなどを統合している。

概論 MiniPerplx (Sciraに改名) はミニマリストデザインのAI駆動型検索エンジンであり、様々な便利な機能を統合し、ユーザーにあらゆる情報検索サービスを提供する。このプロジェクトでは、Next.js、Tailwi...

1年前

071.8K

Diffbot GraphRAG LLM：依赖外部实时知识图谱数据的LLM推理服务

Diffbot GraphRAG LLM: 外部リアルタイム知識グラフデータに依存するLLM推論サービス

包括的な紹介 Diffbot LLM Reasoning Server は LLama モデルアーキテクチャに基づいた特別な最適化と改良が施された革新的な大規模言語モデリングシステムです。このプロジェクトの最も重要な特徴は、リアルタイムナレッジグラフと検索を強化した生成の統合です...

1年前

058K

JupyterLab Magic Wand：在JupyterLab中使用AI助手提升工作效率

JupyterLab Magic Wand: JupyterLabでAIアシスタントを使って生産性を高める

概要 JupyterLab Magic Wandは、JupyterLabノートブックにAIアシスタント機能を組み込むために設計された実験的なJupyterLab拡張である。この拡張機能はZsailerによって開発され、データサイエンティストと...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

048.9K

LuminaBrush：スマートペイントツールで画像にイルミネーションを加える

はじめに LuminaBrushは、人工知能技術を搭載した、照明効果のための革新的なインタラクティブ画像編集ツールです。このプロジェクトでは、2段階のフレームワークを使用して画像を処理します。第1段階では、入力画像を「均一な照明」ルックに変換し、第2段階では、...

1年前

053.8K

MetaGPT：自然言語プログラミングのためのAIソフトウェア開発チーム構築のための多知能コラボレーションフレームワーク

包括的な紹介 MetaGPTは、完全なAIソフトウェア会社の運営をシミュレートするために設計された革新的なマルチインテリジェンス体のフレームワークです。geekan（アレクサンダー・ウー）によって作成されたこのプロジェクトの目標は、異なる役割を持つGPTモデルを協調的なエンティティに結合することです...

1年前

078.1K

Groq AppGen：使用Groq API展示Llama 3.3 70B HTML代码生成能力的实验项目

Groq AppGen: Groq APIを使用したLlama 3.3 70B HTMLコード生成機能の実証実験プロジェクト

一般的な紹介 Groq AppGenは、Groq Inc.によって開発され、オープンソース化された革新的なインタラクティブ・ウェブ・アプリケーション・ジェネレーターです。このプロジェクトは、HTMLコード生成のためのLlama 3.3 70Bモデルのパワーを実証しています。Groq...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

054.3K

llms.txt Generator：快速抓取网站内容并，生成LLM训练文本数据集

llms.txt Generator: Webサイトのコンテンツを素早くキャプチャし、LLMトレーニング用テキストデータセットを生成します。

包括的な紹介 llmstxt-generatorは、大規模言語モデリング(LLM)の訓練と推論のための高品質のテキストデータセットを準備するための専門的なウェブコンテンツ抽出と統合ツールです。このツールはMendable AIによって開発され、@firec...

1年前

054.8K

Roo Code（Roo Cline）：基于Cline的增强版自主编程助手，智能化IDE编程助手

Roo Code (Roo Cline): Clineをベースに強化された自律型プログラミングアシスタント、インテリジェントIDEプログラミングアシスタント

概要 Roo Code（旧Roo Cline）Roo Code（Roo Cline）は、VS Codeの強力な拡張プラグインであるClineをベースに強化された自律型プログラミングアシスタントです。このツールは、あなたのセットで使用することができます...

1年前

0127.8K

Raycast-G4F：通过Raycast免费使用GPT-4、Llama-3等多种 AI 模型

Raycast-G4F: Raycastを通じてGPT-4、Llama-3、その他多くのAIモデルに無料でアクセスできます！

概論 Raycast-G4F（GPT4Free）は、GPT-4、Llama-3を含む幅広い先進的なAIモデルに無料でアクセスできる強力なRaycast拡張機能です。この拡張機能は、リアルタイムのダイアログストリーミングを提供するだけでなく...

1年前

062.5K

Gemini Search：Gemini 2.0 Flash构建的 Perplexity 风格 AI 搜索引擎

Gemini Search: Gemini 2.0 Flashで構築されたPerplexityスタイルのAI検索エンジン

包括的な紹介 Gemini-SearchはGoogle Gemini 2.0の技術に基づいたオープンソースのインテリジェント検索エンジンのプロジェクトである。このプロジェクトはTypeScriptを使用しており、Perplexity検索エンジンの複製に取り組んでいる。

1年前

060.1K

Devin.cursorrules：增强Cursor IDE开发体验，将Cursor/Windsurf打造成类Devin智能编程助手

Devin.cursorrules：カーソルIDE開発体験の向上、Cursor/WindsurfをDevinライクなインテリジェント・プログラミング・アシスタントに

概要 Devin.cursorrulesは、手頃な価格のCursorまたはWindsurf IDE（～20ドル）をDevinのような強力なAIプログラミング・アシスタントに変換するために設計された革新的なオープンソース・プロジェクトです。このプロジェクトは、CursorまたはWindsurf IDE（～20ドル）をDevinのような強力なAIプログラミング・アシスタントに変換するために設計されています。

1年前

059.5K

1つのハブ：OpenAIインターフェースの管理と配布、複数のモデルと統計機能のサポート

概要 One Hubは、One APIの二次開発に基づいて開発されたOpenAIのインターフェイス管理および配信システムです。より広範なモデルのサポートと統計機能の向上を目的として、MartialBEによって開発されました。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

064K

Fish Agent：端到端AI语音克隆助手，实时语音对话助理，Fish Speech衍生项目

フィッシュ・エージェント：エンド・ツー・エンドのAIボイス・クローン・アシスタント、リアルタイム音声対話アシスタント、フィッシュ・スピーチ・スピンオフ・プロジェクト

包括的な紹介フィッシュ・スピーチ派生プロジェクトフィッシュ・エージェントは、V0.1 3Bモデル・アーキテクチャに基づいて開発された、革命的なエンド・ツー・エンドのAIスピーチ・クローン・システムです。完全なエンド・ツー・エンドの音声クローン処理システムとして、その最大の特徴は、革新的なスピーチレス...

1年前

071.1K

FunClip：ビデオコンテンツをショートフィルムにインテリジェントに編集。

総合紹介 FunClipは、アリババ達磨研究所のTONGYI Speech Labによって開発された、完全オープンソースのローカライズされた自動ビデオ編集ツールです。このツールは、産業グレードのParaformer-Large音声認識モデルを統合し、ビデオ内の音声を正確に識別することができます...

1年前

0110.6K

Dify-WebUI：基于Dify API的桌面智能对话客户端，提供企业级AI对话能力

Dify-WebUI: Dify APIをベースとしたデスクトップインテリジェントダイアログクライアントで、エンタープライズグレードのAIダイアログ機能を提供します。

包括的な紹介 Dify-WebUIは、Dify APIに基づいた最新のデスクトップインテリジェント対話アプリケーションで、企業に強力なAI対話機能を提供するように設計されています。このアプリケーションは、企業の個々のニーズを満たすために、様々なプリセットテーマカラーをサポートし、ナレッジベース管理機能をサポートします。

1年前

079.5K

XiaohongshuのAI操作アシスタント：自動的にXiaohongshuの記事を生成し、公開します。

総合紹介 Xiaohongshu AI Operation Assistant（xhsaipublisher）は、Xiaohongshuプラットフォームで記事を公開するために設計された自動化ツールです。このプロジェクトは、グラフィカル・ユーザー・インターフェースと自動化スクリプトを組み合わせ、ビッグモデル技術を使ってコンテンツを生成し、ブラウザ経由で自動的にログインして公開します...

1年前

084.2K

微信Markdown编辑器：简洁高效的微信图文排版工具，一键粘贴文章到微信公众号

WeChat Markdownエディタ：シンプルで効率的なWeChatグラフィックレイアウトツール、WeChat公開番号に記事を貼り付けるためのキー

総合紹介 WeChat Markdown Editor (WeChat Markdown Editor)は、ユーザーが簡単に美しいWeChat投稿を作成できるように設計された、非常に簡潔なWeChatグラフィックレイアウトツールです。このエディタはすべての基本的なMarkdown ...

1年前

073.4K

オーケストラ：より簡単で効率的なマルチインテリジェンス共同開発のためのスマートAIチーム構築

Orchestraは革新的な軽量Pythonフレームワークで、大規模言語モデル（LLM）に基づくマルチインテリジェンス協調システムの構築に重点を置いています。複数のAI知能が交響楽団のように調和して動作するように、知能を配置する独自の方法を採用している。モデル化することで ...

1年前

060.5K

GraphAgent: タスク計画と実行を自動化する知識グラフの構築

包括的な紹介グラフエージェントは、グラフ生成、タスク計画、タスク実行を統合した自動インテリジェント・ボディ・システムである。構造化および非構造化データを処理し、複雑な意味依存グラフを構築し、自己計画およびツールマッチングによってユーザタスクを効率的に実行することができる。

1年前

052K

Harbor: ローカルのLLM開発環境をワンクリックでデプロイし、AIサービスを簡単に管理・実行するためのコンテナ化されたツールセット。

概論 Harborは、ローカルのAI開発環境のデプロイと管理を簡素化することに焦点を当てた、画期的なコンテナ化LLMツールセットです。クリーンなコマンドラインインターフェイス（CLI）とコンパニオンアプリケーションにより、ワンクリックでLLMバックエンド、APIインターフェイス、フロント...

1年前

060K

TangoFlux：30秒の長い音声を3秒で生成する高速テキスト-ダビング変換ツール！

一般的な紹介 TangoFluxは、DeCLaRe Labによって開発された効率的なTTA（text-to-audio）生成モデルです。このモデルは、最大30秒の44.1kHzステレオ音声をわずか3.7秒で生成することができます。

1年前

063.7K

ExtractThinker: ドキュメントを構造化データに抽出・分類し、ドキュメント処理プロセスを最適化します。

包括的な紹介 ExtractThinkerは、大規模言語モデル（LLM）を使用してドキュメントから構造化データを抽出・分類し、シームレスなORMライクなドキュメント処理ワークフローを提供する、柔軟なドキュメントインテリジェンスツールです。LLMを含む様々なドキュメントローダーをサポートしています。

1年前

060.5K

NeoAI：AIにコンピュータの遠隔操作を委ね、自然言語で制御させるオープンソースプロジェクト

一般的な紹介 NeoAIは革新的なオープンソースのAIアシスタントツールで、ユーザーは自然言語対話を通じて簡単にコンピュータを制御・管理することができます。コードを書くことなく、日常的な対話だけでファイルの検索、タスクの自動化、デバイスの管理などを行うことができます。

1年前

086.5K

TryOffAnyone: 人物の衣服をタイル状の衣服表示画像として抽出するAIツール

包括的な紹介 TryOffAnyoneは、Eコマース分野における衣服ディスプレイの課題を解決するために特別に設計された画期的なAI画像処理ツールです。TryOffAnyoneは、実際に服を着ている人の写真を、レイフラットディスプレイ効果のある画像にインテリジェントに変換することができ、この技術は最新のLatent Dif...

1年前

057.6K

Agentarium：複数のAIインテリジェンス間の相互作用の管理と調整

概要 Agentariumは、AIインテリジェントエージェント（Agent）の管理とオーケストレーションに特化した強力なPythonフレームワークです。このフレームワークは、複数のAIエージェント間のインタラクションを作成、管理、オーケストレーションするための柔軟で直感的な方法を提供します。A...

1年前

050.6K

LTX Video (LTXV): 高品質ビデオを生成するリアルタイムビデオ生成のオープンソースモデル

概要 LTX-Videoは、Lightricksが開発した初のDiT（拡散トランスフォーマー）ベースのリアルタイムビデオ生成モデルです。このモデルは768x512の解像度で24フレーム/秒の高画質を生成することができます。

1年前

098.3K

ScrapeGraphAI：一个提示词搞定网页抓取，无需编写规则智能网页内容提取工具

ScrapeGraphAI：ウェブクローリングのための単一のキューワード、ルールを書く必要のないインテリジェントなウェブコンテンツ抽出ツール

包括的な紹介 ScrapeGraphAIは革新的なPythonのWebスクレイピングライブラリで、Large Language Modelling (LLM)とDirect Graph Logicを巧みに組み合わせ、Webサイトやローカルドキュメントのスクレイピングパイプラインを作成します。このツールのユニークな点は、完璧なレベルのシンプルさとパワーです。

1年前

057.7K

AnkiAIUtils：メモリーカードを自動的に最適化する知的アシスタント、Ankiフラッシュカード学習AIツールセット

概要説明 AnkiAIUtilsは、フラッシュカード学習システムAnkiのために設計されたAI強化ツールのセットです。医学生によって開発されたこのツールは、AI技術により、学習中にユーザーが苦手とするカードを自動的に改善するように設計されています。ユーザーにパーソナライズされた学習をインテリジェントに提供します。

1年前

070.5K

Story-Adapter：長いストーリーに基づき、連続的で一貫性のあるグラフィック・イラストレーションを生成します。

概論 Story-Adapterは、テキストストーリーを首尾一貫した画像シーケンスに変換する革新的なストーリー視覚化フレームワークである。研究者によって開発されたこのプロジェクトは、高品質のストーリーイラストを生成するためのトレーニングが不要な反復アプローチを採用している。このフレームワークの特徴は、長いストーリーを扱えることである。

1年前

061.3K

GitDiagram：可视化GitHub代码库结构，将代码仓库转换为交互式系统架构图

GitDiagram: GitHubコードベースの構造を視覚化し、コードリポジトリをインタラクティブなシステムアーキテクチャ図に変換します。

概要 GitDiagramは、GitHubのコードベースを可視化する革新的なツールで、GitHubのリポジトリをインタラクティブなシステムアーキテクチャ図に素早く変換します。先進的なAI技術(Claude 3.5 Sonnet)を使用し、開発者に...

1年前

0127.6K

ElizaOS: 自律実行型マルチインテリジェントの構築、完全機能のオープンソースAIインテリジェントボディ開発フレームワーク

包括的な紹介 Elizaは先進的なマルチインテリジェントボディ（マルチエージェント）開発フレームワークで、自律的なインテリジェントボディ（自律エージェント）の構築と展開プロセスを簡素化することに取り組んでいます。異なる役割設定を持つ複数のインテリジェントボディの配置をサポートし、インテリジェントな...

1年前

079.8K

ebook2audiobook：将电子书转换为有声读物，支持多语言和语音克隆的开源工具

ebook2audiobook: 電子書籍をオーディオブックに変換する、多言語サポートと音声クローンを持つオープンソースツール

一般的な紹介 ebook2audiobookは、強力なオープンソースの電子書籍からオーディオブックツールです。複数のフォーマットのeBookを、完全なチャプターマーカーとメタデータ付きのオーディオブックに変換することができます。このツールは、電子書籍フォーマットの変換にCo...

1年前

087.6K

Memary：知識グラフを使ってエージェントの長期記憶を強化するオープンソースプロジェクト

概要 Memaryは、自律型知能に長期的なメモリ管理ソリューションを提供することに焦点を当てた、革新的なオープンソースプロジェクトです。このプロジェクトは、インテリジェンスが従来のコンテキストウィンドウの限界を突破し、知識グラフと特殊化されたメモリモジュールを通じて、よりスマートなインタラクション体験を実現できるよう支援する。

1年前

069.7K

AI reads books：AI逐页阅读PDF书籍，自动提取知识要点并生成总结

AIが本を読む：AIがPDFの本を1ページずつ読み、知識の要点を自動的に抽出し、要約を生成する。

包括的な紹介 AI-reads-books-page-by-pageはPythonベースのインテリジェントなPDFブック分析ツールで、PDFブックのページごとの分析を自動化し、重要な知識ポイントを抽出し、指定されたページ間隔の後にフェーズを生成します...

1年前

072.8K

OpenAI WebRTC Python：与OpenAI实时API进行语音交互的Python库

OpenAI WebRTC Python: OpenAIリアルタイムAPIと音声対話するためのPythonライブラリ

包括的な紹介 OpenAI Realtime WebRTC Pythonは、OpenAI Realtime APIを使った音声インタラクションの完全なソリューションを開発者に提供する、プロフェッショナルなPythonライブラリです。このプロジェクトは、低遅延を可能にするWebRTC技術に基づいています...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

059.8K

Melty：AIを搭載したコードエディターを体験しよう！

概論 Meltyは、チャットによる会話とGitによるバージョン管理を組み合わせた画期的なAIコードエディターである。ReplicateのCharlieとJacksonによって開発されたこのツールは、従来のAIコーディングツールのペインポイントを解決することを目指している。最大の特徴は...

1年前

068.5K

Aide：VSCodeの開発体験を向上させるAIヘルパー拡張機能、コードのワンクリック注釈、変換、UI生成

概要 AIDE（AI-assisted Development Extension）は、VSCodeのための強力なAI支援開発拡張機能で、ユニークで有用なAIプログラミング支援を提供することに重点を置いています。GitHu...とは異なります。

1年前

066K

AnyText：多言語の画像テキストを生成・編集し、画像内に複数行の中国語を生成することができます。

総合紹介 AnyTextは、拡散モデルに基づいて開発された画期的な多言語ビジュアルテキスト生成・編集ツールです。画像の中に自然で高品質な多言語テキストを生成し、柔軟なテキスト編集機能をサポートします。研究チームによって開発され、ICLR 2024で発表されました。

1年前

068.5K

AIGCPanel: デジタルマンインテグレーションシステムのオープンソースクローン。

総合紹介 AigcPanelは、electron+vue3+typescriptの技術スタックで開発され、Windows上でワンクリックで展開できる、すべてのユーザーのためのワンストップAIデジタルヒューマン制作システムです。AigcPanelは、ユーザーフレンドリーな設計を核心としており、...

1年前

073.8K

AIEditor: 複数のフロントエンドフレームワークをサポートするAI駆動型リッチテキストエディタの作成

包括的な紹介 AIEditorは、Webコンポーネント開発に基づいて、Vue、React、Angularおよび他のほとんどすべての主流のフロントエンドフレームワークをサポートしているAI駆動型の次世代リッチテキストエディタです。PCのWebと...

1年前

061.1K

AI Dev Gallery：Windows本地AI模型开发工具集，端侧模型集成到Windows应用

AI Dev Gallery: WindowsネイティブAIモデル開発ツールセット、Windowsアプリケーションへのエンドサイドモデルの統合

概論 AI Dev Galleryは、Windows開発者向けに設計されたマイクロソフトのAI開発ツールアプリケーション（現在パブリックプレビュー中）である。開発者がAI機能を簡単にWindo...

1年前

059.4K

Edge TTS Worker：使用Cloudflare部署微软语音合成API，兼容OpenAI 格式并封装Web界面

Edge TTS Worker: Cloudflare、OpenAI互換フォーマット、パッケージ化されたウェブインターフェースを使用したMicrosoft音声合成APIの展開

概要 Edge TTS Worker（edge-tsに依存）は、Microsoft Edge TTSサービスをOpenAI互換フォーマットでカプセル化し、Cloudflare Workerにデプロイされたプロキシサービスです。

1年前

0120.2K

BetterWhisperX：話者から切り離された自動音声認識により、高精度の単語レベルのタイムスタンプを提供

はじめに BetterWhisperXは、効率的で正確な自動音声認識（ASR）サービスを提供することに重点を置いたWhisperXプロジェクトの最適化バージョンです。WhisperXの改良版として、このプロジェクトはFederico ...

1年前

075.1K

Copilot后端代理服务：用其他模型接管GitHub Copilot插件服务端

Copilotバックエンドプロキシサービス：他のモデルでGitHub Copilotプラグインサーバーを引き継ぐ

概要 Copilot Backend Agent Service は、DeepSeek などの他の FIM モデルを活用して GitHub Copilot プラグイン・サーバーを管理するために設計されたオープンソース・プロジェクトです。このサービスは、V...を含む様々なIDEをサポートしています。

1年前

064.9K

Gemini Balance：Gemini模型API兼容OpenAI格式，解锁区域限制并支持多API Key轮询

Gemini Balance: GeminiモデルAPIはOpenAIフォーマットと互換性があり、リージョン制限を解除し、マルチAPIキーポーリングをサポートする。

包括的な紹介 Gemini Balanceは、FastAPIフレームワークに基づいて開発されたOpenAI APIプロキシサービスで、効率的なマルチAPI Key管理と最適化機能を提供することを目的としている。このプロジェクトはGeminiモデルコールをサポートしており、主な機能にはマルチAPI...

最新のAIリソース # AI Java オープンソースプロジェクト

12ヶ月前

084.1K

AIaW：拡張可能なプラグインを備えた、フル機能の軽量クロスプラットフォームAIクライアント

包括的な紹介 AIaW（AI as Workspace）は、フル機能で軽量かつ拡張可能なソリューションを提供するために設計された次世代AIクライアントです。このプラットフォームは、OpenAI、Anthropic、Googleを含む幅広いサービスプロバイダをサポートし、...

1年前

059.4K

DeepSeek Engineer：基于DeepSeek API的实验性编码助手,附提示词

DeepSeek Engineer：DeepSeek APIに基づく実験的なコーディングアシスタント。

概要 DeepSeek Engineerは、DeepSeek APIに基づく強力なプログラミングアシスタントツールで、直感的なコマンドラインインタフェースを通じてユーザーと対話し、さまざまなソフトウェア開発タスクを支援します。このツールは、大規模な言語モデリングと実...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

053.1K

OrionChat：マルチプラットフォームAIモデルを統合したシンプルなWebチャットインタフェース（デプロイメント不要）

OrionChatは、複数の主流AIモデルと対話するための統一されたプラットフォームをユーザーに提供する、ウェブベースのAIチャット・インターフェースです。このプロジェクトは、Ollama（ローカルで動作）、OpenAI GPT、Google Gemi...を含む幅広いAIモデルをサポートしています。

1年前

059.5K

X-Kit: XユーザーデータとツイートのためのTwitterデータクロールとアナリティクス

概要 X-Kitは、X（旧Twitter）のユーザーデータやツイートをクロールして分析するために設計されたオープンソースツールです。GitHubユーザーのxiaoxiuniqueによって開発されたこのツールは、ユーザーが任意のXユーザーに関する基本的な情報やツイートを取得するプロセスを自動化するために設計されています。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

065.8K

AI2SRT：ジェミニ・モデルを使用して、ワンクリックで短いナレーション付きビデオや長いビデオの要約ビデオを作成する。

包括的な紹介 AI2SRTは、GeminiAIのビッグモデルを使用して、ワンクリックで短いナレーション付きビデオと長いビデオのビデオ要約を生成し、音声とビデオの書き起こし字幕をサポートするオープンソースプロジェクトです。このプロジェクトは、ビデオコンテンツの作成プロセスを簡素化し、効率的な字幕生成と翻訳機能を提供することを目的としています。ユーザーは、字幕を作成した後、その字幕を字幕翻訳ソフトに渡すことができます。

1年前

065.5K

Open Notebook：个性化AI笔记工具，Notebook LM开源替代方案

Open Notebook: パーソナライズされたAIノートツール、Notebook LMに代わるオープンソース

概要 Open Notebookは、Google Notebook LMに代わるソリューションをユーザーに提供するために設計された、プライバシーに重点を置いたオープンソースのノート管理ツールです。Open Notebookを使えば、ユーザーは自分自身で...

1年前

0111.2K

CogAgent: Smart Spectrumのグラフィカル・インターフェース自動化のためのオープンソースのインテリジェント視覚言語モデル

包括的な紹介 CogAgentは清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースの視覚言語モデルであり、プラットフォーム間のグラフィカルユーザインタフェース(GUI)操作の自動化を目的としている。このモデルはCogVLM(GLM-4V-9B)をベースにしており、中国語と英語の二ヶ国語をサポートしている。

1年前

065.4K

ディスポーズ：人間の姿勢を精密に制御してビデオを生成し、踊る女性を作り出す

一般的な紹介 DisPoseは、制御されたキャラクター画像アニメーション生成に焦点を当てた革新的なオープンソースの人工知能プロジェクトです。研究者チームによって開発され、GitHubでオープンソース化されたこのプロジェクトは、高度なディープラーニング技術を用いて、骨格のポーズ情報を分解することで正確なキャラクターアニメーションの制御を実現しています。

1年前

054.6K

Smolagents：AIインテリジェンスの迅速な開発とインテリジェンスの軽量化のためのオープンソースプロジェクト

包括的な紹介 Smolagentsは、HuggingFaceによって開発された軽量インテリジェントエージェントライブラリで、AIエージェントシステムの開発プロセスを簡素化することに重点を置いています。このプロジェクトは、約1000行のコアコードしかないシンプルな設計思想で知られていますが、強力な機能統合機能を提供しています。このライブラリの最も ...

1年前

087.7K

Vision Parse: 視覚言語モデルを用いたPDFドキュメントのMarkdownフォーマットへのインテリジェント変換

包括的な紹介 Vision Parseは画期的な文書処理ツールで、最先端の視覚言語モデル（Vision Language Models）技術と、PDF文書を高品質のMarkdown形式にインテリジェントに変換する機能を巧みに組み合わせています...

1年前

056.3K

InvSR: 画像解像度の質を向上させるオープンソース画像超解像プロジェクト

一般的な紹介 InvSRは、低解像度画像を高品質な高解像度画像に変換できる拡散インバージョン技術に基づいた革新的なオープンソースの画像超解像プロジェクトです。このプロジェクトは、事前に訓練された大規模拡散モデルに埋め込まれた豊富な画像事前知識を利用し、柔軟なサンプリングメカニズムを通じて、...

1年前

071.3K

無限大：無制限の高解像度画像生成のためのビット単位の自己回帰モデリング

概要 Infinityは、FoundationVisionチームによって開発された画期的な高解像度画像生成フレームワークです。このプロジェクトは、革新的なビットレベルの視覚的自己回帰モデリング・アプローチによって、従来の画像生成モデルの限界を打ち破ります。

1年前

064.5K

GeminiCoder：基于LlamaCoder项目，使用Gemini API快速生成Web应用程序

GeminiCoder: LlamaCoderプロジェクトに基づき、Gemini APIを使用してWebアプリケーションを素早く生成する。

包括的な紹介 GeminiCoderは、Google Gemini APIに基づいて開発された革新的なWebアプリケーション生成ツールです。このプロジェクトは、LlamaCoderの優れた機能を継承し、最新のGemini 1.5 Prを統合しています。

1年前

055.9K

GPTme：在命令行终端中运行的智能编程助手，ChatGPT代码解释器的本地化替代方案

GPTme: コマンドライン・ターミナルで動作するインテリジェント・プログラミング・アシスタント、ChatGPTコード・インタープリターのローカライズされた代替品

総合紹介 GPTMeは、開発者の作業効率を向上させるために設計された革新的な端末AIアシスタントツールです。強力なAI機能と端末環境を完璧に組み合わせ、コード実行、ファイル編集、ウェブブラウジング、視覚認識など多様な機能をサポートします。ChatGPTのコード解...

1年前

057.3K

ChatGPTサービス劣化監視ツール: ChatGPTサービス劣化の検出

包括的な紹介 ChatGPTサービス劣化監視ツールは、ChatGPTサービスがハイリスクIPによって劣化しているかどうかを検出するために設計されたオープンソースプロジェクトです。このツールは、Proof of Work (PoW) の難易度の値を分析し、ユーザ...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

060.4K

LogoCreator：オープンソースのロゴジェネレーター、AIインテリジェンスを使用してプロフェッショナルなブランドロゴを生成します。

一般的な紹介 LogoCreatorは、Together AIとFluxモデルに基づいたオープンソースのロゴ・ジェネレーターで、企業や個人に迅速でプロフェッショナルなロゴ・デザイン・サービスを提供することに焦点を当てています。このプロジェクトは、開発者Nutlopeによって開発され、Gitでオープンソース化されています...

1年前

065.7K

SimGRAG: 類似部分グラフを用いた知識グラフ駆動型検索拡張生成

包括的な紹介 SimGRAG (SimGRAG: Leveraging Similar Subgraphs for Knowledge Graphs Driven Retrieval-Augmented G...

1年前

056.6K

KAG: ハイブリッド知識グラフとベクトル検索のための専門知識ベースQ&Aフレームワーク

包括的な紹介 KAG (Knowledge Augmented Generation)は、OpenSPGエンジンと大規模言語モデル(LLMs)に基づいた、論理的なフォームに導かれた推論と検索のフレームワークです。このフレームワークは、専門的なドメイン知識ベースを構築するために特別に設計されています...

1年前

0103.9K

VideoSeal: ビデオ著作権を保護する高度なオープンソースビデオ隠し透かし埋め込み・抽出ツール

一般的な紹介 VideoSealはFacebook Researchによって開発されたオープンソースのビデオ透かしツールであり、効率的なビデオ透かしの埋め込みと抽出を提供するように設計されている。このツールは、最新のオープンソースモデルをサポートし、事前学習済みモデル、学習コード、推論コード、評価ツールを含んでいます。

1年前

060.5K

Obsidian Copilot：在Obsidian中使用AI助手体验智能化笔记助手

オブシディアン・コパイロット：オブシディアンのAIアシスタントでインテリジェントなノートテイクアシスタントを体験しよう

概論 Obsidian CopilotはObsidian Notesソフトウェア用の強力なAIアシスタントプラグインで、Obsidian NotesのワークフローにOpenAIのインテリジェンスをシームレスに統合します。このプラグインは、開発者のLogan Yang...によって作成されました。

1年前

0103.7K

Languine: AIを使ったアプリケーション翻訳、主要な国際化ライブラリと互換性あり

概要 LanguineはMiddayが開発した強力な翻訳ツールで、アプリのローカライズプロセスを効率化します。Languineを使用することで、開発者はAI技術を活用し、正確で文脈に沿った翻訳を素早く生成することができます。

1年前

051.8K