AIオープンソースプロジェクト

合計1020記事
TubeTube:自部署YouTube视频下载工具

TubeTube: 自己展開型YouTube動画ダウンロードツール

概要 TubeTubeはMattBlackOnlyによって開発されたオープンソースのYouTube動画ダウンロードツールです。このツールは、コアダウンロードエンジンとしてyt-dlpを使用し、マルチスレッドダウンロードをサポートし、同時に複数のビデオをすばやくダウンロードすることができます。ユーザーはyam...
8ヶ月前
023.5K
LangWatch:基于DSPy 框架监控与优化LLM流程的可视化工具

LangWatch:DSPyフレームワークに基づくLLMプロセスのモニタリングと最適化のための可視化ツール

包括的な紹介 LangWatchは、大規模言語モデル(LLM)運用のために設計された包括的なプラットフォームで、監視、分析、評価、データセット管理、キューの最適化を提供します。このプラットフォームは、スタンフォード大学のDSPyフレームワークをベースにしており、ユーザがより良い管理と最適化を行えるように設計されています。
9ヶ月前
022.5K
PR Agent:自动化拉取请求分析工具

PR Agent: プルリクエスト自動分析ツール

概論 PR-AgentはQodoが開発したオープンソースツールで、AI技術によってプルリクエスト(Pull Requests)の処理を自動化する。このツールは、開発者がコードレビューをより効率的に実行できるように、自動化されたフィードバック、提案、分析を提供することができます...
9ヶ月前
025.6K
FinGPT:开源金融大语言模型平台,助力金融分析与预测

FinGPT: 金融分析と予測のためのオープンソース金融ビッグ言語モデリング・プラットフォーム

概論 FinGPTは、AI4Finance財団によって開発されたオープンソースの金融ビッグ言語モデリング・プラットフォームであり、複雑な金融タスクを解決し、フィンテックにおけるイノベーションを推進するために金融セクター向けに設計されている。FinGPTは、軽量適応技術と強化学習アプローチを利用している。
9ヶ月前
027K
Coding Agent:基于Langgraph构建的简单编程助手

コーディング・エージェント:Langgraph上に構築されたシンプルなプログラミング・アシスタント

概要 Coding AgentはAbhinavTheDevによって開発されたインテリジェントなプログラミングアシスタントで、開発者のプログラミング効率を向上させるために設計されています。このツールは、人工知能技術を使用して、コードを自動的に生成し、プログラミングの提案を行い、さまざまなコーディングで開発者を支援します。
9ヶ月前
024.3K
Ragas:评估RAG召回QA准确率与答案相关性

ラガス:RAGリコールQA精度と回答の相関性を評価する

包括的な紹介 Ragasは、RAG(Retrieval Augmented Generation)システムの評価と最適化のために特別に設計されたツールです。Ragasは、クエリ、検索コンテキスト、生成された回答間の関係を分析することで、包括的な評価メトリクスのセットを提供します。これらのメトリクスには、忠実度、回答の関連性、コンテキストの関連性、...
9ヶ月前
036.2K
VeighNa:国内流行的开源量化交易框架

VeighNa:中国で人気のオープンソース定量取引フレームワーク

総合紹介 VeighNaはPythonベースのオープンソース定量取引プラットフォームで、元々は国内の個人トレーダーによって開発され、2015年に正式にローンチされました。シンプルなトレーディング・インターフェース・パッケージから、フル機能のトレーディング開発フレームワークへと進化しています。ユーザーには、プライベート・エクイティ・ファンド、証券...
7ヶ月前
034.5K
OpenCharacter:开源无审查的Character.AI替代品

OpenCharacter:オープンソースの無修正Character.AI代替ツール

概論 OpenCharacterはオープンソースのキャラクター作成ツールで、Character.AIの代替として、AIによるキャラクター作成とインタラクションを無制限に体験できるように設計されています。ユーザーはネイティブモデルを使用して独自のキャラクターを作成し、実行することができます。
9ヶ月前
037.7K
AI Video Starter Kit:在浏览器中全流程创作并编辑AI视频

AIビデオ・スターター・キット: ブラウザ上でAIビデオの作成と編集がフルフローで可能

概論 ビデオ・スターター・キット(Video Starter Kit)は、fal-ai-communityによって公開されたオープンソースプロジェクトで、ブラウザでのビデオ制作にAIモデルを使用する方法を示すものです。画像を動画に変換するためのツールを提供しています。
9ヶ月前
021.7K
SkyPilot:在任何云端高效运行AI与批处理任务的开源框架

SkyPilot: あらゆるクラウドでAIとバッチタスクを効率的に実行するオープンソースフレームワーク

概 要 SkyPilotは、カリフォルニア大学バークレー校のSky Computing Labが始めたオープンソースのフレームワークで、あらゆるクラウドインフラ上でAIやバッチ処理タスクを効率的に実行できるように設計されています。14以上のクラウドサービス(...
8ヶ月前
022.2K
LlamaEdge:本地运行和微调LLM的最快捷方式

LlamaEdge:LLMをローカルで実行し、微調整する最も迅速な方法!

概要 LlamaEdgeは、ローカルデバイスやエッジデバイス上で大規模な言語モデル(LLM)を実行し、微調整するプロセスを簡素化するために設計されたオープンソースプロジェクトです。このプロジェクトはLlama2ファミリーのモデルをサポートし、OpenAI互換のAPIサービスを提供します。
9ヶ月前
025.3K
AutoGen:微软开发的多智能体对话框架

オートジェン:マイクロソフトが開発したマルチインテリジェントな身体対話フレームワーク

概要 AutoGenは、マイクロソフト社の研究者チームによって開発されたオープンソースのフレームワークであり、多知能体の対話を通じて大規模言語モデル(LLM)アプリケーションの構築を簡素化することを目的としている。このフレームワークにより、開発者は互いに対話し、協力してタスクを解決するAIエージェントを作成することができる。このアプローチは、LLMのパフォーマンスを向上させるだけでなく...
9ヶ月前
027.4K
Page Assist:本地AI模型对话与检索文档的网页助手插件

Page Assist: ネイティブAIモデルの対話とドキュメントの検索のためのウェブアシスタントプラグイン

概要 Page Assistは、ローカルのAIモデルと対話する簡単な方法をユーザーに提供するために設計されたオープンソースのブラウザ拡張機能です。この拡張機能を使うと、ユーザーはどのウェブページでもサイドバーを開き、ローカルで動作しているAIモデルと対話することができます。
6ヶ月前
031.9K
MobileAgent:多代理协作的移动设备操作助手

MobileAgent:モバイル機器操作アシスタントのためのマルチエージェント・コラボレーション

一般的な紹介 MobileAgentは、マルチエージェントコラボレーションと強化された視覚認識モジュールにより、モバイルデバイス操作の効率と自動化を改善するために設計された強力なモバイルデバイス操作アシスタントです。X-PLUGチームによって開発され、Androidと...
9ヶ月前
032.6K
Orama:高性能全文本和向量搜索引擎

Orama:高性能な書籍・ベクトル全文検索エンジン

概説 Oramaはオープンソースの高性能検索エンジンで、すべてTypeScriptで記述されており、全文検索、ベクトル検索、ハイブリッド検索をサポートしている。OramaはあらゆるJavaScript実行環境で動作するように設計されており、高速で信頼性の高い検索を提供する。
9ヶ月前
025K
FramePainter:AI驱动的涂鸦式图像编辑工具

FramePainter:AIを搭載した落書き風画像編集ツール

概要 FramePainterは、高度なビデオ拡散技術と直感的なSketchコントロールを活用し、複雑な画像編集を簡単に実現できる画期的なAI駆動型画像編集ツールです。簡単な調整でも、複雑なクリエイティブな変換でも、FramePainter...
9ヶ月前
022.4K
TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

タンクワーク:音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ

概論 TankWorkはオープンソースのデスクトップエージェント・フレームワークで、コンピュータビジョンとシステムレベルのインタラクションを通じて、AIがコンピュータを認識し制御できるように設計されています。このフレームワークは、エージェントが音声やテキストコマンドでコンピュータを直接制御し、リアルタイムのスクリーンコンテンツを処理し、継続的なオーディオビジュアルを提供することを可能にします。
9ヶ月前
022.8K
AI Auto Free:使用自动化工具无限制使用AI IDE(如Cursor和Windsurf)

AIオートフリー:自動化ツール(CursorやWindsurfなど)を使用したAI IDEが使い放題

概要 AI Auto Freeは、CursorやWindsurfなどのAI駆動統合開発環境(IDE)をユーザーが無制限に利用できるように設計された強力な自動化ツールです。このプロジェクトはクロスプラットフォームをサポートし、複数の言語機能を含んでいます。
9ヶ月前
026.4K
Quantum Swarm:多智能体集群协作框架

Quantum Swarm:マルチインテリジェンスクラスターコラボレーションのためのフレームワーク

QuantumSwarmは、AIの人口知能の開発と研究に焦点を当てたオープンソースの人工知能フレームワークです。このプロジェクトはQuarm AIチームによってGitHub上で管理されており、マルチインテリジェンスシステムの構築とテストのための柔軟で効率的なプラットフォームを提供することを目指している。
9ヶ月前
023K
XRAG:优化检索增强生成系统的可视化评估工具

XRAG:検索機能拡張生成システムの最適化のための視覚的評価ツール

包括的な紹介 XRAG(eXamining the Core)は、高度な検索機能拡張生成(RAG)システムの基本コンポーネントを評価するために設計されたベンチマークフレームワークです。各コアモジュールのプロファイリングと分析により、XRAGは、異なる構成やコンポーネントがRAGにどのような影響を与えるかについての情報を提供します。
9ヶ月前
025.7K
文颜:一键美化Markdown文章,适配多个自媒体平台格式(开源本地客户端)

Wenyan:ワンクリックでMarkdown記事を美化し、複数のセルフメディアプラットフォームフォーマットに対応(オープンソースのローカルクライアント)

包括的な紹介 WenYanは、Markdownの記事のタイプセットと美化のために設計されたツールであり、編集されたMarkdownの記事をWeChat、Zhihu、今日の見出しや他のプラットフォームに適した形式に変換することをサポートしています。ユーザーはワンクリックで記事をコピーし、記事を直接...
9ヶ月前
019.8K
CHRONOS:新闻时间线总结工具,提升新闻检索和时间线生成效率

CHRONOS: ニュースのタイムライン要約ツールでニュースの検索とタイムライン生成の効率を改善

一般的な紹介 CHRONOSはAlibaba NLPチームによって開発されたニュースタイムライン要約ツールです。CHRONOSはオープンドメインのタイムライン要約タスクを処理できるだけでなく、効率性とスケーラビリティの面でも優れています。
9ヶ月前
022.3K
Go-with-the-Flow:控制视频中物体的运动轨迹,视频中增减任何运动物体

Go-with-the-Flow:ビデオ内のオブジェクトの動きをコントロールし、ビデオ内の動くオブジェクトを加算または減算します。

一般的な紹介 Go-with-the-Flowは、Netflix Eyeline Studiosの研究チームによって開発されたオープンソースプロジェクトで、ノイズを歪ませることで映像拡散モデルのモーションパターンを制御します。このプロジェクトにより、ユーザーはシーンのカメラと...
9ヶ月前
023.1K
X-Dyna:静态人像参考视频姿态生成视频,让小姐姐的照片跳舞

X-ダイナ:静止画参考動画 ミッシーの写真を踊らせるポーズ生成動画

包括的な紹介 X-Dynaは、ByteDanceによって開発されたオープンソースプロジェクトで、ゼロサンプル拡散技術を使用してダイナミックなポートレートアニメーションを生成します。このプロジェクトでは、ドライブビデオ内の表情や体の動きを使って個々のポートレート画像をアニメーション化し、リアルでコンテキストを意識したモーションエフェクトを生成します。
9ヶ月前
024.2K
腾讯混元3D(Hunyuan3D):生成高分辨率3D资产,多种3D素材生成工作流

Tencent Hybrid 3D(Hunyuan3D):高解像度3Dアセットの生成、複数の3Dマテリアル生成ワークフロー

包括的な紹介 Tencent Hunyuan3D (Hunyuan3D 2.0)は、高解像度のテクスチャ3Dアセットを生成するために設計されたTencentの高度な大規模3D合成システムです。Hunyuan3D-DiTは大規模な形状生成モデルで、Hunyuan3D-DiTは大規模なテクスチャ生成モデルです。
9ヶ月前
026.4K
RAG Web UI:构建智能文档问答系统,简单构建私有Web端知识库

RAG Web UI:インテリジェントなドキュメントQ&Aシステムの構築と、プライベートなウェブサイド・ナレッジベースのシンプルな構築

総合紹介 RAG Web UIは、RAG(Retrieval Augmented Generation)技術に基づいた知的対話システムです。企業や個人が独自の知識ベースに基づいてインテリジェントなQ&Aシステムを構築するのに役立ちます。文書検索と大規模な言語モデルを組み合わせることで、RAG Web UIは正確で信頼性の高い...
9ヶ月前
024.6K
UI-TARS Desktop:使用自然语言控制电脑的桌面智能体应用

UI-TARS Desktop: 自然言語でコンピュータを制御するDesktop Intelligentsiaアプリケーション

概論 UI-TARS Desktopは、ByteDance社が開発したUI-TARS(Visual Language Model)に基づいたグラフィカルインターフェースエージェントアプリケーションです。UI-TARSデスクトップは、ByteDance社が開発したUI-TARS(Visual Language Model)をベースとしたグラフィカルインターフェースエージェントアプリケーションです。
9ヶ月前
036.7K
Devin Cursor Rules:让Cursor和Windsurf 强化为 Devin

デビン・カーソルルール:デビンのために強化されたカーソルとウィンドサーフを作る

概要 Devin Cursor Rulesは、CursorおよびWindsurf統合開発環境(IDE)を、Devinと同様の高度なAI機能を実現するための設定ファイルやツールで拡張することを目的としたオープンソースプロジェクトです。このプロジェクトでは、Devinと同様の高度なAI機能を実現するための設定ファイルやツールを提供しています。
9ヶ月前
023.2K
Repomix:打包代码库为一个文本文件以便大模型检索

Repomix:大規模モデル検索用にコードベースをテキストファイルにパッケージ化

概論 Repomix(以前はRepopackとして知られていた)は、コードベース全体を単一のAIフレンドリーなファイルにパッケージ化するために設計されたオープンソースツールです。このツールにより、開発者は自分のコードベースを大規模な言語モデル(ClaudeやChat...
9ヶ月前
031.3K
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek: git リポジトリのテキストファイルを読み込んで、大規模なモデルのために素早くチャンキングする。

一般的な紹介 Yekは、リポジトリやディレクトリからテキストファイルを読み込んでチャンキングし、大規模言語モデル(LLM)で使用するためにシリアライズするRustベースの高速ツールです。このツールはデフォルトで .gitignore ルールを使って不要なファイルをスキップし、...
9ヶ月前
026.4K
Kheish:多角色智能体,审查、验证和格式化输出以生成高质量结果

Kheish: 高品質な結果を出すために、出力をレビュー、検証、フォーマットするマルチロールインテリジェンス

包括的な紹介 Kheishは、構造化されたステップバイステップのコラボレーションを必要とする大規模言語モデリング(LLM)タスクのために設計されたオープンソースのマルチロールエージェントです。Kheishは単なるコーディネータではなく、それ自体がインテリジェントなエージェントであり、要求に応じてモジュールを要求し、ユーザーの反転を統合します。
9ヶ月前
023.7K
AI ContentCraft:生成短故事、对话脚本、配音、配图的多功能AI内容创作工具

AI ContentCraft:ショートストーリー、ダイアログスクリプト、ナレーション、グラフィックを生成するための多機能AIコンテンツ作成ツール

概要 AI ContentCraftは、テキスト生成、音声合成、画像生成などを統合した多機能なコンテンツ作成ツールです。ストーリー、ポッドキャストスクリプト、付随するオーディオやビデオコンテンツを素早く生成することができます。このツールは複数の言語変換をサポートし、バッチ処理も可能です。
9ヶ月前
024.9K
ComfyUI disty Flow:为 ComfyUI 提供友好的用户界面,简化工作流程

ComfyUI disty Flow: ワークフローを効率化するComfyUIのユーザーフレンドリーなインターフェース

概要 ComfyUI-disty-Flowは、ComfyUIにユーザーフレンドリーなインターフェースを提供するカスタムノードです。ComfyUI-disty-Flowは、ComfyUIにユーザーフレンドリーなインターフェースを提供するカスタムノードです。ワークフローの作成に代わるユーザーインターフェースを提供することで、ワークフローの実行を簡素化することを目的としています。
9ヶ月前
024.6K
Shortest:AI自动化测试工具,使用自然语言进行端到端测试

最短:エンド・ツー・エンドのテストに自然言語を使用するAI自動テストツール

一般的な紹介 Shortestは、Anti-Workチームによって開発されたAIを搭載した自然言語エンドツーエンドテストフレームワークです。Playwrightをベースに構築されており、GitHubとの統合や二要素認証(2FA)をサポートしています。Shortestの主な特徴は...
9ヶ月前
025.9K
Midscene.js:用AI驱动浏览器自动化测试的开源插件

Midscene.js:AIでブラウザ自動テストを推進するオープンソース・プラグイン

概論 Midscene.jsはAIを搭載したブラウザ自動化ツールで、自然言語コマンドによってウェブページを制御し、アサーションを実行し、データを抽出します。Chrome拡張機能、JavaScript SDK、YAMLスクリプトをサポートし、UI測定を簡素化します。
9ヶ月前
030.9K
视频分析工具(Video Analyzer):分析视频内容并生成详细描述

ビデオアナライザー:ビデオコンテンツを分析し、詳細な説明を生成します。

Comprehensive Introduction Video Analyzerは、コンピュータ・ビジョン、音声転写、自然言語処理技術を組み合わせて、詳細なビデオ・コンテンツの説明を生成する、総合的なビデオ分析ツールです。このツールは、動画から主要なフレームを抽出し、音声コンテンツを書き起こします。
8ヶ月前
033.1K
Unsloth:高效微调和训练大语言模型的开源工具

Unsloth: 大規模言語モデルの効率的な微調整と学習のためのオープンソースツール

包括的な紹介 Unslothは、大規模言語モデル(LLM)の微調整と学習のための効率的なツールを提供するために設計されたオープンソースプロジェクトです。このプロジェクトは、Llama、Mistral、Phi、Gemmaなどの有名なモデルをサポートしています。
8ヶ月前
029K
MaxKB:开箱即用的AI知识库问答系统,适合智能客服和企业内部知识库

MaxKB:スマートなカスタマーサービスと社内ナレッジベースのための、すぐに使えるAIナレッジベースQ&Aシステム

包括的な紹介 MaxKB (Max Knowledge Base) は、大規模言語モデルとRAG (Retrieval Augmented Generation) に基づいたオープンソースの知識ベースQ&Aシステムです。このシステムは、インテリジェントな顧客サービス、企業の内部知識ベース、学術研究および教育やその他のシナリオで広く使用されています。
9ヶ月前
033.5K
OmniThink:生成高质量长文的写作框架,搜索外部知识后反思并逐步构建知识树

OmniThink:質の高い長文エッセイを作成するためのライティング・フレームワークで、外部の知識を検索し、それを振り返り、段階的に知識ツリーを構築する。

包括的な紹介 OmniThinkは革新的なマシンライティングフレームワークで、人間の認知プロセスの反復的な拡張と反映を模倣することで、高品質の長文エッセイを生成するように設計されています。OmniThinkは、知識の境界を広げ、豊かで深い情報を生成することに重点を置いています。
9ヶ月前
022.1K
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

OpenAI Realtime Agents: マルチインテリジェントなボディスピーチインタラクションアプリケーション(OpenAIの例)

概論 OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した)高レベルのインテリジェントボディモデルを提供し、...
9ヶ月前
020.9K
SynthLight:对肖像图像进行自然光照渲染(未发布)

SynthLight:ポートレート画像の自然光レンダリング(未発表)

概要 SynthLightは拡散モデルに基づいたポートレートリライティングツールです。合成顔画像の再レンダリングを学習し、実際のポートレート写真の照明効果を調整します。このツールは、物理的なレンダリングエンジンを使用して、異なる照明条件下での照明変換をシミュレートするデータセットを生成します...
9ヶ月前
023.2K
Kokoro-ONNX:高效文本转语音工具,支持多语言和多声音选择

ココロ-ONNX:多言語・多音声をサポートする効率的な音声合成ツール

包括的な紹介 ココロ-ONNXは、ONNXランタイムをベースとしたオープンソースの音声合成(TTS)ツールです。thewh1teagleによって開発されたこのプロジェクトは、効率的で高速な音声合成ソリューションを提供することを目的としています。
9ヶ月前
040.7K
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox: PDF、DOCX、Markdownへの画像変換、ビジュアルモデル高精度OCR

一般的な紹介 Zeroxは、ビジュアルモデルを通してPDF、DOCX、画像やその他のドキュメントをMarkdown形式に変換するために設計されたオープンソースプロジェクトです。このプロジェクトはgetomni-aiチームによって開発され、シンプルで効率的なOCR(光学式文字認識)ソリューションを提供します。
9ヶ月前
031.1K
Charla:基于终端的极简AI聊天工具,本地集成Ollama后端

Charla: Ollamaバックエンドにネイティブに統合されたエンドポイントベースのミニマルなAIチャットツール

概要 Charlaはエンドポイントベースのチャットアプリケーションで、ネイティブ言語モデルとの対話ができるように設計されています。このアプリケーションはOllamaバックエンドと統合され、コンテキストを考慮した対話をサポートし、チャットセッションをMarkdownファイルとして保存します。ユーザーは単に...
9ヶ月前
023.2K
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块

MiniRAG:簡易検索拡張生成フレームワーク、エンティティグラフインデックスリコール関連テキストブロック

包括的な紹介 MiniRAGは、極めてシンプルなRAG(Retrieval Augmented Generation)フレームワークであり、ヘテロジニアスグラフインデキシングと軽量なトポロジー拡張検索によって、小さなモデルでも優れたRAG性能を実現することを目的としている。香港大学データサイエンス研究室(HKUDS)によって開発され、...
9ヶ月前
025.3K
Omni-RGPT:图像和视频区域级理解多模态大模型,提升视觉内容分析能力

Omni-RGPT:画像・映像の領域レベル理解のためのマルチモーダルグランドモデルによるビジュアルコンテンツ分析の強化

包括的な紹介 Omni-RGPTは、画像や動画の領域レベルでの理解を可能にするために設計されたマルチモーダルな大規模言語モデルである。トークンマークテクニックを導入することで、Omni-RGPTは、視覚特徴空間内のターゲット領域を領域キュー(例えば、ボックスや...
9ヶ月前
021.9K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing:自然な会話とコミュニケーションのための低遅延オープンソース音声対話アシスタント

包括的な紹介 ベイリング(Bailing)は、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントです。このプロジェクトは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデリング(LLM)および音声合成(TTS)技術を組み合わせて...
9ヶ月前
027.1K
元界AI:开源版AI数字人克隆与短视频生成工具

メタバースAI:AIデジタル人クローンとショートビデオ生成ツールのオープンソース版

総合紹介 Metaverse AI(オープンソース版)はGitHubでホストされているプロジェクトで、libn-netチームによって開発されている。AI技術によってデジタルな人間の画像や声をクローンし、短い動画を生成することができ、吹き替えや字幕にも対応しています。このツールはWindo...
7ヶ月前
021.4K
WikiChat:使用维基百科数据检索知识的聊天工具

WikiChat:ウィキペディアのデータを使って知識を検索するためのチャットツール

概論 ウィキチャットはスタンフォード大学で開発された実験的なチャットボットで、ウィキペディアからデータを取得することで、大規模言語モデルの事実性を向上させることを目的としている。大規模言語モデル(ChatGPTやGPT-4など)は、最新の情報や人気のないトピックを処理する傾向があります。
9ヶ月前
022.7K
OpenAI Edge TTS:利用 Edge TTS 的免费文本转语音API,兼容 OpenAI 格式

OpenAI Edge TTS: Edge TTSを使ったフリーの音声合成APIで、OpenAIのフォーマットと互換性があります。

一般的な紹介 OpenAI Edge TTSは、OpenAIと互換性のあるネイティブの音声合成(TTS)APIを提供するオープンソースプロジェクトです。このプロジェクトでは、Microsoft Edgeのオンライン音声合成サービスを使用して、ユーザーが高品質な音声合成を行うことができます。
9ヶ月前
028.4K
AIEvo:创建多智能体协作应用的高效框架

AIEvo:マルチインテリジェントな協調アプリケーションを作成するための効率的なフレームワーク

概要 AIEvoは、Ant Groupのオープンソースマルチエージェントフレームワークで、 マルチエージェントアプリケーションを効率的に作成するために設計されています。このフレームワークは、複雑なタスクの実行成功率を向上させるために、 SOPタスクグラフに厳密に従います。また、フィードバックと監視機構により、高い柔軟性とスケーラビリティを保証します。
9ヶ月前
022.4K
PPTAgent:自动生成和评估PPT演示文稿,文档转PPT

PPTAgent: PPTプレゼンテーション、ドキュメントからPPTへの自動生成と評価

概要 PPTAgentは、ドキュメントからプレゼンテーションを自動生成する革新的なシステムです。このシステムは、プレゼンテーションの作成における人間のアプローチを取り入れ、コンテンツの品質と視覚的なインパクトを確保するための2段階のプロセスを採用しています。さらに、PPTAgentはPPTEvalを導入しています。
9ヶ月前
026.6K
FlowiseAI:构建自定义LLM应用的节点拖放界面

FlowiseAI:カスタムLLMアプリケーションのためのノードドラッグアンドドロップインターフェースの構築

一般的な紹介 FlowiseAIは、開発者がカスタムLLM(大規模言語モデル)アプリケーションとAIエージェントを構築するために設計されたオープンソースのローコードツールです。ドラッグ&ドロップのシンプルなインターフェースで、ユーザーはLLMアプリケーションを素早く作成し、繰り返し実行することができます。
9ヶ月前
028.9K
RealtimeSTT:实时语音转文字工具,基于Whisper实现低延迟流式语音识别

RealtimeSTT: Whisperをベースとした低遅延ストリーミング音声認識のためのリアルタイム音声テキスト変換ツール

概論 RealtimeSTTは、高度な音声アクティビティ検出とウェイクワードアクティベーションを備えた、効率的で低レイテンシーのリアルタイム音声テキスト変換ライブラリです。Kolja Beigelによって開発され、高速で正確な音声テキスト変換を必要とするアプリケーションをサポートします。
9ヶ月前
029.4K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: データクリーニング効率を向上させるセマンティックテキスト重複排除の高速実装

包括的な紹介 SemHashは、意味的類似性によってデータセットの重複を除去するための軽量で柔軟なツールです。Model2Vecの高速な埋め込み生成と、Vicinityの効率的なANN(近似最近傍)類似検索を組み合わせています。
9ヶ月前
025K
Cognita:构建模块化RAG应用的开源框架,快速测试多样RAG策略

Cognita:モジュラーRAGアプリケーションを構築し、多様なRAG戦略を迅速にテストするためのオープンソースフレームワーク

包括的な紹介 Cognitaは、RAG(Retrieval-Augmented Generation)ベースのアプリケーションの開発を簡素化するためにTrueFoundry社によって開発されたオープンソースのフレームワークです。このフレームワークは、構造化されたモデ...
9ヶ月前
026.6K
BotSharp:基于.NET的多智能体AI应开发与管理平台

BotSharp:.NETベースのマルチインテリジェンスAI開発・管理プラットフォーム

包括的な紹介 BotSharpは、包括的なAIチャットボットプラットフォーム構築ツールを提供することに特化した、.NET Coreベースのオープンソースプロジェクトです。C#プログラミングを採用し、クロスプラットフォームでの運用をサポートし、機械学習アルゴリズムの適用を簡素化することで、エンタープライズレベルの開発者が効率的に...
9ヶ月前
022.3K
Weebo:实时语音聊天机器人,提供自然语言对话体验

Weebo: 自然言語での対話体験を提供するリアルタイム音声チャットボット

はじめに Weeboは、音声認識にWhisper Small、自然言語生成にLlama 3.2、音声合成にKokoro-82Mを利用したオープンソースのリアルタイム音声チャットボットです。このプロジェクトはAman...によって開発されました。
9ヶ月前
023.6K
OmAgent:构建多模态智能设备的智能体框架

OmAgent:マルチモーダル・スマートデバイス構築のための知的身体フレームワーク

包括的な紹介 OmAgentはOm AI Labによって開発されたマルチモーダルインテリジェントボディフレームワークであり、スマートデバイスにAIを搭載した強力な機能を提供することを目的としている。最先端のマルチモーダルベースモデルとインテリジェントボディアルゴリズムを統合することで、開発者は様々なデバイス上で効率的なスマートデバイスを作成することができます。
9ヶ月前
023.2K
RAIN:实时捕捉真人表情生成动漫形象视频流

RAIN:アニメ映像のビデオストリームを生成するためのリアルタイムの人間の表情のキャプチャ

概論 RAIN(Real-time Animation Of Infinite Video Stream)は、無限のビデオストリームのアニメーション効果をリアルタイムで生成するために設計されたオープンソースプロジェクトである。このプロジェクトはPscgylottiによって開発されました。
9ヶ月前
023.7K
Agent Service Toolkit:基于LangGraph构建AI智能体的完整工具集

エージェント・サービス・ツールキット:LangGraphに基づくAIインテリジェンス構築のための完全なツールセット

包括的な紹介 AIエージェント・サービス・ツールキットは、LangGraph、FastAPI、Streamlit上に構築された完全なツールセットで、開発者がAIエージェント・サービスを迅速に構築し、実行できるように設計されています。このツールキットは...
9ヶ月前
020.7K
Memora:构建人性化AI记忆模块,保存并更新与人类的互动信息

Memora:人間との相互作用に関する情報を保存・更新するための、人間化されたAIメモリモジュールの構築

概要 Memoraは、パーソナライズされたAIに人間の記憶を複製するように設計されたエージェントである。タイムスタンプ付きの記憶、感情マーカー、マルチモーダル記憶などの機能により、AIが人間のように過去の交流、感情、共有された経験の詳細を記憶することを支援する。
9ヶ月前
025.9K
Stagehand:自然语言实现浏览器自动化操作框架

Stagehand: ブラウザオートメーション操作の自然言語実装フレームワーク

一般的な紹介 Stagehand は、シンプルさと拡張性に重点を置いた AI ウェブブラウジングフレームワークである。Playwrightと完全に互換性があり、3つのシンプルなAI API(act、extract、observe)を提供する。
9ヶ月前
026K
Micro Agent:AI编程智能体,自动生成代码并测试、修复代码

マイクロ・エージェント:コードを自動生成し、テストと修正を行うAIプログラミング・インテリジェンス。

一般的な紹介 Micro-Agentは、Builder.ioによって開発されたオープンソースのAIコーディングアシスタントであり、開発者にコードを自動的に生成してテストする機能を提供するように設計されている。自然言語による記述を理解することでテストケースを生成し、すべてのテストがパスするまでコードを繰り返し実行することで、オープンなコードを減らすことができます。
9ヶ月前
022.5K
Sherpa-ONNX:使用ONNXRuntime实现离线语音识别和合成

Sherpa-ONNX: ONNXRuntimeによるオフライン音声認識と合成

概要 sherpa-onnxは、Next-gen Kaldiチームによって開発されたオープンソースプロジェクトで、効率的なオフライン音声認識および音声合成ソリューションを提供します。Android、iOS、Raspber...など複数のプラットフォームをサポートしています。
9ヶ月前
071.5K
Eko:自然语言构建智能体工作流,实现桌面与浏览器自动化

Eko: デスクトップとブラウザの自動化のための自然言語によるインテリジェント・ボディ・ワークフローの構築

概論 Eko は、自然言語記述によって効率的なインテリジェントエージェントワークフローを構築するために設計された、プロダクショングレードの JavaScript フレームワークです。開発者が深いプログラミングをすることなく、AI 技術を使って日常的なタスクを自動化できるよう設計されています。
7ヶ月前
026.1K
Agent Inbox:与AI智能体进行人机交互的管理界面

エージェント・インボックス:AIインテリジェンスとのヒューマンコンピュータインタラクションのための管理インターフェース

概論 Agent InboxはLangChainチームによって開発されたオープンソースプロジェクトで、AIインテリジェンスと対話するための新しいユーザー体験を提供します。このプロジェクトにより、ユーザーは一元化されたインターフェイスを通して、複数のAIインテリジェンスとのインタラクションを管理し、最適化することができます。
9ヶ月前
026.9K
Social Media Agent:社交媒体智能助手,自动生成和管理社交媒体内容

ソーシャルメディア・エージェント:ソーシャルメディア・コンテンツを自動生成・管理するソーシャルメディア用インテリジェント・アシスタント

概要 ソーシャルメディアエージェント(Social Media Agent)は、ソーシャルメディアコンテンツの生成と管理を自動化するために設計された、新しいエージェントインボックスによってインタラクション情報を管理するオープンソースプロジェクトです。このプロジェクトはLangChainチームによって開発されました。
9ヶ月前
022.7K
Executive AI Assistant:AI行政助理,提醒阅读邮件并规划工作日程

エグゼクティブAIアシスタント:AIエグゼクティブアシスタント、電子メールを読むためのリマインダー、仕事のスケジュールを計画する

概要 エグゼクティブAIアシスタント(EAIA)は、ユーザーの日常業務を自動化・管理するために設計されたAIベースのアシスタントツールである。LangChain社によって開発されたこのツールは、Eメール、スケジュール管理、タスク管理などを行うことができます。
9ヶ月前
020.3K
MangaNinjia:自动化线稿上色工具,为动漫黑白线稿快速填色

MangaNinjia:アニメのモノクロ線画に素早く色をつける自動線画着色ツール。

総合紹介 MangaNinjiaはAlibaba Tongyi Visual Intelligence Lab (Ali-Vilab)によって開発されたオープンソースプロジェクトで、線画のカラーリングの自動処理に焦点を当てています。このツールは、ディープラーニング技術によって参照画像の正確なカラーマッチングを実現し、線画の色付けを大幅に改善します。
9ヶ月前
024.3K
Audiblez:生成有声书,使用Kokoro将电子书转换为有声读物

Audiblez: ココロでオーディオブックを作成、電子書籍をオーディオブックに変換

概要 Audiblezは、電子書籍(.epub形式など)をオーディオブック(.m4b形式など)に変換するためのオープンソースプロジェクトです。Kokoroの高品質音声合成技術を利用し、多言語・多音声をサポートしています。ユーザーは単純に...
9ヶ月前
026.9K
Search o1:赋予推理模型主动搜索能力,让大模型边思考边搜索外部知识

検索 o1: 推論モデルに能動的な検索機能を与え、大規模モデルが思考しながら外部の知識を検索できるようにする。

包括的な紹介 Search-o1は、高度な検索メカニズムを統合することで、大規模推論モデル(LRM)のパフォーマンスを向上させることを目的としたオープンソースプロジェクトである。コアとなるアイデアは、動的な検索と知識の統合を通じて、推論プロセスで遭遇する知識不足の問題を解決することです。プロジェクトのスポンサーはsunn...
9ヶ月前
019.1K
MoneyPrinter V2:自动生成YouTube短视频与Twitter内容并发布

MoneyPrinter V2:短いYouTube動画とTwitterコンテンツを自動生成し、公開する

一般的な紹介 MoneyPrinter V2はFujiwaraChokiによって開発されたオープンソースプロジェクトで、自動化によってユーザーがオンラインでお金を稼ぐのを助ける。このプロジェクトは主にTwitter自動化、YouTubeショートビデオ生成、アフィリエイトキャンプを統合しています。
9ヶ月前
035K
RTranslator:语音实时翻译安卓应用,免费且支持离线使用

RTranslator: Android用リアルタイム音声翻訳アプリ!

一般的な紹介 RTranslatorは、Androidデバイスのために設計された事実上オープンソース、無料のオフラインリアルタイム翻訳アプリです。ユーザーはBluetoothヘッドセットを接続することで、携帯電話をポケットに入れたまま、まるで自分の国の言葉を話しているかのように他の人と会話をすることができます。
9ヶ月前
025.7K
Gemini Next Chat:一键免费部署您的私人多模态Gemini应用

Gemini Next Chat: ワンクリックで、プライベートなマルチモーダルGeminiアプリを無料でデプロイできます!

概論 Gemini Next Chatは、Geminiプライベートアプリケーションを簡単にデプロイできるように設計されたオープンソースプロジェクトです。このプロジェクトは、Gemini 1.5とGemini 2.0のマルチモーダルモデルをサポートしており、ユーザーはVercel上でワンクリックするだけでデプロイすることができます。
9ヶ月前
022.5K
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser:マウスアクションをAI経由でSelenium Pythonスクリプトに変換するブラウザ自動化コードの生成

概要 AutoMouserは、ユーザーのインタラクションをインテリジェントに追跡し、OpenAIのGPTモデルを使用してSeleniumテストコードを自動的に生成するChrome拡張機能です。ユーザーのブラウザ操作を記録し、それを変換することでテストコードを生成します。
9ヶ月前
024.7K
Vanna:利用RAG技术将文本生成精准SQL查询

Vanna: RAG技術を使ったテキストからの正確なSQLクエリの生成

包括的な紹介 VannaはMITライセンスのオープンソースPythonフレームワークで、RAG(Retrieval Augmented Generation)技術を使ってSQLクエリを生成することに重点を置いている。ユーザはRAGモデルを訓練し、自分のデータに適用し、質問をすると、Vannaは適切なSQLクエリを返す。
9ヶ月前
024.6K
SVFR:实现视频人脸修复的统一框架,修复黑白、模糊的人像老视频

SVFR:ビデオ顔修復を実装する統一フレームワーク、白黒、ぼやけたポートレート古いビデオの修復

包括的な紹介 SVFR(Stable Video Face Restoration)は、基本顔復元(Basic Face Restoration: BFR)、色付け、修復、およびそれらの組み合わせタスクをサポートする、ビデオ顔復元のための統一フレームワークである。このフレームワークは、生成的プリオールと運動学的プリオールを利用し...
9ヶ月前
024.7K
LiveTalking:开源实时互动数字人直播系统,实现音视频同步对话

LiveTalking: オープンソースのリアルタイム・インタラクティブ・デジタル・ヒューマン・ライブ・システム。

包括的な紹介 LiveTalkingは、オープンソースのリアルタイムインタラクティブデジタルヒューマンシステムであり、高品質のデジタルヒューマンライブソリューションの構築に取り組んでいます。このプロジェクトは、Apache 2.0オープンソースプロトコルを使用し、ER-NeRFレンダリング、リアルタイムオーディオおよびビデオストリーミング処理を含む多くの最先端技術と統合されています。
9ヶ月前
040.2K
Aider:开源编程助手工具,使用AI助手进行代码编写和文件编辑

Aider: オープンソースのプログラミングアシスタントツール。

一般的な紹介 Aiderは強力なオープンソースのAIプログラミングアシスタントツールで、開発者が自然言語対話を通してコードを書いたり、編集したり、リファクタリングしたりするのを助けます。対話型AIペアプログラミングツールとして、Aiderは多くの主要なプログラミング言語をサポートし、Gitにシームレスに統合することができます...
6ヶ月前
028.6K
JoyGen:音频驱动的3D深度感知人像说话视频编辑工具

ジョイジェン:音声駆動型3D奥行き認識型トーキングビデオ編集ツール

包括的な紹介 JoyGenは、音声による表情生成の問題を解決することに焦点を当てた、話す顔のための革新的な2段階映像生成フレームワークである。Jingdong Technologyのチームによって開発されたこのフレームワークは、高度な3D再構成技術と音声特徴抽出法を用いて、話し手のアイデンティティ特性と表情を正確に捉えます。
9ヶ月前
023.5K
VSR:AI技术无损去除视频水印和硬字幕软件(视频去水印客户端7G+)

VSR:AI技術によるロスレスビデオ透かし除去及びハード字幕ソフトウェア(ビデオ透かし除去クライアント7G+)

包括的な紹介 ビデオ字幕リムーバー(Video-subtitle-remover、略してVSR)は、AI技術に基づくビデオ処理ソフトウェアで、ビデオからハード字幕やテキストウォーターマークを削除するために特別に設計されています。このツールは、様々なAIアルゴリズムモデル(STTN、L...
9ヶ月前
033.4K
微信视频号下载器:快速下载微信视频号视频,支持多种格式和平台

WeChat動画番号ダウンローダー:WeChat動画番号の動画を素早くダウンロード、複数のフォーマットとプラットフォームをサポートする

総合紹介 WeChat動画番号ダウンローダーはオープンソースプロジェクトで、ユーザーがWeChat動画番号から動画コンテンツを素早くダウンロードできるように設計されています。このツールは、様々なビデオフォーマットとプラットフォームをサポートしており、ユーザーはWindowsとmacOSシステム上で簡単に使用することができます。このプロジェクトはltaooによって開発され、...
9ヶ月前
026.9K
Riona-AI-Agent:社交媒体自动化互动智能体,自动搜索、点赞、留言

Riona-AI-Agent: 自動的に検索、いいね!、メッセージを残すソーシャルメディア自動対話型インテリジェンス

概要 Riona-AI-Agentは、主要なソーシャルメディア・プラットフォームの運用を管理・最適化するために特別に設計された、AIを搭載した革新的な自動化ツールです。このプロジェクトは、Instagram、Twitter、GitHub などのプラットフォーム用の高度な AI モデルを利用して、...
9ヶ月前
079.7K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NVインジェスト:複雑なフォーマットのドキュメントを解析し、マルチモーダルデータをメタデータとテキストに抽出する。

包括的な紹介 NV Ingest (NVIDIA Ingest)は、何十万もの複雑で厄介な非構造化PDFやその他の企業ドキュメントを解析するために設計された、早期アクセス可能なマイクロサービス群です。これらのドキュメントをメタデータとテキストに変換し、検索に埋め込むことができます...
9ヶ月前
028.1K

「常時稼働のDeepseek AIアシスタント:Deepseek-V3に基づくインテリジェントな音声対話システムの構築

総合紹介 Always-On AI Assistantは、Deepseek-V3、RealtimeSTT、Typerなどの先進技術を統合することで、強力で永続的なオンラインAIアシスタントシステムを構築する革新的なAIアシスタントプロジェクトです。
9ヶ月前
025.9K
Browser Use Web UI:运行AI智能体浏览网页,让AI能够自动操作网页的开源框架

Browser Use Web UI: AIインテリジェンスがウェブをブラウズするためのオープンソースフレームワーク。

概要 ブラウザユースWeb UIは、AIエージェントにグラフィカルインターフェースツールとしてブラウザインタラクション機能を提供することに焦点を当てた革新的なオープンソースプロジェクトです。このプロジェクトは、ブラウザユースコアフレームワークの上に構築されており、Gradio ...
4ヶ月前
032.2K
NVIDIA联合LangChain推出:分析编写结构化报告的高级指南,实现AI驱动的技术报告生成

NVIDIAとLangChainが、AI主導のテクニカルレポート生成を可能にする、アナリティクス向け構造化レポート作成のアドバンスガイドを発表

概論 これはLangChainとNVIDIAが共同開発した構造化レポート生成ブループリント・プロジェクトで、GitHubのJupyter notebookチュートリアルで紹介されている。このプロジェクトは高度なAI技術、特にLlama-3.3-7...を利用しています。
7ヶ月前
022.5K
BrownChat:开源实时语音聊天的AI助手

BrownChat:オープンソースのリアルタイム音声チャットAIアシスタント

概要 BrownChatはLarge Language Modelling (LLM)技術に基づいたリアルタイム音声チャットアプリケーションです。GitHubユーザーのsugarforeverによって開発されたこのプロジェクトは、高度な自然言語処理技術によってユーザーのコミュニケーション体験を向上させることを目的としています。
9ヶ月前
022.1K
Lecca:无代码构建AI智能体与AI工作流构建平台

Lecca:AIインテリジェンスとAIワークフローを構築する コードなしでプラットフォームを構築する

包括的な紹介 Leccaは、複数のツールやワークフローで大規模言語モデル(LLM)を構成し、デプロイすることができる強力なAIプラットフォームです。ユーザは簡単にAIエージェントを構築、カスタマイズ、自動化することができます。Leccaは幅広いAIプロバイダとモデルを提供しています。
7ヶ月前
021.5K