AIオープンソースプロジェクト

合計1020記事
Hibiki:实时语音翻译模型,保留原声特点的流式翻译

Hibiki:リアルタイム音声翻訳モデル、元の音声の特徴を保持したストリーミング翻訳

一般的な紹介 Hibikiは、Kyutai Labsによって開発された高忠実度のリアルタイム音声翻訳モデルです。従来のオフライン翻訳機とは異なり、Hibikiはユーザーが話している最中にリアルタイムでターゲット言語の自然な音声翻訳を生成し、テキスト翻訳も提供することができます。このモデルは...
8ヶ月前
026.6K
Klavis AI:面向AI应用的模型上下文协议(MCP)集成工具

Klavis AI: AIアプリケーションのためのモデルコンテキストプロトコル(MCP)統合ツール

概論 Klavis AIは、AIアプリケーションが外部のツールやデータソースと動的に接続することを可能にするオープンスタンダードであるモデルコンテキストプロトコル(MCP)の使用と統合を簡素化することに焦点を当てたオープンソースプラットフォームです。
5ヶ月前
026.6K
99AI:集成多模态AI服务的商业化Web应用(免费开源)

99AI:マルチモーダルAIサービスを統合した商用ウェブアプリケーション(無料オープンソース)

包括的な紹介 99AIはオープンソースのAIウェブアプリケーションプロジェクトで、導入が容易で敷居の低い統合AIサービスプラットフォームを提供することを目的としています。このプロジェクトは、インテリジェントな対話、マルチモーダルモデル、アプリケーションプラザ、ネットワーク検索をサポートし、AI絵画、音楽、ビデオを統合します。
11ヶ月前
026.5K
LogoCreator:开源Logo生成器,使用AI智能生成专业品牌Logo

LogoCreator:オープンソースのロゴジェネレーター、AIインテリジェンスを使用してプロフェッショナルなブランドロゴを生成します。

一般的な紹介 LogoCreatorは、Together AIとFluxモデルに基づいたオープンソースのロゴ・ジェネレーターで、企業や個人に迅速でプロフェッショナルなロゴ・デザイン・サービスを提供することに焦点を当てています。このプロジェクトは、開発者Nutlopeによって開発され、Gitでオープンソース化されています...
10ヶ月前
026.5K
DH live:在30/40系显卡流畅实时交互的AI数字人

DHライブ: 30/40シリーズグラフィックスカードでスムーズなリアルタイムインタラクションを実現するAIデジタルピープル

一般的な紹介 DH_liveは、サンプルレスラーニングに基づいたリアルタイムのライブデジタルヒューマンプロジェクトで、スムーズでインタラクティブなライブストリーミング体験をユーザーに提供することを目的としています。このプロジェクトは、NVIDIA 30および40シリーズのグラフィックカードをサポートし、25fps以上でリアルタイムに実行することができます。ユーザーは...
11ヶ月前
026.5K
Watermark Removal:开源去除图像水印工具,图片去水印恢复原始图像

透かし除去:オープンソース画像透かし除去ツール、画像透かし復元オリジナル画像

概論 透かし除去は、機械学習とディープラーニングの技術を画像修復、特に画像から透かしを除去するために使用するオープンソースプロジェクトです。このプロジェクトはChimzuruoke Okaforによって開発され、Con...
8ヶ月前
026.5K
Cognita:构建模块化RAG应用的开源框架,快速测试多样RAG策略

Cognita:モジュラーRAGアプリケーションを構築し、多様なRAG戦略を迅速にテストするためのオープンソースフレームワーク

包括的な紹介 Cognitaは、RAG(Retrieval-Augmented Generation)ベースのアプリケーションの開発を簡素化するためにTrueFoundry社によって開発されたオープンソースのフレームワークです。このフレームワークは、構造化されたモデ...
9ヶ月前
026.5K
Motia:用代码快速构建智能体的开发框架

Motia: コードでインテリジェンスを迅速に構築するための開発フレームワーク

一般的な紹介 Motiaは、GitHubでホストされ、MotiaDevチームによって開発された、ソフトウェアエンジニアのためのオープンソースのAIエージェントフレームワークです。開発者は使い慣れたプログラミング言語(例:Python、TypeScript、Rub...
7ヶ月前
026.5K
Gemini Playground:无服务器部署Gemini多模态对话网站

Gemini Playground: Geminiマルチモーダル対話サイトのサーバーレス展開

一般的な紹介 Gemini Playgroundは、ユーザーが迅速にマルチモーダル対話サイトを展開するために設計されたオープンソースプロジェクトです。このプロジェクトは、技術的なクロールエビによって開発され、デプロイを完了するために10秒でGemini API Keyの使用をサポートしています。ユーザが...
8ヶ月前
026.4K
PPTAgent:自动生成和评估PPT演示文稿,文档转PPT

PPTAgent: PPTプレゼンテーション、ドキュメントからPPTへの自動生成と評価

概要 PPTAgentは、ドキュメントからプレゼンテーションを自動生成する革新的なシステムです。このシステムは、プレゼンテーションの作成における人間のアプローチを取り入れ、コンテンツの品質と視覚的なインパクトを確保するための2段階のプロセスを採用しています。さらに、PPTAgentはPPTEvalを導入しています。
9ヶ月前
026.4K
Local-NotebookLM:本地PDF生成语音播客的开源工具

Local-NotebookLM: オープンソースツールの音声ポッドキャストを生成するローカルPDF

概要 Local-NotebookLMはオープンソースプロジェクトで、ローカルで動作するインテリジェントな文書処理とコンテンツ生成ツールを提供することを目的としています。Google NotebookLMにインスパイアされ、ユーザーがPDFやその他のドキュメントを様々な...
7ヶ月前
026.4K
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek: git リポジトリのテキストファイルを読み込んで、大規模なモデルのために素早くチャンキングする。

一般的な紹介 Yekは、リポジトリやディレクトリからテキストファイルを読み込んでチャンキングし、大規模言語モデル(LLM)で使用するためにシリアライズするRustベースの高速ツールです。このツールはデフォルトで .gitignore ルールを使って不要なファイルをスキップし、...
9ヶ月前
026.4K
DreamTalk:使用一张头像图片即可生成表情丰富的说话视频

DreamTalk:1枚のアバター画像で表情豊かなトーキングビデオを生成!

DreamTalk総合紹介 DreamTalkは清華大学、アリババグループ、華中科技大学が共同開発した拡散モデル駆動型表情トーキングヘッド生成フレームワークです。主に、ノイズ除去ネットワーク、スタイル認識リップエキスパート、スタイル予測器の3つの部分から構成されており、ノイズ除去ネットワーク、スタイル認識リップエキスパート、スタイル予測器は、...
10ヶ月前
026.4K
Zola:支持文档上传与多模型的开源AI聊天Web应用

Zola:ドキュメントのアップロードとマルチモデルをサポートするオープンソースのAIチャット・ウェブアプリ

一般的な紹介 Zolaは、開発者のJulien Thibeaut(GitHubユーザー名ibelick)によって開発され、GitHubでホストされているフリーでオープンソースのAIチャットアプリである。最大の特徴は、複数のAIモードをサポートしていることです。
6ヶ月前
026.3K
Infinity:生成高分辨率图像的比特自回归建模,实现无限制高分辨率图像生成

無限大:無制限の高解像度画像生成のためのビット単位の自己回帰モデリング

概要 Infinityは、FoundationVisionチームによって開発された画期的な高解像度画像生成フレームワークです。このプロジェクトは、革新的なビットレベルの視覚的自己回帰モデリング・アプローチによって、従来の画像生成モデルの限界を打ち破ります。
10ヶ月前
026.3K
ell:轻量级函数式提示词工程框架

エル:軽量機能的キュー・ワード工学フレームワーク

一般的な紹介 ellは、元OpenAIの研究者であるウィリアム・ガスによって開発された軽量な関数型言語モデル・プログラミング・ライブラリである。ellは、キューを単なる文字列としてではなく、プログラムとして扱うことを念頭に設計されている。
8ヶ月前
026.3K
MoneyPrinterTurbo:输入视频主题一键生成视频文案和高清短视频

MoneyPrinterTurbo:ビデオテーマを入力すると、ワンクリックでビデオコピーと短いHDビデオを生成します。

総合紹介 MoneyPrinterTurboはオープンソースプロジェクトで、先進的なAIビッグモデル技術を利用して、ワンクリックで短いHDビデオを生成する機能を実現します。ユーザーは動画のテーマやキーワードを提供するだけで、システムが自動的に動画コピー、動画クリップ、動画字幕を生成します。
7ヶ月前
026.3K
腾讯混元3D(Hunyuan3D):生成高分辨率3D资产,多种3D素材生成工作流

Tencent Hybrid 3D(Hunyuan3D):高解像度3Dアセットの生成、複数の3Dマテリアル生成ワークフロー

包括的な紹介 Tencent Hunyuan3D (Hunyuan3D 2.0)は、高解像度のテクスチャ3Dアセットを生成するために設計されたTencentの高度な大規模3D合成システムです。Hunyuan3D-DiTは大規模な形状生成モデルで、Hunyuan3D-DiTは大規模なテクスチャ生成モデルです。
9ヶ月前
026.3K
NVIDIA Garak:检测LLM漏洞的开源工具,确保生成式AI的安全性

NVIDIA Garak:LLMの脆弱性を検出し、安全な生成AIを実現するオープンソースツール

包括的な紹介 NVIDIA Garakは、大規模言語モデル(LLM)の脆弱性を検出するために特別に設計されたオープンソースツールです。静的、動的、適応的なプロービングを通して、イリュージョン、データリーク、ヒントインジェクション、エラーメッセージ生成、有害コンテンツ生成などの複数の弱点がないかモデルをチェックします。
11ヶ月前
026.3K
AI Auto Free:使用自动化工具无限制使用AI IDE(如Cursor和Windsurf)

AIオートフリー:自動化ツール(CursorやWindsurfなど)を使用したAI IDEが使い放題

概要 AI Auto Freeは、CursorやWindsurfなどのAI駆動統合開発環境(IDE)をユーザーが無制限に利用できるように設計された強力な自動化ツールです。このプロジェクトはクロスプラットフォームをサポートし、複数の言語機能を含んでいます。
9ヶ月前
026.3K
E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一

E2M: 複数のファイル形式をMarkdownに変換し、簡単に統一されたドキュメントフォーマットを実現する

概要 E2M (Everything to Markdown)は、様々なファイルフォーマットをMarkdownフォーマットに変換するために設計されたオープンソースのPythonライブラリです。このツールは、doc、docx、epub、html、htm、u...などのフォーマットをサポートしています。
10ヶ月前
026.3K
Zed:Rust开发的高性能多人协作代码编辑器

Zed: Rustによって開発された高性能なマルチプレイヤー共同コードエディタ

一般的な紹介 Zedは、AtomとTree-sitterのクリエイターによって開発された、高性能なマルチユーザー共同コードエディターです。Rust言語で書かれたZedは、高速で流動的なコーディング体験を提供するように設計されています。主な機能として、マルチプレイヤー...
10ヶ月前
026.3K
LlamaCoder:使用提示词快速生成并发布小型web应用

LlamaCoder: プロンプトワードを使って小さなウェブアプリケーションを素早く生成・公開

一般的な紹介 LlamaCoderは、Llama 3.1とTogether AIをベースにしたオープンソースのコード生成ツールです。LlamaCoderは、Llama 3.1とTogether AIをベースにしたオープンソースのコード生成ツールです。
10ヶ月前
026.3K
NGCBot:新闻推送、AI对话与群聊管理的微信机器人

NGCBot:ニュースプッシュ、AI対話、グループチャット管理のためのWeChatボット

包括的な紹介 NGCBotはWeChatロボットオープンソースプロジェクトの開発に基づくHOOKメカニズムであり、開発者ngc660sec(Yunshan/eXM)によって作成され、GitHub上でホストされている 反復の2年後、V2.3の現在のバージョンは、最初のシンプルな機能から...
7ヶ月前
026.2K
Step1X-Edit:自然语言指令编辑图像的开源工具

Step1X-Edit:自然言語指示による画像編集のためのオープンソースツール

一般的な紹介 Step1X-Editは、Stepfun AIチームによって開発され、GitHubでホストされているオープンソースの画像編集フレームワークです。マルチモーダル大規模言語モデル(Qwen-VL)と拡散変換器(DiT)を組み合わせることで、ユーザーはシンプルで自然な操作で画像を作成することができます。
5ヶ月前
026.2K
ChatOllama:基于Nuxt 3和Ollama的本地实时聊天应用UI

ChatOllama: Nuxt 3とOllamaをベースにしたローカルリアルタイムチャットアプリケーションUI

包括的な紹介 ChatOllamaは、大規模言語モデル(LLM)に基づくオープンソースのオンラインチャットアプリケーションプロジェクトです。ユーザは、モデル管理(リスト表示、ダウンロード、削除)、モデルとのチャットやその他の機能のためにプラットフォームを使用することができます。このプロジェクトは...
1年前
026.2K
MakeSense:免费使用的图像标注工具,提升计算机视觉项目效率

MakeSense:コンピュータビジョンプロジェクトの効率を高める、無料で使える画像注釈ツール

概要 Make Senseは、コンピュータ・ビジョン・プロジェクト用のデータセットを素早く準備できるように設計された、無料のオンライン画像注釈ツールです。複雑なインストールは不要で、ブラウザからアクセスするだけで使用でき、複数のオペレーティングシステムをサポートし、小規模なディープラーニングプロジェクトに最適です。ユーザーは...
8ヶ月前
026.2K
OWL:多智能体协作完成现实任务的自动化工具

OWL:現実的なタスクにおけるマルチインテリジェンス・コラボレーションのための自動化ツール

概論 OWL(Optimized Workforce Learning)は、CAMEL-AIチームによって開発されたオープンソースのフレームワークで、実世界のタスクを自動化するためのマルチインテリジェンス・コラボレーションの最適化に焦点を当てている。CAMEL-AIフレームワークに基づいて...
7ヶ月前
026.2K
HyperChat:利用 MCP 智能执行复杂任务的AI对话客户端

HyperChat:MCPインテリジェンスを使用して複雑なタスクを実行するAI対話クライアント

概要 HyperChatは、BigSweetPotatoStudioによって開発され、GitHubでホストされているオープンソースのチャットクライアントです。OpenAI、Cla...などのいくつかの大規模な言語モデル(LLM)のAPIを統合することにより、BigSweetPotatoStudio言語モデルの包括的な概要を提供するように設計されています。
7ヶ月前
026.2K
CoAI.Dev (Chat Nio):AI聚合应用 一站式 B/C 端解决方案,支持弹性计费和订阅计划模式

CoAI.Dev(チャットNio):柔軟な課金とサブスクリプションプランモデルに対応したAIアグリゲーションアプリ向けワンストップB/Cソリューション

一般的な紹介 CoAI.Dev(旧Chat Nio)は、複数のAIモデルを統合し、分散ストリーミング、画像生成、クロスデバイス会話の同期と共有をサポートするチャットプラットフォームです。サブスクリプションとトークン課金システム、キートランジットサービス、複数のAIモデルを統合したチャットプラットフォームです。
11ヶ月前
026.2K
Fast-Agent:声明式语法和MCP集成快速构建多智能体工作流

Fast-Agent: マルチインテリジェントなボディ・ワークフローを迅速に構築するための宣言的文法とMCPの統合

概要 Fast-Agentは、evalstateチームによってGitHubでメンテナンスされているオープンソースツールで、開発者がマルチインテリジェンスワークフローを素早く定義、テスト、構築できるように設計されています。シンプルな宣言的構文に基づいており、MCP(Mode...
7ヶ月前
026.1K
BEN2:从图像、视频中快速移除背景的深度学习模型

BEN2: 画像や動画から背景を高速除去するディープラーニングモデル

包括的な紹介 BEN2(Background Erase Network 2)は、Prama LLCによって開発されたディープラーニングモデルで、特に画像から背景を自動的に除去し、前景画像を生成するように設計されています。このモデルは革新的なConfiden...
4ヶ月前
026K
Eko:自然语言构建智能体工作流,实现桌面与浏览器自动化

Eko: デスクトップとブラウザの自動化のための自然言語によるインテリジェント・ボディ・ワークフローの構築

概論 Eko は、自然言語記述によって効率的なインテリジェントエージェントワークフローを構築するために設計された、プロダクショングレードの JavaScript フレームワークです。開発者が深いプログラミングをすることなく、AI 技術を使って日常的なタスクを自動化できるよう設計されています。
7ヶ月前
026K
Awesome LLM Apps:收集和探索优秀开源的LLM应用程序,一行命令快速部署

素晴らしいLLMアプリ:優れたオープンソースのLLMアプリを収集・探索し、コマンド1つで素早くデプロイできます!

概要 Awesome LLM Appsは、Shubham Sabooによって作成されたGitHubリポジトリで、素晴らしいLLM(大規模言語モデリング)アプリを幅広く集め、紹介することに特化しています。このリポジトリには、OpenAI、An...
11ヶ月前
026K
mcp-ui:基于MCP协议的简洁AI聊天界面

mcp-ui: MCPプロトコルに基づいたクリーンなAIチャットインターフェース

包括的な紹介 mcp-uiは、開発者machaojin1917939763によって作成されたオープンソースプロジェクトであり、構築するためのモデルコンテキストプロトコル(MCP)プロトコルに基づき、Webおよびデスクトップ環境のためのサポートです スマート ...
6ヶ月前
026K
RLAMA:命令行操作的本地文档智能问答 RAG 系统

RLAMA: コマンドラインから操作するローカルドキュメントのインテリジェントなクイズのためのRAGシステム

一般的な紹介 RLAMAはDonTiziによってオープンソースで開発され、GitHubでホストされている文書インテリジェンスクイズRAG(Retrieval Augmentation Generation)システムである。ユーザは簡単なターミナルコマンドを使って、ローカルの...
7ヶ月前
026K
AnimatedDrawings:儿童手绘涂鸦转换动画,自动化儿童绘画动画生成工具

AnimatedDrawings:子供の手描きの落書きをアニメーションに変換、子供のお絵かきアニメーション自動生成ツール

概論 AnimatedDrawingsはFacebook Researchによって開発されたオープンソースプロジェクトで、自動化技術によって子供の絵をアニメーションのキャラクターに変換する。このプロジェクトは、「A Method for A...
10ヶ月前
026K
Stagehand:自然语言实现浏览器自动化操作框架

Stagehand: ブラウザオートメーション操作の自然言語実装フレームワーク

一般的な紹介 Stagehand は、シンプルさと拡張性に重点を置いた AI ウェブブラウジングフレームワークである。Playwrightと完全に互換性があり、3つのシンプルなAI API(act、extract、observe)を提供する。
9ヶ月前
026K
promptfoo:提供安全可靠的LLM应用测试工具

プロンプトフー:安全で信頼性の高いLLMアプリケーションテストツールの提供

包括的な紹介 promptfooは、大規模言語モデル(LLM)アプリケーションの評価とレッドチームテストに特化したオープンソースのコマンドラインツールおよびライブラリです。信頼性の高いプロンプト、モデル、検索ベースの生成(RAG)を構築するためのツール一式を開発者に提供します。
8ヶ月前
026K
Kolors Virtual Try On:高效的虚拟试穿/模特换装,文本到图像生成模型

Kolorsバーチャル試着:効率的なバーチャル試着/モデル着せ替え、テキストから画像生成モデル

概要 Kolors Virtual Try-Onは、Kwai-KolorsチームによるHugging Faceプラットフォーム上のバーチャル試着アプリです。このアプリは、高度な人工知能技術を使って、ユーザーがバーチャル試着をするのを手助けします。
10ヶ月前
025.9K
UltraRAG:一站式RAG系统解决方案,简化数据构建与模型微调

UltraRAG: データ構築とモデル微調整を簡素化するワンストップRAGシステムソリューション

総合紹介 UltraRAGは、清華大学のTHUNLPグループ、東北大学のNEUIRグループ、Modelbest.Inc、9#AISoftチームによって共同提案されたRAG(Retrieval Augmented Generation)システムソリューションである。このフレームワークは、アジャイルな展開とモジュール式の構築に基づいている。
9ヶ月前
025.9K
Agent S:像人类一样操作电脑的开源智能体框架

エージェントS:人間のようにコンピュータを操作する知的体のためのオープンソース・フレームワーク

一般的な紹介 エージェントSは、Simular AI社によって開発されたオープンソースのフレームワークであり、グラフィカル・ユーザー・インターフェース(GUI)を通じて人間のようにコンピュータを操作することができる。マルチモーダル大規模言語モデルと経験的学習技術を使用して、ウェブの閲覧、文書の編集、ソフトウェアの使用などのタスクを実行する。
6ヶ月前
025.9K
KrillinAI:一键翻译和配音的视频多语言全球化工具

KrillinAI: ワンクリックで翻訳とダビングができる動画用多言語グローバル化ツール

包括的な紹介 KrillinAIは、ユーザーがビデオを翻訳し、自動的にそれらをダビングするために人工知能を使用することに焦点を当てたオープンソースのビデオ処理ツールです。ビデオのダウンロードから始まり、様々なプラットフォームに適応した完成品の生成まで、全てのプロセスは数クリックで完了します。開発者はGitHubで公開されている。
4ヶ月前
025.8K
Shortest:AI自动化测试工具,使用自然语言进行端到端测试

最短:エンド・ツー・エンドのテストに自然言語を使用するAI自動テストツール

一般的な紹介 Shortestは、Anti-Workチームによって開発されたAIを搭載した自然言語エンドツーエンドテストフレームワークです。Playwrightをベースに構築されており、GitHubとの統合や二要素認証(2FA)をサポートしています。Shortestの主な特徴は...
9ヶ月前
025.8K
Vercel AI SDK:使用流行前端框架构建AI驱动应用程序

Vercel AI SDK:人気のフロントエンドフレームワークでAI搭載アプリケーションを構築する

概論 Vercel AI SDKは、React、Svelte、Vue、Solidなどのフレームワークを使用してAIアプリケーションを構築する開発者を支援するために、Vercelチームによって開発されたオープンソースツールです。複数の言語モデルプロバイダをサポートしています。
9ヶ月前
025.8K
Flock:低代码工作流编排快速构建聊天机器人

Flock:迅速なチャットボット構築のためのローコードワークフローオーケストレーション

概要 Flockはオープンソースのワークフロー用ローコードプラットフォームで、GitHubでホストされており、Onelevenvyチームによって開発されています。LangChainとLangGraphの技術をベースにしており、ユーザーがチャットマシンを素早く構築できるようにすることに重点を置いています。
8ヶ月前
025.8K
BlenderMCP:依赖Blender生成3D模型的MCP服务

BlenderMCP:3Dモデルの生成にBlenderを使用するMCPサービス

一般的な紹介 BlenderMCPは、モデルコンテキストプロトコル(MCP)プロトコルを介してBlenderとClaude AIを接続するオープンソースツールです。ユーザはテキストコマンドを使って、Claude AI を直接制御することができます。
7ヶ月前
025.8K
UNO:支持单主体和多主体定制化图像生成工具(适合电商配图)

UNO:単一主題および複数主題のカスタマイズされた画像生成ツールのサポート(eコマース・グラフィックに最適)

UNOはByteDance Intelligent Creation Teamによって開発されたオープンソースの画像生成フレームワークです。FLUX.1モデルに基づいており、"less-to-more "汎化アプローチによる単一被写体および複数被写体のカスタム画像生成に重点を置いている。
6ヶ月前
025.8K

「常時稼働のDeepseek AIアシスタント:Deepseek-V3に基づくインテリジェントな音声対話システムの構築

総合紹介 Always-On AI Assistantは、Deepseek-V3、RealtimeSTT、Typerなどの先進技術を統合することで、強力で永続的なオンラインAIアシスタントシステムを構築する革新的なAIアシスタントプロジェクトです。
9ヶ月前
025.8K
Memora:构建人性化AI记忆模块,保存并更新与人类的互动信息

Memora:人間との相互作用に関する情報を保存・更新するための、人間化されたAIメモリモジュールの構築

概要 Memoraは、パーソナライズされたAIに人間の記憶を複製するように設計されたエージェントである。タイムスタンプ付きの記憶、感情マーカー、マルチモーダル記憶などの機能により、AIが人間のように過去の交流、感情、共有された経験の詳細を記憶することを支援する。
9ヶ月前
025.8K
Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

Ultravox: リアルタイムのエンドツーエンド音声対話のための音声マルチモーダル・マクロモデル、GPT-4o音声対話のオープンソース実装

包括的な紹介 Ultravoxは、リアルタイム音声処理のために設計された革新的なマルチモーダル大規模言語モデル(LLM)です。従来の音声認識システムとは異なり、Ultravoxは音声認識(ASR)ステージを別途用意する必要がなく、音声を直接高次元空間に...
10ヶ月前
025.7K
Muyan-TTS:个性化播客语音训练与合成

Muyan-TTS:パーソナライズされたポッドキャストの音声トレーニングと合成

Synthesis Muyan-TTSは、ポッドキャスティングシナリオ用に設計されたオープンソースのテキスト音声合成(TTS)モデルです。100,000時間以上のポッドキャストオーディオデータで事前にトレーニングされており、ゼロサンプル音声合成をサポートし、高品質の自然な音声を生成します。このモデルはLlama-3.2-3...をベースにしています。
5ヶ月前
025.7K
MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音

MockingBird: 高速音声クローニングとモデルトレーニング、xtts v2に基づく音声合成

包括的な紹介 MockingBirdはオープンソースプロジェクトであり、AI技術を通じて、迅速な音声クローンと音声合成を実現することを目指している。ユーザーは5秒間の音声サンプルを提供するだけで、どのような音声コンテンツでも生成できる。このプロジェクトは様々な中国語データセットをサポートし、Windows ...
10ヶ月前
025.7K
MoneyPrinterPlus:一键生成短视频的AI工具,免费批量混剪

MoneyPrinterPlus:ワンクリックで短い動画を作成するAIツール、無料のバッチミキシング

総合紹介 MoneyPrinterPlusは、AI技術によって、ワンクリックであらゆる種類の短い動画を生成・ミックスし、Jieyin、Shutterbugs、Xiaohongshu、Video Numberなどの複数の動画プラットフォームに自動的に公開することを目的としたオープンソースプロジェクトです。このツールは、ローカルおよびクラウドベースの音声モデルをサポートしており、チャット...
1年前
025.7K
Fabric:集成众多提示词的AI开源工作流框架,高效处理各种事务

ファブリック:AIオープンソースのワークフローフレームワークで、多くのキューワードを統合し、様々なトランザクションを効率的に処理する。

概論 ファブリックは、ダニエル・ミースラーによって開発されたオープンソースのAIフレームワークで、日常的なコンピュータ・タスクを簡素化・自動化し、人工知能を使いやすくすることを目的としている。モジュール設計とあらかじめ定義されたプロンプトワード(パターン)によって、ユーザーを効率的に支援する。
12ヶ月前
025.7K
微信Markdown编辑器:简洁高效的微信图文排版工具,一键粘贴文章到微信公众号

WeChat Markdownエディタ:シンプルで効率的なWeChatグラフィックレイアウトツール、WeChat公開番号に記事を貼り付けるためのキー

総合紹介 WeChat Markdown Editor (WeChat Markdown Editor)は、ユーザーが簡単に美しいWeChat投稿を作成できるように設計された、非常に簡潔なWeChatグラフィックレイアウトツールです。このエディタはすべての基本的なMarkdown ...
9ヶ月前
025.7K
XRAG:优化检索增强生成系统的可视化评估工具

XRAG:検索機能拡張生成システムの最適化のための視覚的評価ツール

包括的な紹介 XRAG(eXamining the Core)は、高度な検索機能拡張生成(RAG)システムの基本コンポーネントを評価するために設計されたベンチマークフレームワークです。各コアモジュールのプロファイリングと分析により、XRAGは、異なる構成やコンポーネントがRAGにどのような影響を与えるかについての情報を提供します。
9ヶ月前
025.7K
FitDiT:高保真度AI虚拟试衣工具,提升服装细节真实性

FitDiT:衣服のディテールの信憑性を高める高忠実度AIバーチャルフィッティングツール

包括的な紹介 FitDiTは、拡散トランスフォーマー(Diffusion Transformers)に基づいた高忠実度のバーチャルフィッティングシステムである。Tencent AI Labによって開発されたこのプロジェクトは、衣服の詳細を表示するという従来のバーチャルフィッティングシステムの限界に対処することを目的としている。
9ヶ月前
025.7K
Dify-Plus:为Dify开发的企业内部管理后台

Dify-Plus:Difyのオンプレミス管理バックエンド

包括的な紹介 Dify-Plusは、Difyオープンソースプロジェクトの二次開発をベースにしたAIアプリケーション開発プラットフォームです。Dify-Plusは、Difyをベースに新しい管理センターを追加し、エンタープライズシナリオ向けに機能を最適化しています。このプロジェクトは、当初は企業の内部利用を目的としていましたが、後にコミュニティにも同様のニーズがあることがわかり、Dify-Plusを開発しました。
7ヶ月前
025.6K
WeClone:用微信聊天记录和语音训练数字分身

WeClone:WeChatのチャットログと音声を使ったデジタル・ドッペルゲンガーの育成

総合的な紹介 WeCloneは、WeChatのチャット記録と音声メッセージを、大規模な言語モデルと音声合成技術と組み合わせて使用するオープンソースプロジェクトであり、ユーザーはパーソナライズされたデジタル・ドッペルゲンガーを作成することができます。このプロジェクトは、ユーザーのチャットの習慣を分析してモデルを訓練するだけでなく、少数の音声サンプルを使ってリアルな音声を生成することができます。
6ヶ月前
025.6K
PR Agent:自动化拉取请求分析工具

PR Agent: プルリクエスト自動分析ツール

概論 PR-AgentはQodoが開発したオープンソースツールで、AI技術によってプルリクエスト(Pull Requests)の処理を自動化する。このツールは、開発者がコードレビューをより効率的に実行できるように、自動化されたフィードバック、提案、分析を提供することができます...
9ヶ月前
025.6K
RTranslator:语音实时翻译安卓应用,免费且支持离线使用

RTranslator: Android用リアルタイム音声翻訳アプリ!

一般的な紹介 RTranslatorは、Androidデバイスのために設計された事実上オープンソース、無料のオフラインリアルタイム翻訳アプリです。ユーザーはBluetoothヘッドセットを接続することで、携帯電話をポケットに入れたまま、まるで自分の国の言葉を話しているかのように他の人と会話をすることができます。
9ヶ月前
025.6K
Text generation web UI:基于 Gradio 大语言模型聊天界面,支持多种后端服务

テキスト生成ウェブUI:複数のバックエンド・サービスをサポートするGradioベースの大規模言語モデル・チャット・インターフェース

概論 テキスト生成ウェブUIは、大規模言語モデル(LLM)のために設計されたGradioベースのウェブUIです。Transformers、llama.cp...を含む様々なテキスト生成バックエンドをサポートしています。
11ヶ月前
025.6K
PRAG:提升问答系统性能的参数化检索增强生成工具

PRAG: Q&Aシステムのパフォーマンス向上のためのパラメトリック検索拡張生成ツール

包括的な紹介 PRAG(Parametric Retrieval-Augmented Generation)は、大規模言語モデル(LLM)のパラメータ空間に直接埋め込むことで、外部知識の生成を強化することを目的とした革新的な検索拡張生成ツールである。
8ヶ月前
025.6K
AingDesk:个人电脑一键安装AI模型和聊天界面(含DeepSeek)

AingDesk:パソコンにAIモデルとチャットインターフェースをワンクリックインストール(DeepSeekとの共同開発)

一般的な紹介 AingDeskは、ユーザーがローカルコンピュータ上で様々なAIモデルを簡単にデプロイし、実行できるように設計されたオープンソースのフリーソフトウェアです。DeepSeekでもLlamaモデルでも、AingDeskはシンプルなステップ・バイ・ステップを可能にします。
8ヶ月前
025.6K
Easegen:开源数字人课程制作平台,PPT一键生成克隆数字人讲解视频

Easegen:オープンソースデジタルヒューマンコース制作プラットフォーム、PPTワンクリック生成クローンデジタルヒューマン講義ビデオ

総合紹介 Easegenはオープンソースのデジタルヒューマン講座作成プラットフォームであり、AI技術によって教育コンテンツの制作と管理の効率化を目指している。このプラットフォームは、コース制作、ビデオ管理からインテリジェントな質問までワンストップソリューションを提供し、ユーザーはデジタル人間説明ビデオコースを作成することができます...
1年前
025.6K
MCP Server ChatSum:依赖MCP在Claude中查询和总结微信聊天消息

MCPサーバーChatSum: ClaudeでWeChatメッセージをクエリーし要約するためにMCPに頼る

一般的な紹介 MCPサーバー ChatSumは、ユーザーがチャットメッセージを照会し要約するために設計されたオープンソースプロジェクトです。このプロジェクトはGitHubでホストされており、ユーザーが特定のパラメータに基づいてチャットログを照会し、対応する要約を生成することができる強力なツールセットを提供します...
7ヶ月前
025.5K
Baichuan-Audio:支持实时语音交互的端到端音频模型

Baichuan-Audio: リアルタイムの音声対話をサポートするエンドツーエンドのオーディオモデル

包括的な紹介 Baichuan-AudioはBaichuan Intelligence (baichuan-inc)によって開発されたオープンソースプロジェクトで、GitHubでホストされており、エンドツーエンドの音声対話技術に焦点を当てています。このプロジェクトは、完全な音声処理フレームワークを提供し、音声...
8ヶ月前
025.5K
LazyLLM:商汤开源构建多智能体应用的低代码开发工具

LazyLLM:マルチインテリジェント・ボディ・アプリケーション構築のためのShangtangオープンソース・ローコード開発ツール

包括的な紹介 LazyLLMはLazyAGIチームによって開発されたオープンソースツールで、マルチインテリジェンス大規模モデルアプリケーションの開発プロセスを簡素化することに重点を置いています。ワンクリックのデプロイと軽量なゲートウェイ機構により、開発者が複雑なAIアプリケーションを素早く構築できるよう支援し、面倒なエンジニアリングの設定を省きます。
8ヶ月前
025.5K
RoomGPT:上传房间照片,使用AI重新设计

RoomGPT:部屋の写真をアップロードし、AIを使ってリデザインする!

概要 RoomGPTは、GitHubユーザーのNutlopeによって開発されたオープンソースプロジェクトで、ユーザーが部屋の写真をアップロードすると、人工知能技術を使ってその部屋のリデザインバージョンを生成することができる。このプロジェクトは、高額なデザイナー費用を支払うことなく、プロ級のインテリアデザインを利用できるようにすることを目的としている。
11ヶ月前
025.5K
Zonos:高质量语音合成与语音克隆工具

Zonos: 高品質音声合成と音声クローニングツール

一般的な紹介 ZonosはZyphraによって開発されたオープンソースの音声合成と音声クローニングツールです。Zonos-v0.1バージョンは、高品質の音声出力を生成するために高度なトランスフォーマーとブレンドモデルを使用しています。このツールは複数の言語をサポートしています。
8ヶ月前
025.5K
NarratoAI:文本生成影视解说与自动化剪辑神器

NarratoAI:テキスト生成映画・TVナレーション・自動編集ツール

概論 NarratoAIは、映画やビデオのナレーション、自動編集、吹き替え、字幕生成を統合した完全自動化ツールです。大規模言語モデリング(LLM)技術により、コピーを自動生成し、対応するナレーションと字幕をビデオに自動編集し、ユーザーにワンストップを提供します。
1年前
025.5K
Copilot后端代理服务:用其他模型接管GitHub Copilot插件服务端

Copilotバックエンドプロキシサービス:他のモデルでGitHub Copilotプラグインサーバーを引き継ぐ

概要 Copilot Backend Agent Service は、DeepSeek などの他の FIM モデルを活用して GitHub Copilot プラグイン・サーバーを管理するために設計されたオープンソース・プロジェクトです。このサービスは、V...を含む様々なIDEをサポートしています。
10ヶ月前
025.5K
阿布量化交易系统:基于Python的开源量化交易平台

アブ・クオンツ取引システム:Pythonベースのオープンソース・クオンツ取引プラットフォーム

一般的な紹介 Abu Quantitative Trading System は、Python ベースのオープンソースプラットフォームです。投資家がコードを通じて定量的取引戦略を実行できるよう、ユーザー「bbfamily」によって作成されました。このシステムは、株式、オプション、先物、ビットコインなどの様々な金融商品のバックテストと取引をサポートしています。これは...
7ヶ月前
025.5K
TRV:将幻灯片/PPT和讲解备注快速生成演讲视频

TRV:スライド/PPTと説明メモからプレゼンテーション動画を高速生成

概論 TRVはGitHubでホストされているオープンソースのツールで、スライドやプレゼンテーションノートをナレーション付きの動画に素早く変換できるように設計されています。簡単なコマンドライン操作で、入力されたプレゼンテーションファイルから音声と動画のコンテンツを自動的に生成します。
8ヶ月前
025.5K
AIHawk:智能求职助手,自动化投放简历(限英文)

AIHawk:インテリジェントな仕事検索アシスタント、自動履歴書配置(英語のみ)

概論 Auto_Jobs_Applier_AIHawkは、人工知能技術を用いた求人検索の自動化ツールである。短時間で大量の履歴書を自動配信し、個人情報や求職の意図に応じてパーソナライズすることができます。このツールは、求職者の転職意欲を...
10ヶ月前
025.4K
InstantID:上传一张图片,迁移人像特征来生成不同风格图片

InstantID:画像をアップロードし、さまざまなスタイルの画像を生成するためにポートレート機能を移行する。

包括的な紹介 InstantIDは、1枚の参照ID画像を使用して、高い忠実度を確保しながら、パーソナライズされたスタイルやポーズの画像を数秒で生成することに焦点を当てた先進技術です。この技術は、顔画像とランドマークマップを統合することで、拡散モデルに基づいたソリューションを使用しています。
1年前
025.4K
R2R:多模态内容解析并结合知识图谱与混合搜索的先进AI检索(RAG)系统

R2R: マルチモーダルコンテンツを解析し、知識グラフとハイブリッド検索を組み合わせた高度AI検索(RAG)システム

包括的な紹介 R2R (RAG to Riches)は、RAG (Retrieval Augmented Generation)機能をサポートする先進的なAI検索システムで、本番環境ですぐに使える機能を備えています。コンテナ化されたRESTful API上に構築されたこのシステムは、マルチモーダルコンテンツの解析、ハイブリッド検索機能を提供します。
10ヶ月前
025.4K
Oliva:语音控制的多智能体产品搜索助手

Oliva:音声制御のマルチインテリジェンス製品検索アシスタント

概要 OlivaはDeluxerがGitHubで開発したオープンソースのマルチインテリジェンスアシスタントツールです。複数のAIインテリジェンスの連携により、Qdrantデータベースの商品情報検索を支援します。主な特徴は、音声操作に対応していることです...
7ヶ月前
025.4K
Second Me:本地训练拥有个人记忆和习惯的AI分身

セカンド・ミー:個人的な記憶と習慣を持つ、現地で訓練されたAIドッペルゲンガー

Second MeはMindverseチームによって開発されたオープンソースプロジェクトで、あなたのコンピューター上に「デジタル・ドッペルゲンガー」のような働きをするAIを作り、あなたの言葉や記憶を通してあなたの話し方や癖を学習し、あなたのことを理解する賢い人間になることができる。
7ヶ月前
025.4K
CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2: 映像理解と複数回の対話を支援するオープンソースのマルチモーダルモデル

包括的な紹介 CogVLM2は清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースのマルチモーダルモデルで、Llama3-8Bアーキテクチャをベースとしており、GPT-4Vに匹敵するか、それ以上の性能を提供することを目指している。このモデルは画像理解、多ラウンド対話、視覚...
8ヶ月前
025.4K