AIオープンソースプロジェクト

合計1020記事
Kreuzberg:从任何文档中提取文本的开源工具

Kreuzberg: あらゆる文書からテキストを抽出するオープンソースツール

一般的な紹介 Kreuzbergは、PDFファイルからのテキスト抽出を簡素化するためのライブラリで、シンプルで手間のかからないテキスト抽出ソリューションを提供するように設計されています。このライブラリは、特にRAG(Retrieval-Augmented Generatio...
6ヶ月前
02K
HunyuanVideoGP:支持低端GPU运行的混元视频生成模型

HunyuanVideoGP:ローエンドGPU動作をサポートするハイブリッドビデオ生成モデル

一般的な紹介 HunyuanVideoGPは、DeepBeepMeepによって開発され、ローエンドGPUユーザー向けに設計された大規模ビデオ生成モデルです。このモデルは、オリジナルのHunyuan Videoモデルの改良版であり、メモリとグラフィックメモリの要件を大幅に削減します。
6ヶ月前
01.9K
InspireMusic:阿里开源的统一音乐、歌曲和音频生成框架

InspireMusic:Aliのオープンソース統合音楽・楽曲・音声生成フレームワーク

一般的な紹介 InspireMusicはPyTorchベースのオープンソースツールキットで、音楽、歌、オーディオの生成に特化しています。高品質なオーディオを生成するための統一されたフレームワークを提供し、テキストキュー、音楽構造、音楽スタイルを制御します。
5ヶ月前
02.7K
Gemini Playground:无服务器部署Gemini多模态对话网站

Gemini Playground: Geminiマルチモーダル対話サイトのサーバーレス展開

一般的な紹介 Gemini Playgroundは、ユーザーが迅速にマルチモーダル対話サイトを展開するために設計されたオープンソースプロジェクトです。このプロジェクトは、技術的なクロールエビによって開発され、デプロイを完了するために10秒でGemini API Keyの使用をサポートしています。ユーザが...
6ヶ月前
02.7K
wdoc:从海量、多源文档中检索内容并总结知识

wdoc: 膨大なマルチソースドキュメントからコンテンツを取り出し、知識を要約する

包括的な紹介 wdocは、大量の多様な文書を処理・分析するために設計された強力なRAG(Retrieval Augmentation Generation)システムです。wdocはPDF、ウェブページ、YouTubeビデオ、オーディオファイルなど、様々な種類のドキュメントを検索することができます。
6ヶ月前
02.6K
Magic 1-For-1: 高效生成视频的开源项目,号称在一分钟内生成一分钟的视频

Magic 1-For-1:1分で1分の動画を生成すると謳う、効率的な動画生成オープンソースプロジェクト

包括的な紹介 Magic 1-For-1は、メモリ使用量を最適化し、推論の待ち時間を短縮するために設計された効率的なビデオ生成モデルである。このモデルは、テキストから動画への生成タスクを、テキストから画像への生成と画像から動画への生成という2つのサブタスクに分解し、より効率的な学習と蒸留を可能にする。
6ヶ月前
02.6K
DataLine:AI数据分析与可视化客户端,快速生成图表和报告

DataLine: 迅速なチャートとレポート作成のためのAIデータ分析・可視化クライアント

概要 DataLineは、様々なデータソースを簡単な操作で操作できるように設計された、強力なAIデータ分析・可視化ツールです。CSVファイルであろうと、Postgres、MySQL、Snowflake、SQL...といった主流のデータベースであろうと。
6ヶ月前
02.8K
FinRobot:提升金融数据分析效率和投资研究的的智能体

FinRobot:金融データ分析の効率化と投資リサーチを向上させる知的ボディ

包括的な紹介 FinRobotはAI4Finance Foundationによって開発されたオープンソースのAIインテリジェンス・プラットフォームであり、金融分析用に設計されている。従来の言語モデルをカバーするだけでなく、様々なAI技術を取り入れ、金融業界に包括的なソリューションを提供することを目指しています。
6ヶ月前
02.5K
Simba:收纳文档的知识管理系统,无缝集成到任何RAG系统

シンバ:文書整理のためのナレッジマネジメントシステムで、あらゆるRAGシステムにシームレスに統合されます。

概要 Simbaは、あらゆるRAG(Retrieval Augmentation Generation)システムとシームレスに統合できるように設計されたポータブルな知識管理システム(KMS)です。GitHubのユーザーGitHamza0206によって作成されたこのプロジェクトは、様々なナレッジマネジメントのための効率的なソリューションを提供します。
6ヶ月前
02.3K
LocalPdfChatRAG:支持本地多源PDF文档问答的智能聊天工具

LocalPdfChatRAG:マルチソースPDFドキュメントのローカルQ&Aをサポートするインテリジェントなチャットツール

包括的な紹介 LocalPdfChatRAGは、ローカルPDF文書とRAG(Retrieval Augmented Generation)モデルを組み合わせることで、インテリジェントなチャット機能を実装することを目的としたオープンソースプロジェクトです。このプロジェクトでは、ユーザがPDFドキュメントをアップロードし、自然言語を通じて質問することで、ドキュメントから相対的な...
6ヶ月前
02.4K
Deep Searcher:企业私有文档高效检索与智能问答

ディープサーチャー:企業の私文書の効率的な検索とインテリジェントなQ&A

概要 Deep Searcherは、強力なビッグ言語モデル(DeepSeekやOpenAIなど)と、プライベートデータに基づいて検索、評価、推論を行うように設計されたベクトルデータベース(Milvusなど)を組み合わせたツールで、精度の高い回答を提供する...
6ヶ月前
02K
Flashcard:基于Dify构建的单词闪卡外语学习工具,替代多邻国(Duolingo)

フラッシュカード:Duolingoに代わってDify上に構築された単語フラッシュカード外国語学習ツール

概要 Flashcardは、Duolingoに代わるオープンソースの言語学習ツールです。Steven Lynn (GitHub username: stvlynn) によって開発されたこのプロジェクトは、モダンなユーザーインターフェイスと多言語を特徴としています。
6ヶ月前
02.3K
LineAvatars:生成 Notion 风格线条头像的免费工具

LineAvatars: Notionスタイルのラインアバターを生成するフリーツール

概要 LineAvatarsは、Notionスタイルのラインアバターを生成するためにデザインされた、無料で使いやすいオンラインツールです。ユーザーは写真をアップロードするか、ウェブカメラで写真を撮ると、システムが自動的にAIを使ってラインアバターを生成します。このツールは...
6ヶ月前
02.4K
Goku: 生成画面精细且一致的视频,适合创作包含人物、物体细节的广告视频

悟空:詳細で一貫性のある動画を生成します。詳細なキャラクターやオブジェクトを使用したコマーシャルの作成に最適です。

包括的な紹介 Gokuは、ストリーム変換技術に基づく連携型画像・動画生成モデルであり、業界トップクラスのパフォーマンスを達成するよう設計されています。Gokuは、きめ細かなデータ照合、モデル設計、ストリーム変換の定式化など、高度で高品質な映像生成技術を統合しています。
6ヶ月前
03.2K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor:見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント

概論 Gemini Cursorは、GoogleのGemini 2.0 Flash(実験的)モデルをベースとしたデスクトップ知的アシスタントである。Gemini Cursorは、マルチモーダルAPIを通じて、視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延な利用を提供します。
6ヶ月前
04K
Data Formulator:AI驱动的数据可视化工具

Data Formulator:AIによるデータ可視化ツール

概論 Data Formulator は Microsoft Research によって開発されたオープンソースのAI駆動型データ可視化ツールである。このツールは、グラフィカル・ユーザー・インターフェース (GUI) と自然言語入力 (NL) を組み合わせたもので、ユーザーは簡単なインタラクションやコマンドによって、素早くデータを作成し、反復することができます。
6ヶ月前
02.8K
Ai2 OLMoE:基于 OLMoE 模型离线运行的开源iOS AI应用

Ai2 OLMoE:オフラインで動作するOLMoEモデルに基づくオープンソースのiOS AIアプリ

概要 Ai2 OLMoEは、Allen Institute for AI (Ai2, Allen Institute for Artificial Intelligence)によって開発されたオープンソースのiOSアプリで、デバイス上で動作するAIモデルを提供します。このアプリは、Ai2のオープンソースOLMoEを活用しています。
6ヶ月前
03.5K
Meetily:生成会议纪要的AI助手,实时转录和生成会议摘要

Meetily:会議議事録の作成、書き起こし、会議サマリーの作成をリアルタイムで行うAIアシスタント

一般的な説明 MeetilyはZackriya Solutionsによって開発されたAIを搭載した会議アシスタントで、会議の音声をリアルタイムでキャプチャし、音声書き起こしを行い、会議のサマリーを生成します。すべての処理がデバイス上でローカルに行われる点が特徴で、ユーザーのプライバシーを保証します。
6ヶ月前
03.1K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2:高度なマルチモーダル理解のためのエキスパート視覚言語モデル

包括的な紹介 DeepSeek-VL2は、その前身であるDeepSeek-VLの性能を大幅に向上させた、高度なMoE(Mixture-of-Experts)視覚言語モデルのシリーズです。このモデルは、視覚的な質問と回答、光学式文字認識、テキスト...
6ヶ月前
03K
Zonos:高质量语音合成与语音克隆工具

Zonos: 高品質音声合成と音声クローニングツール

一般的な紹介 ZonosはZyphraによって開発されたオープンソースの音声合成と音声クローニングツールです。Zonos-v0.1バージョンは、高品質の音声出力を生成するために高度なトランスフォーマーとブレンドモデルを使用しています。このツールは複数の言語をサポートしています。
6ヶ月前
03.2K
ChatGPT Box:让 ChatGPT 在其他网页工作的浏览器插件

ChatGPT Box: 他のウェブページでChatGPTを動作させるブラウザプラグイン

一般的な紹介 ChatGPT Boxは、ChatGPTをユーザーのブラウザに深く統合するために設計されたオープンソースのブラウザ拡張機能です。josStorerによって開発されたこのツールは、複数の言語をサポートし、任意のページ上でチャットペアを呼び出すなどの様々な機能を提供します...
4ヶ月前
02.6K
小半 WordPress AI 助手:实现对话、文章生成与翻译的 WordPress AI助手插件

Little Half WordPress AI Assistant: 対話、投稿生成、翻訳のためのWordPress AIアシスタントプラグイン

総合紹介 WordPress AI Assistant Plugin (wp-ai-chat)は、AI対話、記事生成、記事要約、記事翻訳、コンテンツ読み上げなど、様々なAI機能をユーザーに提供するために設計されたオープンソースのWordPressプラグインです。このプラグインは、複数のAIとのドッキングをサポートしています。
6ヶ月前
02.6K
promptfoo:提供安全可靠的LLM应用测试工具

プロンプトフー:安全で信頼性の高いLLMアプリケーションテストツールの提供

包括的な紹介 promptfooは、大規模言語モデル(LLM)アプリケーションの評価とレッドチームテストに特化したオープンソースのコマンドラインツールおよびライブラリです。信頼性の高いプロンプト、モデル、検索ベースの生成(RAG)を構築するためのツール一式を開発者に提供します。
6ヶ月前
02.6K
NoneBot DeepSeek 插件:基于 NoneBot&DeepSeek 实现客服智能对话

NoneBot DeepSeek Plugin: NoneBotとDeepSeekをベースにしたカスタマーサービス用のインテリジェントな対話。

一般的な紹介 NoneBot DeepSeek プラグインは、DeepSeek モデルを統合し、インテリジェントな対話と Q&A 機能を提供するように設計された NoneBot プラグインです。DeepSeek モデルにアクセスすることで、ユーザは NoneBot ...
6ヶ月前
02.5K
Solana Agent Kit:连接AI智能体与Solana协议的开源工具包

Solana Agent Kit: AIインテリジェンスをSolanaプロトコルに接続するためのオープンソースツールキット

概要 Solana Agent Kitは、AI知能をSolanaブロックチェーン・プロトコルにシームレスに接続するために設計されたオープンソースのツールキットである。このキットにより、AI研究者と暗号通貨開発者の双方が、モデル訓練された知的体を使用して、ブロックチェーン上で...
6ヶ月前
02.5K
LiberSonora:有声书字幕提取与多语言翻译,有声小说转录为多语言

LiberSonora:オーディオブック字幕抽出と多言語翻訳、オーディオブックの多言語書き起こし

包括的な紹介 LiberSonoraは、「自由な音」を意味し、強力なAI対応のオープンソースオーディオブックツールセットです。インテリジェントな字幕抽出、AIタイトル生成、多言語翻訳などをサポートし、GPUアクセラレーションによるバッチオフライン処理が可能です。
6ヶ月前
02.4K
go-stock:AI赋能股票分析工具,自选股行情实时监控并基于AI深度分析

go-stock:AI対応株式分析ツール、自分で選んだ株価のリアルタイム監視とAIに基づく詳細分析

総合紹介 go-stockはWailsとNaiveUIで構築されたAI対応株式分析ツールです。このツールは株価のリアルタイム監視が可能で、コストと損益表示、上下アラームプッシュ機能を提供します。すべてのデータはローカルに保存され、ユーザ...
6ヶ月前
02.9K
RSS Translator(RSS翻译器):订阅并实时翻译RSS内容的工具

RSS Translator: RSSコンテンツをリアルタイムで購読・翻訳するツール

概要 RSS Translatorは、ユーザーがリアルタイムでRSSコンテンツを翻訳して購読できるように設計された、オープンソースのクリーンで自己展開可能なツールです。このツールは、Google翻訳、Microsoft Tra...など、複数の翻訳エンジンをサポートしています。
6ヶ月前
02.7K
KTransformers:大模型推理性能引擎:极致加速,灵活赋能

KTransformers:大規模モデル推論パフォーマンス・エンジン:極限の加速、柔軟な権限付与

KTransformers:大規模モデル推論のボトルネックを克服するための高性能Pythonフレームワーク。 KTransformersは、単なるモデル実行ツールにとどまらず、極めて優れたパフォーマンス最適化エンジンのセットであり、柔軟なインターフェース強化プラットフォームでもあります。 KTransf...
6ヶ月前
03K
VideoRAG:理解超长视频的RAG框架,支持多模态检索和知识图谱构建

VideoRAG:マルチモーダル検索と知識グラフ構築をサポートする超長尺動画理解のためのRAGフレームワーク

包括的な紹介 VideoRAGは、非常に長い文脈動画を処理し理解するために設計された、検索機能を強化した生成フレームワークです。このツールは、グラフ駆動のテキスト知識ベースと階層的なマルチモーダルコンテキストエンコーディングを組み合わせ、1つのNVIDIA RTX 3090 GPUで効率的に処理します...
6ヶ月前
03K
Instructor:简化大语言模型结构化输出工作流的Python库

講師:大規模言語モデルの構造化出力ワークフローを簡素化するPythonライブラリ

概要 Instructorは、大規模言語モデル(LLM)からの構造化出力を処理するために設計された人気のあるPythonライブラリです。Pydanticをベースに構築されており、データを管理するためのシンプルで透過的、かつユーザーフレンドリーなAPIを提供します。
6ヶ月前
02.4K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX:マルチモーダル・マクロモデルを用いた胸部X線写真解析のためのインテリジェントボディ

包括的な紹介 MedRAXは、胸部X線(CXR)解析用に設計された最先端のAIインテリジェンスです。最先端のCXR解析ツールとマルチモーダル大規模言語モデルを統合し、追加トレーニングなしで複雑な医療クエリを動的に処理します。
5ヶ月前
02.7K
LangBot:开源大模型即时通信机器人,支持多微信、QQ、飞书等多平台部署AI机器人

LangBot:オープンソースの大型モデルインスタントメッセージングロボット、複数のWeChat、QQ、Flybookと他のマルチプラットフォームのAIロボットの展開をサポートしています。

LangBotは、複数のメッセージングプラットフォームと大型モデルをサポートする大型モデルベースのインスタントメッセージングボットプラットフォームです。このプラットフォームはQQ、WeChat(企業WeChat、個人WeChat)、Flybook、Discord、OneBotなどのメッセージングプラットフォームに適応し、Open...
6ヶ月前
02.9K
zChunk:基于Llama-70B的通用语义分块策略

zChunk: Llama-70Bに基づく一般的な意味的チャンキング戦略

包括的な紹介 zChunkは、ZeroEntropyによって開発された、一般的なセマンティック・チャンキングのソリューションを提供する新しいチャンキング戦略です。このストラテジーはLlama-70Bモデルに基づいており、チャンクの生成を促すことでドキュメントのチャンキングプロセスを最適化し、情報検索を高いレベルで維持することを保証します。
6ヶ月前
02.4K
Hibiki:实时语音翻译模型,保留原声特点的流式翻译

Hibiki:リアルタイム音声翻訳モデル、元の音声の特徴を保持したストリーミング翻訳

一般的な紹介 Hibikiは、Kyutai Labsによって開発された高忠実度のリアルタイム音声翻訳モデルです。従来のオフライン翻訳機とは異なり、Hibikiはユーザーが話している最中にリアルタイムでターゲット言語の自然な音声翻訳を生成し、テキスト翻訳も提供することができます。このモデルは...
6ヶ月前
03.3K
Qwen4Mac:在Mac菜单栏中使用千问(Qwen)大模型随时对话

Qwen4Mac: MacのメニューバーにあるQwenの大きなモデルを使って、いつでも会話ができます!

概要 Qwen4MacはQwen Large Language Model (LLM)をMacのメニューバーに統合し、ユーザーがいつでも簡単に呼び出して使えるようにするために設計されたオープンソースプロジェクトです。このプロジェクトは、andreaturchetによって開発・保守されており、ユーザが簡単にQwenを...
6ヶ月前
02.1K
口袋AI:手机中运行的离线AI助手,适配 DeepSeek-R1 (5.37GB)

Pocket AI:DeepSeek-R1 (5.37GB)に対応した、携帯電話で動作するオフラインのAIアシスタント。

ポケットAI(PocketPal AI中国語版)は、いつでもどこでもAIと会話できるように設計された強力なオフラインAIアシスタントです。スモール・ランゲージ・モデル(SLM)をベースにしており、インターネット接続のない携帯電話で動作し、特に中国のユーザー体験に適応しています。口...
6ヶ月前
03.1K
OpenHealthForAll:个人健康数据管理AI助手,上传检查报告定制健康计划

OpenHealthForAll:個人の健康データ管理のためのAIアシスタント、カスタマイズされた健康計画のための検査レポートのアップロード

概論 OpenHealthForAllは、ユーザーの個人的な健康データの管理と理解を支援するために設計されたオープンソースプロジェクトである。人工知能技術を活用することで、OpenHealthForAllはローカルで動作する健康アシスタントを提供し、ユーザーがより良く管理できるようにします。
6ヶ月前
02K
Agentic Security:开源的LLM漏洞扫描工具,提供全面的模糊测试和攻击技术

Agentic Security: オープンソースのLLM脆弱性スキャンツール。

概要 Agentic Securityは、開発者やセキュリティ専門家に包括的なファズテストと攻撃技術を提供するために設計されたオープンソースのLLM(Large Language Model)脆弱性スキャンツールです。このツールは、カスタムルールセットやエージェントベースの攻撃をサポートし、LLM APを統合することができます。
6ヶ月前
02.7K
CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2: 映像理解と複数回の対話を支援するオープンソースのマルチモーダルモデル

包括的な紹介 CogVLM2は清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースのマルチモーダルモデルで、Llama3-8Bアーキテクチャをベースとしており、GPT-4Vに匹敵するか、それ以上の性能を提供することを目指している。このモデルは画像理解、多ラウンド対話、視覚...
6ヶ月前
02.4K
VisoMaster:强大且易用的图片/视频换脸和编辑软件

VisoMaster: パワフルで使いやすい写真/ビデオ整形・編集ソフトウェア

はじめに VisoMasterは、人工知能技術を使用して自然でリアルなフェイススワップ効果を実現する、パワフルで使いやすいビデオフェイススワップ編集ツールです。画像でもビデオでも、VisoMasterは簡単な操作で高品質のフェイススワップ結果を生成することができ、一般的なビデオ編集に適しています。
6ヶ月前
04.1K
基于RAG构建提供健康建议的小助手(实验项目)

健康アドバイスを提供するミニ・アシスタントのRAGベースの構築(パイロット・プロジェクト)

概論 LLM-RAG-Longevity-Coachは、Large Language Modelling (LLM)とRetrieval Augmented Generation (RAG)の技術に基づいたチャットボットで、ユーザーにパーソナライズされた健康と長寿のアドバイスを提供するように設計されている。このプロジェクトは、タイラー・バーレ...
6ヶ月前
02.7K
Maestro:简化主流开源视觉语言模型微调过程的工具

Maestro:主流のオープンソース視覚言語のモデルの微調整プロセスを簡素化するツール

包括的な紹介 MaestroはRoboflowによって開発されたツールで、マルチモーダルモデルのファインチューニングプロセスを簡素化、高速化し、誰でも独自の視覚マクロモデルをトレーニングできるようにします。F... などの一般的な視覚言語モデル(VLM)を微調整するためのレシピが用意されています。
6ヶ月前
02.6K
One-Prompt-One-Story:文本提示生成角色身份一致的图像

ワン・プロンプト・ワンストーリー:テキスト・プロンプトがキャラクターのアイデンティティと一貫したイメージを生み出す

Synthesis One-Prompt-One-Story(1Prompt1Story)は、1つのプロンプトから一貫した画像を生成できるように設計された革新的なテキストから画像への生成ツールである。ICLR 2025でTao Liuらによって発表された。
6ヶ月前
02.1K
AudioNotes:快速提取音视频内容并生成结构化笔记

AudioNotes: 音声とビデオコンテンツをすばやく抽出し、構造化されたノートを作成します。

総合紹介 AudioNotesは、FunASRとQwen2に基づいて構築された、オーディオ/ビデオから構造化ノートへのシステムです。オーディオ/ビデオコンテンツを素早く抽出し、大きなモデルを呼び出して構造化されたMarkdownノートを生成することができます。
6ヶ月前
02.6K
Bilingual Book Maker:使用AI翻译制作双语电子书,全书自动化翻译工具

バイリンガルブックメーカー: AI翻訳を使用して、バイリンガルの電子書籍を作成します。

一般的な紹介 バイリンガルブックメーカーは、ユーザーがAI技術を使って多言語版の電子書籍を作成できるように設計されたオープンソースプロジェクトです。このツールは主に翻訳にChatGPTを使用し、epub、txt、srtを含む複数のファイル形式をサポートしています。
6ヶ月前
02.7K
Rowfill:批量提取文档结构化信息并自动化分析

ロウフィル:文書からの構造化情報の一括抽出と自動分析

概要 Rowfillは、ナレッジワーカーのために設計されたオープンソースの文書処理プラットフォームです。高度な人工知能技術を使用して、複雑な文書、画像、PDFからデータを抽出、分析、処理します。Rowfillは、Large Language Model(LLM)とOpe...
6ヶ月前
02.3K
PRAG:提升问答系统性能的参数化检索增强生成工具

PRAG: Q&Aシステムのパフォーマンス向上のためのパラメトリック検索拡張生成ツール

包括的な紹介 PRAG(Parametric Retrieval-Augmented Generation)は、大規模言語モデル(LLM)のパラメータ空間に直接埋め込むことで、外部知識の生成を強化することを目的とした革新的な検索拡張生成ツールである。
6ヶ月前
03.5K
GPT Researcher:利用本地和网络数据,生成全面、详实的研究报告

GPTリサーチャー:ローカルおよびウェブベースのデータを使用して、包括的で詳細な調査レポートを作成します。

包括的な紹介 GPT Researcher は、Large Language Model (LLM)をベースとした自律型エージェントツールで、ローカルリサーチやウェブリサーチを行い、詳細なリサーチレポートを作成するために設計されています。このツールは、エージェント作業を並列化することにより、安定したパフォーマンスと高速化を実現し、情報の正確性を保証します。
4ヶ月前
02.2K
Linly-Talker:数字人智能对话系统,结合大语言模型与视觉模型,实现互动新体验

Linly-Talker:デジタルピープルのためのインテリジェント対話システム、ビッグ言語モデルとビジュアルモデルを組み合わせた新しいインタラクティブ体験

概論 Linly-Talkerは、大規模言語モデル(LLM)と視覚モデルを組み合わせた革新的なデジタル人間対話システムであり、人間とコンピュータの対話への斬新なアプローチを生み出す。このシステムは、Whisper、Linly、Micros...といった様々な技術を統合しています。
6ヶ月前
02.6K
Airweave:让应用程序快速集成知识库,实现智能搜索

Airweave:インテリジェントな検索のためのナレッジベースをアプリケーションに迅速に統合することを可能にする

概論 Airweaveは、ユーザーのアプリケーション・データ、API、データベース、ウェブサイトをグラフやベクトル・データベースに同期させることで、あらゆるアプリケーションを検索可能にするために設計されたオープンソース・ツールである。Airweaveは、構造化データであろうとなかろうと、データを検索可能にするプロセスを単純化する。
6ヶ月前
02.2K
ai-gradio:轻松集成多种AI模型,基于Gradio构建多模态应用

ai-gradio: 複数のAIモデルを簡単に統合し、Gradioに基づいたマルチモーダル・アプリケーションを構築する

概論 ai-gradioはオープンソースのPythonツールキットで、開発者が複数のAIモデルを簡単に統合して使用できるように設計されています。Gradio上に構築されたこのプロジェクトは、複数のAIモデルとサービスをサポートするための統一されたインターフェースを提供します。テキスト、音声、動画のいずれでも...
6ヶ月前
02.9K
OpenDeepResearcher:自动化深度研究工具,撰写完整的研究报告

OpenDeepResearcher:完全な調査レポートを書くための自動詳細調査ツール

概要 OpenDeepResearcherは、人工知能技術によって研究効率を向上させるために設計されたオープンソースの自動ディープリサーチツールです。プロジェクトはmshumerによって開発され、GitHubでホストされています。OpenDeepResear...
4ヶ月前
02.7K
ColiVara:基于视觉嵌入的文档存储与检索服务

ColiVara:視覚的埋め込みベースの文書保管・検索サービス

概要 ColiVara は、ビジュアル埋め込み技術に基づく文書保管・検索サービスです。光学式文字認識(OCR)やテキスト抽出の必要性をなくし、フォームの破損や画像の紛失といった問題を回避します。ColiVaraは、PDFを含む100以上のファイルフォーマットをサポートしています。
6ヶ月前
02.6K
Cursor Reset:重置 Cursor 0.45.x 以上版本设备标识的脚本

Cursor Reset: Cursorバージョン0.45.x以上のデバイス識別子をリセットするスクリプト。

概要 Cursor Reset は、Cursor IDE でデバイス識別子をリセットするための PowerShell スクリプト・ツールで、Cursor バージョン 0.45.x をサポートしています。このツールは、ユーザーが Cursor IDE のデバイス識別子をリセットできるように設計されています。
6ヶ月前
03.8K
n8n自托管AI入门套件:快速搭建本地AI环境的开源模板

n8n Self-hosted AI Starter Kit: ローカルAI環境を素早く構築するためのオープンソーステンプレート

包括的な紹介 n8nセルフホストAIスターターキットは、包括的なローカルAIとローコード開発環境を素早く初期化するために設計されたオープンソースのDocker Composeテンプレートです。n8nチームによって作られたこのスイートは、セルフホスト型のn8nプラットフォームと、互換性のある様々なAI...
6ヶ月前
03.2K
Gemini Teacher:英语口语发音纠正助手

ジェミニ・ティーチャー:英語スピーキング発音矯正アシスタント

概要 Gemini Teacherは、Google Gemini AIに基づいた英語スピーキング練習アシスタントです。ユーザーの英語の発音をリアルタイムで認識し、即座にフィードバックと修正案を提供します。このツールは、ユーザーが英語のスピーキングスキルを向上させるために設計されています...
6ヶ月前
02.7K
bilive:B站无人监守直播录制与自动切片、上传工具

bilive:教師なしライブ録画、自動スライス、B局用アップロードツール

総合紹介 biliveはB局ライブ録画のために設計されたツールで、非常に高速なライブ録画、自動スライシング、ポップアップレンダリング、字幕生成を提供します。このツールは、超低構成マシンに対応し、7x24時間の無人録画をサポートし、自動的にポップアップと字幕を識別してレンダリングし、自動的にスライスして...
6ヶ月前
02.7K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: 視覚言語モデルの汎化能力のための低コスト強化学習

包括的な紹介 R1-Vは、低コストの強化学習(RL)を通して視覚言語モデリング(VLM)のブレークスルーを達成することを目的としたオープンソースプロジェクトです。このプロジェクトは、VLMが一般的な計数能力を学習する動機付けとなる、検証可能な報酬メカニズムを利用している。驚くべきことに、R1-Vの2B ...
6ヶ月前
02.9K
PPTX2MD:将PPTX文件转换为Markdown的专用工具

PPTX2MD: PPTXファイルをMarkdownに変換する特別なツール

概要 PPTX2MDは、PowerPointのPPTXファイルをMarkdown形式に変換するために設計されたオープンソースツールです。GitHubユーザーのssine氏によって開発されたこのツールは、見出し、リスト、テキストフォーマット(例:太字、斜体、色、スーパー...)を保持することをサポートしています。
6ヶ月前
02.3K
Go-Proxy:Docker集成的高性能反向代理服务器

Go-Proxy:Docker統合のための高性能リバースプロキシサーバー

包括的な紹介 Go-ProxyはGo言語を使って開発された高性能なプロキシサーバーで、主にさまざまなネットワーク環境でプロキシサービスを提供するために使用されます。HTTP、HTTPS、SOCKS5、WebSocket、TCP、UDPを含む様々なプロトコルをサポートし、プロキシサーバーとして使用することができます。
6ヶ月前
02.8K
CoT-Lab:探索人机协作迭代思考的实验性对话工具

CoT-Lab:人間とコンピュータのコラボレーションに関する反復的思考を探求するための実験的対話ツール

CoT-Labは、人間とコンピュータのコラボレーションにおける新しいパラダイムを探求するための実験的インターフェースです。CoT-LabはCognitive Load Theory(認知的負荷理論)とActive Learning Principles(能動的学習原理)に基づき、「シンキングパートナー」関係の構築を通じて、人間と人工知能(AI)の間の深い認知的連携を促進します。プロジェクトの目的は...
6ヶ月前
02.2K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate:よく知られた音声生成、音声トランスクリプション、音声モデリングを統合する統一API

概要 Orateは、音声生成と文字起こしに特化したAIツールキットです。Orateは、OpenAI、ElevenLabs、AssemblyAIなどの主要なAIプロバイダーとシームレスに統合する統一APIを提供し、ユーザーが強制的に音声を作成できるようにします。
6ヶ月前
02.9K
Reflex LLM Examples:展示大语言模型实际应用的AI应用集合

Reflex LLM Examples:大規模言語モデルの実用的なアプリケーションを示すAIアプリケーション集

概要 Reflex LLM Examples は、Reflex 開発チームが大規模言語モデル(LLM)の実用的なアプリケーションを実証するために作成したオープンソースプロジェクトです。このプロジェクトでは、Reflex上で構築されたいくつかのAIアプリケーションをまとめ、Googl...
6ヶ月前
02.1K
DeepClaude:融合DeepSeek R1链式推理与Claude创造力的聊天界面

DeepClaude:DeepSeekのR1チェーン推論とClaudeの創造性を融合したチャットインターフェース

包括的な紹介 DeepClaudeは、DeepSeek R1の連鎖推論(CoT)機能とAnthropic Claudeモデルの創造性とコード生成を統合した、高性能な大規模言語モデル(LLM)推論APIとチャット・インターフェースです...
6ヶ月前
03.5K
BEN2:从图像、视频中快速移除背景的深度学习模型

BEN2: 画像や動画から背景を高速除去するディープラーニングモデル

包括的な紹介 BEN2(Background Erase Network 2)は、Prama LLCによって開発されたディープラーニングモデルで、特に画像から背景を自動的に除去し、前景画像を生成するように設計されています。このモデルは革新的なConfiden...
2ヶ月前
03.8K
AI Web Operator:浏览器自动化操作,OpenAI Operator的开源实现

AI Web Operator: ブラウザ自動化、OpenAI Operatorのオープンソース実装

概要 AI Web Operatorは、複数のAI技術とSDKを統合することで、ブラウザでのユーザー体験を簡素化するために設計されたオープンソースのAIブラウザ・オペレーター・ツールです。このツールは、BrowserbaseとVercel...をベースにしています。
6ヶ月前
02.8K
Exa & Deepseek Chat App:实时Web搜索与智能推理的开源聊天应用

Exa & Deepseek Chat App: リアルタイムのウェブ検索と知的推論のためのオープンソースチャットアプリ

包括的な紹介 Exa & Deepseekチャットアプリは、オープンソースのスマートチャットアプリです。主な機能には、ExaのAPIを使用したリアルタイムのウェブ検索や、インテリジェントなDeepseek R1言語モデルの使用などがあります。
6ヶ月前
02.6K
LLM API Engine:通过自然语言快速生成和部署API

LLM API Engine: 自然言語によるAPIの迅速な生成とデプロイメント

一般的な紹介 LLM API Engineは、開発者がAIを搭載したAPIを迅速に構築し、デプロイできるように設計されたオープンソースプロジェクトです。このプロジェクトは、Large Language Model(LLM)とインテリジェントなウェブクローリング技術を活用し、ユーザーが自然言語記述によってカスタムAPIを作成できるようにします。
6ヶ月前
02.2K
PengChengStarling:对比Whisper-Large v3更小、更快的多语言语音转文字工具

PengChengStarling: Whisper-Large v3より小型で高速な多言語音声テキスト変換ツール

包括的な紹介 PengChengStarling (PengCheng Labs) は、異なる言語の音声を対応するテキストに変換できる多言語自動音声認識 (ASR) ツールです。このツールキットはicefallプロジェクトに基づいて開発され、完全な音声認識プロセスを提供します...
6ヶ月前
02.3K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-プレビュー:リアルタイム対話のためのエンドツーエンドの擬人化音声対話マクロモデル

SpeechGPT2.0-previewは、OpenMOSSが初めて導入した擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データに基づいて学習されています。このシステムは、擬人化された音声表現と100msの低遅延応答を備え、自然でスムーズなリアルタイム...
6ヶ月前
02.8K
Goose:开源可扩展的编程智能体,自动化执行编程全流程任务

Goose:全工程のプログラミング作業を自動化する、オープンソースのスケーラブルなプログラミング・インテリジェンス

一般的な紹介 GooseはBlock社によって開発されたオープンソースのAIエージェントツールで、開発者が日常的な開発作業を自動化できるように設計されています。さまざまな大規模言語モデル(LLM)をサポートし、コマンドラインやデスクトップアプリケーションのインターフェースを介してユーザーと対話します。
6ヶ月前
04K
Fullmoon:本地大语言模型聊天的iOS应用

Fullmoon:ネイティブの多言語モデルチャット用iOSアプリ

一般的な説明 FullmoonはiOSデバイス用に設計されたアプリで、ネイティブの大規模な言語モデルとのプライベートチャット機能を提供することを目的としています。このアプリはApple Siliconに最適化されており、iPhone、iPad、Macに対応しています。チャットのユーザー...
6ヶ月前
03.3K
Onlook:面向前端设计开源Cursor,在React应用中设计并发布代码

Onlook: フロントエンド設計のためのオープンソースCursor、Reactアプリケーションの設計とコードの公開

一般的な紹介 Onlookはデザイナーと開発者のために作られたオープンソースのデザインツールで、ユーザーは実行中のReactアプリケーションで直接デザインし、デザインの変更をコードに変換することができます。このツールは、Figma や Webf... に似た直感的なビジュアル編集体験を提供します。
6ヶ月前
02.4K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格

YuE:歌詞を完全な曲のベースモデルに変換し、幅広い音楽スタイルをサポートします。

概要 YuEは、歌詞をフルソングに変換することに重点を置いた、オープンソースのフルソング生成ベースモデルです。ボーカル以外の短いスニペットしか生成しない他のモデルとは異なり、YuEはリードボーカルとバッキングボーカルを含む、長さ数分のフルソングを生成することができます。YuEは、歌詞から曲への変換に特化したモデルである。
6ヶ月前
03.3K
Cog-ComfyUI:使用API运行ComfyUI工作流

Cog-ComfyUI:APIを使ったComfyUIワークフローの実行

一般的な紹介 Cog-ComfyUIは、APIを介してComfyUIワークフローを実行するために設計されたオープンソースプロジェクトです。GitHubユーザーのfofrによって作成されたこのプロジェクトは、ComfyUIワークフローを統合して実行する効率的な方法を提供します。
6ヶ月前
02.8K
Supermemory:导入书签和网页内容构建个人知识库

スーパーメモリー:ブックマークやウェブコンテンツをインポートして個人の知識ベースを構築する

概論 Supermemoryは、ユーザーが「第二の脳」を構築することを支援するために設計されたオープンソースプロジェクトである。強力なChrome拡張機能とAI技術により、ユーザーはウェブページやTwitterのブックマークから簡単にデータを保存、整理、取得することができます。
6ヶ月前
02.9K
Open NotebookLM:将PDF转换为播客的开源工具

Open NotebookLM: PDFをオープンソースツールのポッドキャストに変換する

概要 Open NotebookLMは、あらゆるPDF文書をポッドキャストに変換するために設計されたオープンソースプロジェクトです。このツールは、オープンソースのLarge Language Model (LLM)とText-to-Speech (TTS)モデルを使用してPDFコンテンツを処理し、オーディオポッドキャストに適した自然なダイアログを生成します...
6ヶ月前
02.7K
Qwen2.5-VL:支持图像视频文档解析的开源多模态大模型

Qwen2.5-VL:画像・ビデオ文書解析のためのオープンソース・マルチモーダルラージモデル

総合紹介 Qwen2.5-VLは、アリババクラウド(Alibaba Cloud)のQwenチームによって開発されたオープンソースのマルチモーダルビッグモデルです。Qwen2.5-VLはQwen2-VLのアップグレード版で、Qwen2.5-VLをベースに、テキスト、画像、動画、ドキュメントを同時に扱うことができます。
5ヶ月前
02.7K
Lux:几乎支持所有视频平台的命令行视频下载器

Lux: ほぼすべてのビデオプラットフォームをサポートするコマンドライン動画ダウンローダー

概要 Luxは、Goで書かれた高速でシンプルなビデオダウンロードライブラリとコマンドラインツールです。YouTube、Bilibili、Youkuなど、複数のウェブサイトからの動画ダウンロードをサポートしています。Luxは、マルチスレッドダウンロードなど、様々なダウンロードオプションと機能を提供します。
6ヶ月前
02.2K
Langui:开源的AI用户界面组件库

Langui: AIユーザーインターフェイスコンポーネントのオープンソースライブラリ

概要 LangbaseIncのLanguiは、生成AIや大規模言語モデリング(LLM)プロジェクトのために設計されたオープンソースのユーザーインターフェイスコンポーネントライブラリです。このライブラリはTailwind CSSをベースにしており、開発者が素早くUIを構築できるように、あらかじめビルドされたUIコンポーネントのコレクションを提供します。
7ヶ月前
02.4K
MNN-LLM-Android:MNN 多模态语言模型的安卓应用

MNN-LLM-Android: AndroidのためのMNNマルチモーダル言語モデリング

包括的な紹介 MNN(Mobile Neural Network)は、アリババが開発し、モバイルデバイス向けに最適化された、効率的で軽量なディープラーニングフレームワークである。MNNは、モバイルデバイス上で高速な推論が可能なだけでなく、テキスト生成などのマルチモーダルなタスクもサポートしている...
6ヶ月前
03.3K
AI RSS生成器:通过AI将网页内容转换为RSS订阅源的工具

AI RSS Generator:ウェブコンテンツをAIでRSSフィードに変換するツール

概要 AI RSSは、AI技術によりウェブコンテンツをRSSフィードに変換する革新的なツールです。ブラウザ・プラグインとサーバー・サイドの2つの主要部分から構成されています。ブラウザプラグインでは、ウェブページからリストを選択し、構造化データ記述(SDD)ファイルを生成することができます。
7ヶ月前
02.6K
UltraRAG:一站式RAG系统解决方案,简化数据构建与模型微调

UltraRAG: データ構築とモデル微調整を簡素化するワンストップRAGシステムソリューション

総合紹介 UltraRAGは、清華大学のTHUNLPグループ、東北大学のNEUIRグループ、Modelbest.Inc、9#AISoftチームによって共同提案されたRAG(Retrieval Augmented Generation)システムソリューションである。このフレームワークは、アジャイルな展開とモジュール式の構築に基づいている。
7ヶ月前
02.2K
Llasa 1~8B:高品质语音生成和克隆的开源文本转语音模型

Llasa 1~8B: 高品質音声生成とクローニングのためのオープンソース音声合成モデル

概要 Llasa-3Bは、香港科学技術大学オーディオ研究室(HKUST Audio)が開発したオープンソースの音声合成(TTS)モデルです。このモデルはLlama 3.2Bアーキテクチャに基づいており、複数の音声合成をサポートするだけでなく、高品質な音声合成を提供するために慎重に調整されています。
6ヶ月前
03.2K
Fast GraphRAG:高准确率且低成本的图形化检索增强生成工具

高速GraphRAG:高精度で低コストのグラフィカル検索機能拡張生成ツール

包括的な紹介 Fast GraphRAGはCirclemind AIによって開発されたオープンソースツールで、知識グラフとPageRankアルゴリズムによって効率的で正確な検索補強生成(RAG)を可能にします。このツールはユーザーの用途にインテリジェントに適応する。
7ヶ月前
02.4K
Open R1:Hugging Face 复现 DeepSeek-R1 的训练过程

オープンR1:ハグする顔がDeepSeek-R1のトレーニングプロセスを再現

一般的な紹介 Hugging FaceのOpen R1プロジェクトは、完全にオープンソースのDeepSeek-R1複製プロジェクトであり、R1パイプラインの欠けている部分を構築し、誰もが複製して構築できるようにすることを目的としています。プロジェクトはシンプルに設計されており、主にトレーニングと評価で構成されています。
7ヶ月前
04.1K
Open Operator:通过AI智能体在云浏览器中执行自动化操作

オープン・オペレーター:AIインテリジェンスでクラウド・ブラウザの操作を自動化する

概論 Open Operatorは、AIインテリジェンスによってブラウザの操作を自動化することを目的としたオープンソースプロジェクトである。このプロジェクトはBrowserbaseによって開発され、StagehandとBrowserbaseの技術を組み合わせています...
7ヶ月前
03.6K
Cerebr:与网页内容对话的开源浏览器插件

Cerebr:ウェブコンテンツと対話するオープンソースのブラウザ・プラグイン

概要 説明 Cerebrは、生産性と学習体験を向上させるために設計された、Chrome用の強力なAIアシスタント拡張機能です。Cerebrは、クリーンで効率的なブラウザAIアシスタントの必要性からゼロから設計され、ミニマルなデザインと強力な...
4ヶ月前
02.6K