AIオープンソースプロジェクト

合計1020記事
FoleyCrafter:为无声视频添加生动同步的音效

FoleyCrafter: 無音ビデオに鮮やかな同期サウンドを追加する

一般的な紹介 FoleyCrafterは、OpenMMLabによって開発されたオープンソースプロジェクトで、無音ビデオのための鮮明で同期された効果音を生成します。このプロジェクトでは、高度な人工知能技術を用いて、ビデオの内容を分析することにより、意味的に関連性のある、時間的に同期した効果音を生成します...
8ヶ月前
02.9K
TableGPT Agent:专为分析复杂表格数据设计的智能工具

TableGPTエージェント:複雑な表形式データを分析するために設計されたインテリジェントツール

包括的な紹介 TableGPTエージェントは、GitHubオープンソースプロジェクトに基づくインテリジェントなツールで、表形式データの処理と分析のために設計されています。TableGPT2 Big Language Model に依存し、自然言語インタラクションを使用して、ユーザが簡単にクエリ、操作...
6ヶ月前
02.9K
OmniSVG:从文本和图像生成SVG矢量图形的开源项目

OmniSVG: テキストと画像からSVGベクターグラフィックスを生成するオープンソースプロジェクト

概論 OmniSVGは、マルチモーダルモデルによる高品質なベクターグラフィックス(SVG)の生成に特化したオープンソースプロジェクトである。事前に訓練された視覚言語モデルを使用して、テキスト記述や画像入力からのSVG生成をサポートし、単純なアイコンから複雑なアニメキャラクターまで幅広いシナリオをカバーします。アイテム ...
4ヶ月前
02.9K
RSS Translator(RSS翻译器):订阅并实时翻译RSS内容的工具

RSS Translator: RSSコンテンツをリアルタイムで購読・翻訳するツール

概要 RSS Translatorは、ユーザーがリアルタイムでRSSコンテンツを翻訳して購読できるように設計された、オープンソースのクリーンで自己展開可能なツールです。このツールは、Google翻訳、Microsoft Tra...など、複数の翻訳エンジンをサポートしています。
6ヶ月前
02.9K
VLM-R1:通过自然语言定位图像目标的视觉语言模型

VLM-R1:自然言語による画像ターゲットの位置決定のための視覚言語モデル

包括的な紹介 VLM-R1は、Om AI Labによって開発され、GitHubでホストされているオープンソースの視覚言語モデリングプロジェクトです。このプロジェクトは、DeepSeekのR1アプローチとQwen2.5-VLモデルを強化学習によって組み合わせたものです。
6ヶ月前
02.9K
TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

タンクワーク:音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ

概論 TankWorkはオープンソースのデスクトップエージェント・フレームワークで、コンピュータビジョンとシステムレベルのインタラクションを通じて、AIがコンピュータを認識し制御できるように設計されています。このフレームワークは、エージェントが音声やテキストコマンドでコンピュータを直接制御し、リアルタイムのスクリーンコンテンツを処理し、継続的なオーディオビジュアルを提供することを可能にします。
7ヶ月前
02.9K
light card:HTML5卡片生成工具,创建精美内容卡片的简洁工具

ライトカード:HTML5カードジェネレーターツール、シンプルなツールで美しいコンテンツカードを作る

概要 lightcard は、ユーザーが簡単に美しいコンテンツカードを作成できるように設計された、シンプルでエレガントなカード生成ツールです。このツールは、カスタムテキストコンテンツ、複数のテーマスタイル、QRコードに対応しており、作成がより簡単で楽しくなります。ユーザーは、タイトル、本文、作者を編集できます。
8ヶ月前
02.9K
GPTme:在命令行终端中运行的智能编程助手,ChatGPT代码解释器的本地化替代方案

GPTme: コマンドライン・ターミナルで動作するインテリジェント・プログラミング・アシスタント、ChatGPTコード・インタープリターのローカライズされた代替品

総合紹介 GPTMeは、開発者の作業効率を向上させるために設計された革新的な端末AIアシスタントツールです。強力なAI機能と端末環境を完璧に組み合わせ、コード実行、ファイル編集、ウェブブラウジング、視覚認識など多様な機能をサポートします。ChatGPTのコード解...
8ヶ月前
02.9K
VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

VideoChat:カスタムイメージとトーンクローニングによるリアルタイムの音声対話型デジタルパーソンは、エンドツーエンドの音声ソリューションとカスケードソリューションをサポートします。

概要 VideoChatは、オープンソース技術に基づくリアルタイム音声対話デジタルパーソンプロジェクトで、エンドツーエンドの音声スキーム(GLM-4-Voice - THG)とカスケードスキーム(ASR-LLM-TTS-THG)の両方をサポートしています。このプロジェクトでは、ユーザーがデジタルパーソンをカスタマイズすることができます。
9ヶ月前
02.9K
tldraw:开源无限画布白板SDK,AI生成简约线框图和UML图

tldraw: オープンソースの無制限キャンバス・ホワイトボードSDK、最小限のワイヤーフレームとUMLダイアグラムを生成するAI

一般的な説明 tldraw は、ユーザーが素早くグラフィックを描いたり、テキストを書き込んだり、即座に共同作業ができる無制限のキャンバスを提供する、無料で即座に共同作業ができるドローツールです。直感的なインターフェースと優れたパフォーマンスが特徴で、チームコラボレーションやリモートワークに適しています。オープンソースコミュニティを通じてサポートされているtldr...
9ヶ月前
02.8K
QAnything:高度集成RAG处理流程的本地知识库问答系统

QAnything: RAG処理フローを高度に統合したローカル知識ベースQ&Aシステム

QAnything Comprehensive Introduction QAnything(Question and Answer based on Anything)は、NetEaseが発表したローカル知識ベースのQ&Aシステムで、あらゆる種類のファイル形式とデータベースをサポートし、オフラインでインストールして使用することができる。
11ヶ月前
02.8K
CSM Voice Cloning:利用CSM-1B快速克隆声音

CSMボイスクローニング:CSM-1Bによる高速ボイスクローニング

概要 CSM Voice Cloningは、Isaiah Bjorkによって開発され、GitHubでホストされているオープンソースプロジェクトです。このプロジェクトはSesame CSM-1Bモデルに基づいており、ユーザは音声サンプルを提供するだけでクローンを作成することができます。
5ヶ月前
02.8K
AI Web Operator:浏览器自动化操作,OpenAI Operator的开源实现

AI Web Operator: ブラウザ自動化、OpenAI Operatorのオープンソース実装

概要 AI Web Operatorは、複数のAI技術とSDKを統合することで、ブラウザでのユーザー体験を簡素化するために設計されたオープンソースのAIブラウザ・オペレーター・ツールです。このツールは、BrowserbaseとVercel...をベースにしています。
6ヶ月前
02.8K
Gemini Teacher:英语口语发音纠正助手

ジェミニ・ティーチャー:英語スピーキング発音矯正アシスタント

概要 Gemini Teacherは、Google Gemini AIに基づいた英語スピーキング練習アシスタントです。ユーザーの英語の発音をリアルタイムで認識し、即座にフィードバックと修正案を提供します。このツールは、ユーザーが英語のスピーキングスキルを向上させるために設計されています...
6ヶ月前
02.8K
Bambo:轻量灵活的智能体框架,简单配置角色和工具,处理多种负载任务

Bambo: 軽量で柔軟なインテリジェント・ボディのためのフレームワーク。役割とツールをシンプルに構成し、複数の負荷タスクを処理する。

一般的な紹介 Bamboは新しいタイプのプロキシフレームワークであり、主流のフレームワークよりも軽量で柔軟性が高く、様々な負荷タスクに対応できる。Bamboはツールカタログに全てのツールを定義し、非同期のカスタム関数を使用することで、効率的なプロキシ機能を実現している。ユーザーはllm_c...
8ヶ月前
02.8K
Podcastfy:多源内容转多语言音频对话工具,NotebookLM 播客功能的开源替代方案

Podcastfy:NotebookLMのポッドキャスティング機能に代わるオープンソースの多言語音声会話ツール、マルチソースコンテンツ

一般的な紹介 PodcastfyはオープンソースのPythonパッケージで、生成人工知能(GenAI)技術を使用して、ウェブコンテンツ、PDFファイル、テキスト、画像、YouTube動画、その他多くのソースを魅力的な多言語に変換します。
10ヶ月前
02.8K
Baichuan-Audio:支持实时语音交互的端到端音频模型

Baichuan-Audio: リアルタイムの音声対話をサポートするエンドツーエンドのオーディオモデル

包括的な紹介 Baichuan-AudioはBaichuan Intelligence (baichuan-inc)によって開発されたオープンソースプロジェクトで、GitHubでホストされており、エンドツーエンドの音声対話技術に焦点を当てています。このプロジェクトは、完全な音声処理フレームワークを提供し、音声...
5ヶ月前
02.8K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: データクリーニング効率を向上させるセマンティックテキスト重複排除の高速実装

包括的な紹介 SemHashは、意味的類似性によってデータセットの重複を除去するための軽量で柔軟なツールです。Model2Vecの高速な埋め込み生成と、Vicinityの効率的なANN(近似最近傍)類似検索を組み合わせています。
7ヶ月前
02.8K
OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据

OmniParse: ドキュメント/マルチメディアからあらゆる非構造化データを抽出し、構造化データにパースします。

概要 OmniParseは、あらゆる非構造化データを構造化された実用的なデータに変換するために設計された強力なデータ解析および最適化プラットフォームであり、GenAI(Generative Artificial Intelligence)フレームワーク用に最適化されています。ドキュメント、テーブル、画像、ビデオ、オーディオファイル、または...
9ヶ月前
02.8K
Higress:提供高效的AI网关解决方案,简化微服务管理,增强安全防护

Higress:マイクロサービスの管理を簡素化し、セキュリティを強化する効率的なAIゲートウェイ・ソリューションの提供

総合紹介 Higressはアリババが開発したクラウドネイティブなAPIゲートウェイで、IstioとEnvoyをベースに構築され、効率的なトラフィックスケジューリング、サービスガバナンス、セキュリティソリューションを提供するように設計されている。複数のプログラミング言語に対応したWasmプラグイン拡張機能をサポートし、AIビジネス...
9ヶ月前
02.8K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-プレビュー:リアルタイム対話のためのエンドツーエンドの擬人化音声対話マクロモデル

SpeechGPT2.0-previewは、OpenMOSSが初めて導入した擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データに基づいて学習されています。このシステムは、擬人化された音声表現と100msの低遅延応答を備え、自然でスムーズなリアルタイム...
6ヶ月前
02.8K
Zed:Rust开发的高性能多人协作代码编辑器

Zed: Rustによって開発された高性能なマルチプレイヤー共同コードエディタ

一般的な紹介 Zedは、AtomとTree-sitterのクリエイターによって開発された、高性能なマルチユーザー共同コードエディターです。Rust言語で書かれたZedは、高速で流動的なコーディング体験を提供するように設計されています。主な機能として、マルチプレイヤー...
8ヶ月前
02.8K
OpenAI WebRTC Python:与OpenAI实时API进行语音交互的Python库

OpenAI WebRTC Python: OpenAIリアルタイムAPIと音声対話するためのPythonライブラリ

包括的な紹介 OpenAI Realtime WebRTC Pythonは、OpenAI Realtime APIを使った音声インタラクションの完全なソリューションを開発者に提供する、プロフェッショナルなPythonライブラリです。このプロジェクトは、低遅延を可能にするWebRTC技術に基づいています...
7ヶ月前
02.8K
Artab:在浏览器打开的新标签页中展示世界名画,Chrome插件

Artab:ブラウザで開いた新しいタブで世界の名画を表示、Chromeプラグイン

一般的な説明 Artabは、新しいタブを開くたびに世界の素晴らしい芸術作品を紹介するように設計されたブラウザ拡張機能です。この拡張機能はChrome、Edge、Firefoxブラウザで利用できます。Artabを使用すると、ユーザーはブラウズすることができます...
8ヶ月前
02.8K
CFG-Zero-star:提升图像和视频生成质量的开源工具

CFG-Zero-star:画像とビデオの生成品質を向上させるオープンソースツール

包括的な紹介 CFG-Zero-starは、Weichen Fanと南洋理工大学のS-Labチームによって開発されたオープンソースプロジェクトです。誘導戦略とゼロ初期値を最適化することで、ストリーム・マッチング・モデルにおけるクラシファイア・フリー・ガイダンス(CFG)技術を改善することに焦点を当てています。
5ヶ月前
02.8K
Groq AppGen:使用Groq API展示Llama 3.3 70B HTML代码生成能力的实验项目

Groq AppGen: Groq APIを使用したLlama 3.3 70B HTMLコード生成機能の実証実験プロジェクト

一般的な紹介 Groq AppGenは、Groq Inc.によって開発され、オープンソース化された革新的なインタラクティブ・ウェブ・アプリケーション・ジェネレーターです。このプロジェクトは、HTMLコード生成のためのLlama 3.3 70Bモデルのパワーを実証しています。Groq...
7ヶ月前
02.8K
GenEx:从一张图片生成可探索的360° 3D世界(代码逐步开源)

GenEx:1枚の画像から探索可能な360°3D世界を生成(コードは順次オープンソース化)

一般的な紹介 GenExは、1枚の画像から完全に探索可能な360°の3D世界を生成できる先進的なAIモデルである。ユーザーはこの生成された世界をインタラクティブに探索することができる。GenExは想像空間における造形的AIの境界を押し広げ、...
8ヶ月前
02.8K
Kilo Code:具有简洁使用体验的Roo Code分支

キロ・コード:クリーンなユーザー・エクスペリエンスを備えたルー・コードのブランチ

一般的な紹介 キロコードは、Visual Studio Code(略してVS Code)のオープンソース拡張プラグインです。人工知能技術を使って、ユーザーがより効率的にコードを書けるようにする。このプロジェクトはKilo-Orgチームによって開発された。
5ヶ月前
02.8K
AI Dev Gallery:Windows本地AI模型开发工具集,端侧模型集成到Windows应用

AI Dev Gallery: WindowsネイティブAIモデル開発ツールセット、Windowsアプリケーションへのエンドサイドモデルの統合

概論 AI Dev Galleryは、Windows開発者向けに設計されたマイクロソフトのAI開発ツールアプリケーション(現在パブリックプレビュー中)である。開発者がAI機能を簡単にWindo...
7ヶ月前
02.8K
Pyramid Flow:快手推出的开源版

Pyramid Flow:Racerが発表した "Kringle "のオープンソース版で、SD3をベースとし、8GB未満のGPUで動作する(ワンクリックデプロイメント版)。

総合紹介 ピラミッドフローは、フローマッチング技術に基づく効率的な自己回帰的映像生成手法である。この手法は、異なる解像度とノイズレベルの間を補間することで、映像コンテンツの生成と伸長において高い計算効率を達成する...
9ヶ月前
02.8K
Aana SDK:简易部署多模态AI模型的开源工具

Aana SDK: マルチモーダルAIモデルを簡単に導入できるオープンソースツール

概論 Aana SDKはMobius Labsが開発したオープンソースのフレームワークで、マラヤーラム語のആന(象)にちなんで名付けられた。開発者がマルチモーダルAIモデルを迅速にデプロイ、管理できるように支援し、テキスト、画像、音声、動画、その他のデータの処理をサポートします。
5ヶ月前
02.8K
OmAgent:构建多模态智能设备的智能体框架

OmAgent:マルチモーダル・スマートデバイス構築のための知的身体フレームワーク

包括的な紹介 OmAgentはOm AI Labによって開発されたマルチモーダルインテリジェントボディフレームワークであり、スマートデバイスにAIを搭載した強力な機能を提供することを目的としている。最先端のマルチモーダルベースモデルとインテリジェントボディアルゴリズムを統合することで、開発者は様々なデバイス上で効率的なスマートデバイスを作成することができます。
7ヶ月前
02.8K
PandasAI:数据分析对话平台,用自然语言完成数据查询与图表生成

PandasAI: 自然言語によるデータクエリとグラフ生成のためのデータ分析対話プラットフォーム

はじめに PandasAI は Python ベースのオープンソースプラットフォームであり、自然言語処理技術によってデータ分析プロセスを簡素化するように設計されています。データベース(SQL、CSV、pandas、polars、mongodb、n...など)との対話を可能にします。
9ヶ月前
02.8K
Open Deep Research:生成基于网络搜索内容的AI研究报告

オープン・ディープ・リサーチ:ウェブ検索コンテンツに基づくAI研究の生成

概論 Open Deep Researchは、Google Geminiのディープリサーチ機能に代わるオープンソースのAI駆動型リサーチレポート作成ツールである。プロジェクトはTypeScriptで開発されており、Next.js 1...をベースにしています。
4ヶ月前
02.8K
InstantCharacter:从单张图片生成一致性角色的开源工具

InstantCharacter:単一の画像から一貫性のある文字を生成するオープンソースツール

概要 InstantCharacterは、Tencent HunyuanとInstantXチームによって開発されたオープンソースプロジェクトで、GitHubでホストされています。InstantCharacterは、参照画像とテキスト説明文を含む、一貫性のある文字マップを生成します。
3ヶ月前
02.8K
Qwen2.5-VL:支持图像视频文档解析的开源多模态大模型

Qwen2.5-VL:画像・ビデオ文書解析のためのオープンソース・マルチモーダルラージモデル

総合紹介 Qwen2.5-VLは、アリババクラウド(Alibaba Cloud)のQwenチームによって開発されたオープンソースのマルチモーダルビッグモデルです。Qwen2.5-VLはQwen2-VLのアップグレード版で、Qwen2.5-VLをベースに、テキスト、画像、動画、ドキュメントを同時に扱うことができます。
5ヶ月前
02.8K
Story-Adapter:根据长篇故事生成连续且风格一致的图像插画

Story-Adapter:長いストーリーに基づき、連続的で一貫性のあるグラフィック・イラストレーションを生成します。

概論 Story-Adapterは、テキストストーリーを首尾一貫した画像シーケンスに変換する革新的なストーリー視覚化フレームワークである。研究者によって開発されたこのプロジェクトは、高品質のストーリーイラストを生成するためのトレーニングが不要な反復アプローチを採用している。このフレームワークの特徴は、長いストーリーを扱えることである。
7ヶ月前
02.8K
DataLine:AI数据分析与可视化客户端,快速生成图表和报告

DataLine: 迅速なチャートとレポート作成のためのAIデータ分析・可視化クライアント

概要 DataLineは、様々なデータソースを簡単な操作で操作できるように設計された、強力なAIデータ分析・可視化ツールです。CSVファイルであろうと、Postgres、MySQL、Snowflake、SQL...といった主流のデータベースであろうと。
6ヶ月前
02.8K
MoneyPrinterTurbo:输入视频主题一键生成视频文案和高清短视频

MoneyPrinterTurbo:ビデオテーマを入力すると、ワンクリックでビデオコピーと短いHDビデオを生成します。

総合紹介 MoneyPrinterTurboはオープンソースプロジェクトで、先進的なAIビッグモデル技術を利用して、ワンクリックで短いHDビデオを生成する機能を実現します。ユーザーは動画のテーマやキーワードを提供するだけで、システムが自動的に動画コピー、動画クリップ、動画字幕を生成します。
5ヶ月前
02.8K
VideoSeal:先进的开源视频隐藏水印嵌入与提取工具,保护视频版权

VideoSeal: ビデオ著作権を保護する高度なオープンソースビデオ隠し透かし埋め込み・抽出ツール

一般的な紹介 VideoSealはFacebook Researchによって開発されたオープンソースのビデオ透かしツールであり、効率的なビデオ透かしの埋め込みと抽出を提供するように設計されている。このツールは、最新のオープンソースモデルをサポートし、事前学習済みモデル、学習コード、推論コード、評価ツールを含んでいます。
8ヶ月前
02.8K
SQLite-Utils-Ask:让用户对SQLite数据库和CSV/JSON文件进行问答式数据查询

SQLite-Utils-Ask: SQLite データベースと CSV/JSON ファイルにクエリデータをクエリできます。

一般的な紹介 SQLite-Utils-Askは、SQLiteデータベースやCSV/JSONファイルに対して、LLM(Large Language Model)の助けを借りて、ユーザーが質問と回答のデータクエリを実行できるように設計された強力なツールです。このツールは、SQLiteデータベースやCSV/JSONファイルに対して、LLM(Large Language Model)に基づいた質問を自動的に生成することができます。
9ヶ月前
02.8K
Data Formulator:AI驱动的数据可视化工具

Data Formulator:AIによるデータ可視化ツール

概論 Data Formulator は Microsoft Research によって開発されたオープンソースのAI駆動型データ可視化ツールである。このツールは、グラフィカル・ユーザー・インターフェース (GUI) と自然言語入力 (NL) を組み合わせたもので、ユーザーは簡単なインタラクションやコマンドによって、素早くデータを作成し、反復することができます。
6ヶ月前
02.8K
Social Media Agent:社交媒体智能助手,自动生成和管理社交媒体内容

ソーシャルメディア・エージェント:ソーシャルメディア・コンテンツを自動生成・管理するソーシャルメディア用インテリジェント・アシスタント

概要 ソーシャルメディアエージェント(Social Media Agent)は、ソーシャルメディアコンテンツの生成と管理を自動化するために設計された、新しいエージェントインボックスによってインタラクション情報を管理するオープンソースプロジェクトです。このプロジェクトはLangChainチームによって開発されました。
7ヶ月前
02.8K
JoyGen:音频驱动的3D深度感知人像说话视频编辑工具

ジョイジェン:音声駆動型3D奥行き認識型トーキングビデオ編集ツール

包括的な紹介 JoyGenは、音声による表情生成の問題を解決することに焦点を当てた、話す顔のための革新的な2段階映像生成フレームワークである。Jingdong Technologyのチームによって開発されたこのフレームワークは、高度な3D再構成技術と音声特徴抽出法を用いて、話し手のアイデンティティ特性と表情を正確に捉えます。
7ヶ月前
02.8K
Vision Parse: 視覚言語モデルを用いたPDFドキュメントのMarkdownフォーマットへのインテリジェント変換

Vision Parse: 視覚言語モデルを用いたPDFドキュメントのMarkdownフォーマットへのインテリジェント変換

包括的な紹介 Vision Parseは画期的な文書処理ツールで、最先端の視覚言語モデル(Vision Language Models)技術と、PDF文書を高品質のMarkdown形式にインテリジェントに変換する機能を巧みに組み合わせています...
8ヶ月前
02.8K
AutoFlow:基于GraphRAG的对话式知识库/网页深度搜索工具,对话框可集成到其他网站

AutoFlow: GraphRAGベースの会話型知識ベース/ディープ・ウェブ検索ツール。

概要 AutoFlowはPingCAP社によって開発されたオープンソースのツールで、TiDBサーバーレス・ベクトル・ストレージを用いてグラフベースの知識ベースを構築する。LlamaIndexとDSPyフレームワークを統合し、複雑なダイアログ検索と知識グラフをサポートする。
7ヶ月前
02.8K
DB-GPT:构建AI原生数据应用开发框架,集成多模型管理与智能数据处理

DB-GPT: AIネイティブデータアプリケーション開発フレームワークの構築、マルチモデル管理とインテリジェントデータ処理の統合

包括的な紹介 DB-GPTは、AWEL(Agentic Workflow Expression Language)とスマートボディ技術を用いて構築されたオープンソースのAIネイティブデータアプリケーション開発フレームワークです。このプロジェクトは、大規模モデルの分野でインフラを構築することを目的としています。
5ヶ月前
02.8K
CogView3:智谱轻言开源的级联扩散文本生成图像模型

CogView3: Wisdom Spectrumのオープンソースカスケード拡散テキスト生成画像モデル

包括的な紹介 CogView3は清華大学とシンクタンクチーム(Chi Spectrum Qingyan)によって開発された先進的なテキスト生成画像システムである。CogView3の主な特徴は、多段階生成、革新的なアーキテクチャ、効率的なパフォーマンスです。
10ヶ月前
02.8K
OASIS:多智能体模拟数百万用户社交媒体互动,研究复杂社会现象

OASIS: 複雑な社会現象を研究するための、数百万人のユーザーによるソーシャルメディア・インタラクションのマルチインテリジェンス・シミュレーション

概論 OASIS(Open Agent Social Interaction Simulations)は、最大100万人のユーザーの行動をシミュレートできるオープンソースのソーシャルメディア・シミュレータである。このプラットフォームは、大規模言語モデルとルールベース...
5ヶ月前
02.8K
GPT-Crawler:自动爬取网站内容生成知识库文件

GPT-Crawler: ウェブサイトコンテンツを自動的にクロールして知識ベースドキュメントを生成

一般的な紹介 GPT-Crawlerは、BuilderIOチームによって開発され、GitHubでホストされているオープンソースツールです。1つ以上のウェブサイトのURLを入力することでページのコンテンツをクロールし、構造化ナレッジファイル(output.jso...
2ヶ月前
02.8K
Parler-TTS:根据输入文本生成特定说话人风格的文本转语音模型

Parler-TTS: 入力テキストから話者固有の音声合成モデルを生成する

一般的な紹介 Parler-TTSは、Hugging Face社によって開発されたオープンソースの音声合成(TTS)モデルライブラリで、高品質で自然な音声を生成するように設計されています。このモデルは、特定の話者スタイル(性別、ピッチ、話し方など)の入力テキストに基づいて音声を生成することができます。
6ヶ月前
02.8K
X-Dyna:静态人像参考视频姿态生成视频,让小姐姐的照片跳舞

X-ダイナ:静止画参考動画 ミッシーの写真を踊らせるポーズ生成動画

包括的な紹介 X-Dynaは、ByteDanceによって開発されたオープンソースプロジェクトで、ゼロサンプル拡散技術を使用してダイナミックなポートレートアニメーションを生成します。このプロジェクトでは、ドライブビデオ内の表情や体の動きを使って個々のポートレート画像をアニメーション化し、リアルでコンテキストを意識したモーションエフェクトを生成します。
7ヶ月前
02.8K
Porkybank:AI驱动的日常预算管理,轻松追踪每日预算

Porkybank:AIを活用した日々の予算管理が簡単にできる

一般的な説明 Porkybankは、ユーザーが簡単に毎日の予算を追跡するために設計されたオープンソースの個人財務管理アプリケーションです。収入-支出)÷日数=現金というシンプルな計算式で、ユーザーは自分の財政状況を視覚化することができます。プロジェクトはGitHu...
7ヶ月前
02.8K
GaiaNet node:安装和运行自己的本地模型在线代理服务

GaiaNetノード:独自のローカルモデル・オンラインプロキシサービスをインストールし、実行します。

概要 GaiaNet-AI/gaianet-nodeは、Mac、Linux、Windows WSLにデフォルトのノード・ソフトウェア・スタックを1つのコマンドで素早くインストールできるオープンソースプロジェクトです。ユーザはノードの初期化、設定のカスタマイズ、ダウンロード...
11ヶ月前
02.8K
Agent Laboratory:为研究人员提供自动化代码及研究报告撰写助手

エージェントラボラトリー:研究者のための自動化されたコードとスタディライティングアシスタント

包括的な紹介 エージェントラボラトリーは、研究者の研究アイデアの実現を支援するために設計された、エンドツーエンドの自律的な研究ワークフローです。このシステムは、大規模な言語モデルによって駆動される専用エージェントで構成され、文献調査や計画の立案から実行まで、研究ワークフロー全体をサポートします。
4ヶ月前
02.8K
Cog-ComfyUI:使用API运行ComfyUI工作流

Cog-ComfyUI:APIを使ったComfyUIワークフローの実行

一般的な紹介 Cog-ComfyUIは、APIを介してComfyUIワークフローを実行するために設計されたオープンソースプロジェクトです。GitHubユーザーのfofrによって作成されたこのプロジェクトは、ComfyUIワークフローを統合して実行する効率的な方法を提供します。
6ヶ月前
02.8K
Open NotebookLM:将PDF转换为播客的开源工具

Open NotebookLM: PDFをオープンソースツールのポッドキャストに変換する

概要 Open NotebookLMは、あらゆるPDF文書をポッドキャストに変換するために設計されたオープンソースプロジェクトです。このツールは、オープンソースのLarge Language Model (LLM)とText-to-Speech (TTS)モデルを使用してPDFコンテンツを処理し、オーディオポッドキャストに適した自然なダイアログを生成します...
6ヶ月前
02.8K
修复无效JSON字符串,解决 LLMs 生成的 JSON 数据中可能出现的格式错误。

無効なJSON文字列を修正し、LLMによって生成されたJSONデータで起こりうるフォーマットエラーを解決しました。

一般的な説明 無効なJSONファイルを修正するためのモジュールで、特に大規模言語モデル(LLM)が出力する不正なJSONデータを解析するためのモジュールです。このモジュールは、引用符の欠落、不正なカンマ、エスケープされていない文字、不完全なkey-value...などの一般的なJSON構文エラーを修正します。
10ヶ月前
02.8K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型

Moshi: 複数言語とアクセントをサポートするリアルタイム音声対話フレームワーク。

はじめに Moshi Chatは、フランスの非営利AI研究所Kyutaiが開発したエンドツーエンドのリアルタイムAI音声アシスタントです。リアルタイムで話を聞くだけでなく、自然な会話を行い、見る、聞く、話すといったマルチモーダルなインタラクションをサポートします。
11ヶ月前
02.8K
NodeRAG:基于异构图的精准信息检索与生成工具

NodeRAG:正確な情報検索と生成のための異種グラフベースのツール

包括的な紹介 NodeRAGはGitHubでホストされているオープンソースの検索拡張生成(RAG)システムであり、Terry-Xu-666によって開発された。異種グラフ構造によって情報検索と生成を最適化し、検索精度と文脈関連性を大幅に向上させます。
4ヶ月前
02.8K
Deep Research Web UI:支持多语言深度研究的AI助手

ディープリサーチWeb UI:多言語でのディープリサーチをサポートするAIアシスタント

包括的な紹介 Deep Research Web UIは、AI技術に基づいたオープンソースのリサーチアシスタントツールであり、ユーザーがあらゆるトピックについて深い反復研究を行うことを支援するように設計されています。直感的なウェブインターフェースを通じて、検索エンジン、ウェブクローリング、大規模言語モデリングのパワーを組み合わせています...
4ヶ月前
02.8K
实时语音转文字的开源工具

リアルタイム音声テキスト化のためのオープンソースツール

概要 realtime-transcription-fastrtcは、音声をリアルタイムでテキストに変換することに特化したオープンソースプロジェクトです。FastRTC技術を使って低遅延の音声ストリームを処理し、ローカルのWhisperモデルと組み合わせて効率的なテキスト変換を実現します。
4ヶ月前
02.8K
Copilot后端代理服务:用其他模型接管GitHub Copilot插件服务端

Copilotバックエンドプロキシサービス:他のモデルでGitHub Copilotプラグインサーバーを引き継ぐ

概要 Copilot Backend Agent Service は、DeepSeek などの他の FIM モデルを活用して GitHub Copilot プラグイン・サーバーを管理するために設計されたオープンソース・プロジェクトです。このサービスは、V...を含む様々なIDEをサポートしています。
8ヶ月前
02.8K
Report mAIstro:生成任意自定义主题的详细报告文档,例如商业分析、年终汇报等

レポートMAIstro:ビジネス分析、期末レポートなど、カスタムトピックに関する詳細なレポートを作成します。

概要 レポートmaistroは、自然言語処理技術により、ユーザーが簡単にカスタムレポートを作成できるように設計された強力なツールです。このツールはLangChainテクノロジーを利用し、ユーザーから提供されたトピックや構造を詳細なレポートに変換します。
4ヶ月前
02.8K
MindSearch:开源AI搜索引擎框架,部署您自己的 Perplexity 搜索引擎!

MindSearch: オープンソースのAI検索エンジンフレームワーク!

包括的な紹介 MindSearchは、上海人工知能研究所(SAL)が立ち上げたオープンソースのAI検索エンジン・フレームワークで、複雑な情報収集と統合のための人間の思考プロセスをシミュレートすることを目的としている。このツールは、大規模言語モデリング(LLM)とマルチインテリジェンス検索エンジンの高度な技術を組み合わせたものである。
8ヶ月前
02.8K
Knowledge Table:高效提取与探索结构化数据的开源工具

知識テーブル:構造化データの効率的な抽出と探索のためのオープンソースツール

包括的な紹介 ナレッジテーブル(Knowledge Table)は、非構造化ドキュメントから構造化データを抽出し、探索するプロセスを簡素化するために設計されたオープンソースプロジェクトです。ユーザは、自然言語クエリインタフェースを通して、表やグラフのような構造化された知識表現を作成することができる。このツールは、抽出のカスタマイズをサポートしています。
10ヶ月前
02.8K
HyperChat:利用 MCP 智能执行复杂任务的AI对话客户端

HyperChat:MCPインテリジェンスを使用して複雑なタスクを実行するAI対話クライアント

概要 HyperChatは、BigSweetPotatoStudioによって開発され、GitHubでホストされているオープンソースのチャットクライアントです。OpenAI、Cla...などのいくつかの大規模な言語モデル(LLM)のAPIを統合することにより、BigSweetPotatoStudio言語モデルの包括的な概要を提供するように設計されています。
5ヶ月前
02.8K
InspireMusic:阿里开源的统一音乐、歌曲和音频生成框架

InspireMusic:Aliのオープンソース統合音楽・楽曲・音声生成フレームワーク

一般的な紹介 InspireMusicはPyTorchベースのオープンソースツールキットで、音楽、歌、オーディオの生成に特化しています。高品質なオーディオを生成するための統一されたフレームワークを提供し、テキストキュー、音楽構造、音楽スタイルを制御します。
5ヶ月前
02.8K
Vector Vein(向量脉络):无代码AI工作流构建平台

Vector Vein:コードフリーのAIワークフロー構築プラットフォーム

総合紹介 Vector Veinは、インテリジェントで自動化されたワークフローを簡単に作成できるように設計された、コードフリーのAIワークフロー構築プラットフォームです。プログラミングの基礎は必要なく、ユーザーはドラッグ&ドロップ操作で様々な機能モジュールを接続するだけで、複雑なAIワークフローを構築することができます。
8ヶ月前
02.8K
Mini LLM Flow:使用100行代码构建“有向图结构”的LLM微型智能体

ミニLLMフロー:100行のコードで「有向グラフ構造」を持つLLMミニインテリジェントを構築する

概論 miniLLMFlowは、「シンプルであること」という設計哲学を実証する、わずか100行のコアコードからなる最小主義の大規模言語モデル(LLM)開発フレームワークです。このフレームワークは、AIアシスタント(ChatGPT、Claudeなど)が...
7ヶ月前
02.8K
LAMBDA:本地化AI邮件自动化系统,快速生成邮件(Gmail)回复草稿

LAMBDA:下書きメール(Gmail)の返信を迅速に生成するローカライズされたAIメール自動化システム

概要 LAMBDA(Local Auto MailBox Draft Assistant)は、ユーザーのメールスタイルから学習し、Gmailの受信トレイにある未読メールすべてに下書きを生成するように設計された、ローカライズされたAIメール自動化システムです...
8ヶ月前
02.8K
基于RAG构建提供健康建议的小助手(实验项目)

健康アドバイスを提供するミニ・アシスタントのRAGベースの構築(パイロット・プロジェクト)

概論 LLM-RAG-Longevity-Coachは、Large Language Modelling (LLM)とRetrieval Augmented Generation (RAG)の技術に基づいたチャットボットで、ユーザーにパーソナライズされた健康と長寿のアドバイスを提供するように設計されている。このプロジェクトは、タイラー・バーレ...
6ヶ月前
02.8K
Zola:支持文档上传与多模型的开源AI聊天Web应用

Zola:ドキュメントのアップロードとマルチモデルをサポートするオープンソースのAIチャット・ウェブアプリ

一般的な紹介 Zolaは、開発者のJulien Thibeaut(GitHubユーザー名ibelick)によって開発され、GitHubでホストされているフリーでオープンソースのAIチャットアプリである。最大の特徴は、複数のAIモードをサポートしていることです。
4ヶ月前
02.7K
Flock:低代码工作流编排快速构建聊天机器人

Flock:迅速なチャットボット構築のためのローコードワークフローオーケストレーション

概要 Flockはオープンソースのワークフロー用ローコードプラットフォームで、GitHubでホストされており、Onelevenvyチームによって開発されています。LangChainとLangGraphの技術をベースにしており、ユーザーがチャットマシンを素早く構築できるようにすることに重点を置いています。
6ヶ月前
02.7K
Markdownify MCP Server:基于MCP协议将各种内容转换为Markdown格式

Markdownify MCP Server: MCPプロトコルに基づき、様々なコンテンツをMarkdownフォーマットに変換します。

一般的な紹介 Markdownify MCPサーバーはモデルコンテキストプロトコルに基づいたオープンソースツールで、開発者のZach CaceresによってGitHubでホストされています ...
5ヶ月前
02.7K
Gemini Playground:无服务器部署Gemini多模态对话网站

Gemini Playground: Geminiマルチモーダル対話サイトのサーバーレス展開

一般的な紹介 Gemini Playgroundは、ユーザーが迅速にマルチモーダル対話サイトを展開するために設計されたオープンソースプロジェクトです。このプロジェクトは、技術的なクロールエビによって開発され、デプロイを完了するために10秒でGemini API Keyの使用をサポートしています。ユーザが...
6ヶ月前
02.7K
Agent Service Toolkit:基于LangGraph构建AI智能体的完整工具集

エージェント・サービス・ツールキット:LangGraphに基づくAIインテリジェンス構築のための完全なツールセット

包括的な紹介 AIエージェント・サービス・ツールキットは、LangGraph、FastAPI、Streamlit上に構築された完全なツールセットで、開発者がAIエージェント・サービスを迅速に構築し、実行できるように設計されています。このツールキットは...
7ヶ月前
02.7K
ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程

ExtractThinker: ドキュメントを構造化データに抽出・分類し、ドキュメント処理プロセスを最適化します。

包括的な紹介 ExtractThinkerは、大規模言語モデル(LLM)を使用してドキュメントから構造化データを抽出・分類し、シームレスなORMライクなドキュメント処理ワークフローを提供する、柔軟なドキュメントインテリジェンスツールです。LLMを含む様々なドキュメントローダーをサポートしています。
7ヶ月前
02.7K
微信视频号下载器:快速下载微信视频号视频,支持多种格式和平台

WeChat動画番号ダウンローダー:WeChat動画番号の動画を素早くダウンロード、複数のフォーマットとプラットフォームをサポートする

総合紹介 WeChat動画番号ダウンローダーはオープンソースプロジェクトで、ユーザーがWeChat動画番号から動画コンテンツを素早くダウンロードできるように設計されています。このツールは、様々なビデオフォーマットとプラットフォームをサポートしており、ユーザーはWindowsとmacOSシステム上で簡単に使用することができます。このプロジェクトはltaooによって開発され、...
7ヶ月前
02.7K
AudioNotes:快速提取音视频内容并生成结构化笔记

AudioNotes: 音声とビデオコンテンツをすばやく抽出し、構造化されたノートを作成します。

総合紹介 AudioNotesは、FunASRとQwen2に基づいて構築された、オーディオ/ビデオから構造化ノートへのシステムです。オーディオ/ビデオコンテンツを素早く抽出し、大きなモデルを呼び出して構造化されたMarkdownノートを生成することができます。
6ヶ月前
02.7K
RapBank:根据歌词和伴奏直接生成说唱(Rap)人声的模型(目前开放了数据集)

RapBank: 歌詞とバッキングトラックからラップ(Rap)ボーカルを直接生成するモデル(現在オープンデータセット)

概要 RapBankは、ラップ歌詞生成のために設計されたデータセットとツールセットです。このプロジェクトはNZqianによって作成され、YouTubeからラップ曲を収集・処理することで、研究者や開発者に高品質のラップ歌詞データを提供する。
8ヶ月前
02.7K
ChainForge:测试和评估大型语言模型提示效果的开源可视化编程环境

ChainForge:大規模言語モデルヒントの有効性をテスト・評価するオープンソースのビジュアルプログラミング環境

概要 ChainForgeは、大規模言語モデル(LLM)のキューの有効性をテスト・評価するために設計されたオープンソースのビジュアルプログラミング環境です。データフローキューイングエンジニアリング環境を提供し、LLM応答における様々なキューの品質を素早く探索・分析することができます。
8ヶ月前
02.7K
GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型

GOT-OCR2.0: QWen2 0.5Bエンドツーエンド・マルチモーダルOCRモデルに基づく

包括的な紹介 GOT-OCR2.0は、統一されたエンドツーエンドモデルを通じて、OCR技術をOCR-2.0に向けて推進することを目的とした、StepStar共同提案のオープンソース光学式文字認識(OCR)モデルです。このモデルは、通常のテキスト認識、gr...
11ヶ月前
02.7K
ColiVara:基于视觉嵌入的文档存储与检索服务

ColiVara:視覚的埋め込みベースの文書保管・検索サービス

概要 ColiVara は、ビジュアル埋め込み技術に基づく文書保管・検索サービスです。光学式文字認識(OCR)やテキスト抽出の必要性をなくし、フォームの破損や画像の紛失といった問題を回避します。ColiVaraは、PDFを含む100以上のファイルフォーマットをサポートしています。
6ヶ月前
02.7K
Atomic Agents:构建轻量级模块化AI智能体框架

アトミック・エージェント:軽量モジュール型AIインテリジェンス構築のためのフレームワーク

概論 Atomic Agentsは、エージェントAIパイプラインとアプリケーションを構築するためのアトミティシティ(atomicity)のコンセプトに基づいて設計された、非常に軽量でモジュール化されたフレームワークです。このフレームワークは、強力なアプリケーションを作成するために組み合わせることができるツールとエージェントのセットを提供します。このフレームワークは、Instruc...
8ヶ月前
02.7K
LongWriter:智谱推出生成超长文本的强大模型,支持一次对话生成10000+字

LongWriter:ウィズダム・スペクトラムは、超長文を生成するための強力なモデルを発表し、1回の会話で10,000語以上の生成に対応。

包括的な紹介 LongWriter は、清華大学データマイニング研究グループ (THUDM) によって開発された強力な長文生成ツールです。このツールは、先進的なロングコンテクスト言語モデル(LLM)に基づいており、10,000語以上の長文を生成することができます。
8ヶ月前
02.7K
Austen:分析书籍角色关系并生成图表的AI工具

オースティン:本の登場人物の関係を分析し、グラフを生成するAIツール

概要 AustenはオープンソースのAIツールで、AngularフレームワークとAnalogjsの初期化、Mermaidjsの技術を組み合わせ、書籍の登場人物の関係を分析するためのチャートを生成します。ユーザーはOpen...
4ヶ月前
02.7K
magic-html:从HTML网址中提取主体数据,输出纯文本/markdown

magic-html: HTML URLから本文データを抽出し、プレーンテキスト/マークダウンを出力する。

概要 magic-htmlは、HTMLから本文領域のコンテンツを抽出するプロセスを簡素化するために設計されたPythonライブラリです。複雑なHTML構造を扱う場合でも、単純なウェブページを扱う場合でも、このライブラリはユーザーに便利で効率的なインターフェースを提供することを目的としています。マルチモーダルな抽出をサポートしています。
11ヶ月前
02.7K
AI RSS生成器:通过AI将网页内容转换为RSS订阅源的工具

AI RSS Generator:ウェブコンテンツをAIでRSSフィードに変換するツール

概要 AI RSSは、AI技術によりウェブコンテンツをRSSフィードに変換する革新的なツールです。ブラウザ・プラグインとサーバー・サイドの2つの主要部分から構成されています。ブラウザプラグインでは、ウェブページからリストを選択し、構造化データ記述(SDD)ファイルを生成することができます。
7ヶ月前
02.7K