AIオープンソースプロジェクト

合計1020記事

順番に並べる

TubeTube: 自己展開型YouTube動画ダウンロードツール

概要 TubeTubeはMattBlackOnlyによって開発されたオープンソースのYouTube動画ダウンロードツールです。このツールは、コアダウンロードエンジンとしてyt-dlpを使用し、マルチスレッドダウンロードをサポートし、同時に複数のビデオをすばやくダウンロードすることができます。ユーザーはyam...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

071.8K

LangWatch：DSPyフレームワークに基づくLLMプロセスのモニタリングと最適化のための可視化ツール

包括的な紹介 LangWatchは、大規模言語モデル（LLM）運用のために設計された包括的なプラットフォームで、監視、分析、評価、データセット管理、キューの最適化を提供します。このプラットフォームは、スタンフォード大学のDSPyフレームワークをベースにしており、ユーザがより良い管理と最適化を行えるように設計されています。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

054.3K

PR Agent: プルリクエスト自動分析ツール

概論 PR-AgentはQodoが開発したオープンソースツールで、AI技術によってプルリクエスト（Pull Requests）の処理を自動化する。このツールは、開発者がコードレビューをより効率的に実行できるように、自動化されたフィードバック、提案、分析を提供することができます...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

055.2K

FinGPT: 金融分析と予測のためのオープンソース金融ビッグ言語モデリング・プラットフォーム

概論 FinGPTは、AI4Finance財団によって開発されたオープンソースの金融ビッグ言語モデリング・プラットフォームであり、複雑な金融タスクを解決し、フィンテックにおけるイノベーションを推進するために金融セクター向けに設計されている。FinGPTは、軽量適応技術と強化学習アプローチを利用している。

1年前

073.9K

コーディング・エージェント：Langgraph上に構築されたシンプルなプログラミング・アシスタント

概要 Coding AgentはAbhinavTheDevによって開発されたインテリジェントなプログラミングアシスタントで、開発者のプログラミング効率を向上させるために設計されています。このツールは、人工知能技術を使用して、コードを自動的に生成し、プログラミングの提案を行い、さまざまなコーディングで開発者を支援します。

1年前

061.2K

ラガス：RAGリコールQA精度と回答の相関性を評価する

包括的な紹介 Ragasは、RAG（Retrieval Augmented Generation）システムの評価と最適化のために特別に設計されたツールです。Ragasは、クエリ、検索コンテキスト、生成された回答間の関係を分析することで、包括的な評価メトリクスのセットを提供します。これらのメトリクスには、忠実度、回答の関連性、コンテキストの関連性、...

1年前

084.5K

VeighNa：中国で人気のオープンソース定量取引フレームワーク

総合紹介 VeighNaはPythonベースのオープンソース定量取引プラットフォームで、元々は国内の個人トレーダーによって開発され、2015年に正式にローンチされました。シンプルなトレーディング・インターフェース・パッケージから、フル機能のトレーディング開発フレームワークへと進化しています。ユーザーには、プライベート・エクイティ・ファンド、証券...

1年前

0135.9K

OpenCharacter：オープンソースの無修正Character.AI代替ツール

概論 OpenCharacterはオープンソースのキャラクター作成ツールで、Character.AIの代替として、AIによるキャラクター作成とインタラクションを無制限に体験できるように設計されています。ユーザーはネイティブモデルを使用して独自のキャラクターを作成し、実行することができます。

1年前

0111.2K

AIビデオ・スターター・キット: ブラウザ上でAIビデオの作成と編集がフルフローで可能

概論ビデオ・スターター・キット（Video Starter Kit）は、fal-ai-communityによって公開されたオープンソースプロジェクトで、ブラウザでのビデオ制作にAIモデルを使用する方法を示すものです。画像を動画に変換するためのツールを提供しています。

1年前

054.6K

SkyPilot: あらゆるクラウドでAIとバッチタスクを効率的に実行するオープンソースフレームワーク

概要 SkyPilotは、カリフォルニア大学バークレー校のSky Computing Labが始めたオープンソースのフレームワークで、あらゆるクラウドインフラ上でAIやバッチ処理タスクを効率的に実行できるように設計されています。14以上のクラウドサービス（...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

059.4K

LlamaEdge：LLMをローカルで実行し、微調整する最も迅速な方法！

概要 LlamaEdgeは、ローカルデバイスやエッジデバイス上で大規模な言語モデル（LLM）を実行し、微調整するプロセスを簡素化するために設計されたオープンソースプロジェクトです。このプロジェクトはLlama2ファミリーのモデルをサポートし、OpenAI互換のAPIサービスを提供します。

1年前

067K

オートジェン：マイクロソフトが開発したマルチインテリジェントな身体対話フレームワーク

概要 AutoGenは、マイクロソフト社の研究者チームによって開発されたオープンソースのフレームワークであり、多知能体の対話を通じて大規模言語モデル（LLM）アプリケーションの構築を簡素化することを目的としている。このフレームワークにより、開発者は互いに対話し、協力してタスクを解決するAIエージェントを作成することができる。このアプローチは、LLMのパフォーマンスを向上させるだけでなく...

1年前

067.2K

Page Assist: ネイティブAIモデルの対話とドキュメントの検索のためのウェブアシスタントプラグイン

概要 Page Assistは、ローカルのAIモデルと対話する簡単な方法をユーザーに提供するために設計されたオープンソースのブラウザ拡張機能です。この拡張機能を使うと、ユーザーはどのウェブページでもサイドバーを開き、ローカルで動作しているAIモデルと対話することができます。

12ヶ月前

081K

MobileAgent：モバイル機器操作アシスタントのためのマルチエージェント・コラボレーション

一般的な紹介 MobileAgentは、マルチエージェントコラボレーションと強化された視覚認識モジュールにより、モバイルデバイス操作の効率と自動化を改善するために設計された強力なモバイルデバイス操作アシスタントです。X-PLUGチームによって開発され、Androidと...

1年前

077.5K

Orama：高性能な書籍・ベクトル全文検索エンジン

概説 Oramaはオープンソースの高性能検索エンジンで、すべてTypeScriptで記述されており、全文検索、ベクトル検索、ハイブリッド検索をサポートしている。OramaはあらゆるJavaScript実行環境で動作するように設計されており、高速で信頼性の高い検索を提供する。

1年前

078.2K

FramePainter：AIを搭載した落書き風画像編集ツール

概要 FramePainterは、高度なビデオ拡散技術と直感的なSketchコントロールを活用し、複雑な画像編集を簡単に実現できる画期的なAI駆動型画像編集ツールです。簡単な調整でも、複雑なクリエイティブな変換でも、FramePainter...

1年前

048.2K

Gaze-LLE：映像中の人物注視のターゲット予測ツール

Synthesis Gaze-LLEは、大規模な学習エンコーダーに基づいた視線ターゲット予測ツールである。Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, and J... によって開発された。

1年前

058.7K

DiffBIR：画質向上のためのインテリジェント修復ツール

はじめに DiffBIR (Blind Image Restoration with Generative Diffusion Prior)はXPixelGroupによって開発された画像復元ツールです。

1年前

061.5K

タンクワーク：音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ

概論 TankWorkはオープンソースのデスクトップエージェント・フレームワークで、コンピュータビジョンとシステムレベルのインタラクションを通じて、AIがコンピュータを認識し制御できるように設計されています。このフレームワークは、エージェントが音声やテキストコマンドでコンピュータを直接制御し、リアルタイムのスクリーンコンテンツを処理し、継続的なオーディオビジュアルを提供することを可能にします。

1年前

057.3K

AI Auto Free：使用自动化工具无限制使用AI IDE（如Cursor和Windsurf）

AIオートフリー：自動化ツール（CursorやWindsurfなど）を使用したAI IDEが使い放題

概要 AI Auto Freeは、CursorやWindsurfなどのAI駆動統合開発環境（IDE）をユーザーが無制限に利用できるように設計された強力な自動化ツールです。このプロジェクトはクロスプラットフォームをサポートし、複数の言語機能を含んでいます。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

072.4K

Quantum Swarm：マルチインテリジェンスクラスターコラボレーションのためのフレームワーク

QuantumSwarmは、AIの人口知能の開発と研究に焦点を当てたオープンソースの人工知能フレームワークです。このプロジェクトはQuarm AIチームによってGitHub上で管理されており、マルチインテリジェンスシステムの構築とテストのための柔軟で効率的なプラットフォームを提供することを目指している。

1年前

053.5K

XRAG：検索機能拡張生成システムの最適化のための視覚的評価ツール

包括的な紹介 XRAG（eXamining the Core）は、高度な検索機能拡張生成（RAG）システムの基本コンポーネントを評価するために設計されたベンチマークフレームワークです。各コアモジュールのプロファイリングと分析により、XRAGは、異なる構成やコンポーネントがRAGにどのような影響を与えるかについての情報を提供します。

1年前

061.7K

Wenyan：ワンクリックでMarkdown記事を美化し、複数のセルフメディアプラットフォームフォーマットに対応（オープンソースのローカルクライアント）

包括的な紹介 WenYanは、Markdownの記事のタイプセットと美化のために設計されたツールであり、編集されたMarkdownの記事をWeChat、Zhihu、今日の見出しや他のプラットフォームに適した形式に変換することをサポートしています。ユーザーはワンクリックで記事をコピーし、記事を直接...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

050.4K

CHRONOS: ニュースのタイムライン要約ツールでニュースの検索とタイムライン生成の効率を改善

一般的な紹介 CHRONOSはAlibaba NLPチームによって開発されたニュースタイムライン要約ツールです。CHRONOSはオープンドメインのタイムライン要約タスクを処理できるだけでなく、効率性とスケーラビリティの面でも優れています。

1年前

050.8K

Go-with-the-Flow：控制视频中物体的运动轨迹，视频中增减任何运动物体

Go-with-the-Flow：ビデオ内のオブジェクトの動きをコントロールし、ビデオ内の動くオブジェクトを加算または減算します。

一般的な紹介 Go-with-the-Flowは、Netflix Eyeline Studiosの研究チームによって開発されたオープンソースプロジェクトで、ノイズを歪ませることで映像拡散モデルのモーションパターンを制御します。このプロジェクトにより、ユーザーはシーンのカメラと...

1年前

053.1K

X-ダイナ：静止画参考動画ミッシーの写真を踊らせるポーズ生成動画

包括的な紹介 X-Dynaは、ByteDanceによって開発されたオープンソースプロジェクトで、ゼロサンプル拡散技術を使用してダイナミックなポートレートアニメーションを生成します。このプロジェクトでは、ドライブビデオ内の表情や体の動きを使って個々のポートレート画像をアニメーション化し、リアルでコンテキストを意識したモーションエフェクトを生成します。

1年前

053.8K

腾讯混元3D（Hunyuan3D）：生成高分辨率3D资产，多种3D素材生成工作流

Tencent Hybrid 3D（Hunyuan3D）：高解像度3Dアセットの生成、複数の3Dマテリアル生成ワークフロー

包括的な紹介 Tencent Hunyuan3D (Hunyuan3D 2.0)は、高解像度のテクスチャ3Dアセットを生成するために設計されたTencentの高度な大規模3D合成システムです。Hunyuan3D-DiTは大規模な形状生成モデルで、Hunyuan3D-DiTは大規模なテクスチャ生成モデルです。

1年前

071.1K

RAG Web UI：インテリジェントなドキュメントQ&Aシステムの構築と、プライベートなウェブサイド・ナレッジベースのシンプルな構築

総合紹介 RAG Web UIは、RAG（Retrieval Augmented Generation）技術に基づいた知的対話システムです。企業や個人が独自の知識ベースに基づいてインテリジェントなQ&Aシステムを構築するのに役立ちます。文書検索と大規模な言語モデルを組み合わせることで、RAG Web UIは正確で信頼性の高い...

1年前

058.3K

UI-TARS Desktop: 自然言語でコンピュータを制御するDesktop Intelligentsiaアプリケーション

概論 UI-TARS Desktopは、ByteDance社が開発したUI-TARS(Visual Language Model)に基づいたグラフィカルインターフェースエージェントアプリケーションです。UI-TARSデスクトップは、ByteDance社が開発したUI-TARS(Visual Language Model)をベースとしたグラフィカルインターフェースエージェントアプリケーションです。

1年前

091.4K

Devin Cursor Rules：让Cursor和Windsurf 强化为 Devin

デビン・カーソルルール：デビンのために強化されたカーソルとウィンドサーフを作る

概要 Devin Cursor Rulesは、CursorおよびWindsurf統合開発環境（IDE）を、Devinと同様の高度なAI機能を実現するための設定ファイルやツールで拡張することを目的としたオープンソースプロジェクトです。このプロジェクトでは、Devinと同様の高度なAI機能を実現するための設定ファイルやツールを提供しています。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

053.2K

Repomix：大規模モデル検索用にコードベースをテキストファイルにパッケージ化

概論 Repomix（以前はRepopackとして知られていた）は、コードベース全体を単一のAIフレンドリーなファイルにパッケージ化するために設計されたオープンソースツールです。このツールにより、開発者は自分のコードベースを大規模な言語モデル（ClaudeやChat...

1年前

088.9K

Yek: git リポジトリのテキストファイルを読み込んで、大規模なモデルのために素早くチャンキングする。

一般的な紹介 Yekは、リポジトリやディレクトリからテキストファイルを読み込んでチャンキングし、大規模言語モデル（LLM）で使用するためにシリアライズするRustベースの高速ツールです。このツールはデフォルトで .gitignore ルールを使って不要なファイルをスキップし、...

1年前

057.7K

Kheish: 高品質な結果を出すために、出力をレビュー、検証、フォーマットするマルチロールインテリジェンス

包括的な紹介 Kheishは、構造化されたステップバイステップのコラボレーションを必要とする大規模言語モデリング（LLM）タスクのために設計されたオープンソースのマルチロールエージェントです。Kheishは単なるコーディネータではなく、それ自体がインテリジェントなエージェントであり、要求に応じてモジュールを要求し、ユーザーの反転を統合します。

1年前

055K

AI ContentCraft：生成短故事、对话脚本、配音、配图的多功能AI内容创作工具

AI ContentCraft：ショートストーリー、ダイアログスクリプト、ナレーション、グラフィックを生成するための多機能AIコンテンツ作成ツール

概要 AI ContentCraftは、テキスト生成、音声合成、画像生成などを統合した多機能なコンテンツ作成ツールです。ストーリー、ポッドキャストスクリプト、付随するオーディオやビデオコンテンツを素早く生成することができます。このツールは複数の言語変換をサポートし、バッチ処理も可能です。

1年前

067.7K

Unigraph：ローカルで動作する知識グラフとパーソナル検索エンジンの構築

一般的な紹介 Unigraphはローカルファーストの汎用ナレッジグラフとパーソナル検索エンジンである。Unigraphを使えば、ユーザは様々なソースからのデータを統合して...

1年前

055.8K

ComfyUI disty Flow：为 ComfyUI 提供友好的用户界面，简化工作流程

ComfyUI disty Flow: ワークフローを効率化するComfyUIのユーザーフレンドリーなインターフェース

概要 ComfyUI-disty-Flowは、ComfyUIにユーザーフレンドリーなインターフェースを提供するカスタムノードです。ComfyUI-disty-Flowは、ComfyUIにユーザーフレンドリーなインターフェースを提供するカスタムノードです。ワークフローの作成に代わるユーザーインターフェースを提供することで、ワークフローの実行を簡素化することを目的としています。

1年前

086.9K

最短：エンド・ツー・エンドのテストに自然言語を使用するAI自動テストツール

一般的な紹介 Shortestは、Anti-Workチームによって開発されたAIを搭載した自然言語エンドツーエンドテストフレームワークです。Playwrightをベースに構築されており、GitHubとの統合や二要素認証（2FA）をサポートしています。Shortestの主な特徴は...

1年前

059.8K

Midscene.js：AIでブラウザ自動テストを推進するオープンソース・プラグイン

概論 Midscene.jsはAIを搭載したブラウザ自動化ツールで、自然言語コマンドによってウェブページを制御し、アサーションを実行し、データを抽出します。Chrome拡張機能、JavaScript SDK、YAMLスクリプトをサポートし、UI測定を簡素化します。

1年前

090.5K

ビデオアナライザー：ビデオコンテンツを分析し、詳細な説明を生成します。

Comprehensive Introduction Video Analyzerは、コンピュータ・ビジョン、音声転写、自然言語処理技術を組み合わせて、詳細なビデオ・コンテンツの説明を生成する、総合的なビデオ分析ツールです。このツールは、動画から主要なフレームを抽出し、音声コンテンツを書き起こします。

1年前

0118.5K

Unsloth: 大規模言語モデルの効率的な微調整と学習のためのオープンソースツール

包括的な紹介 Unslothは、大規模言語モデル（LLM）の微調整と学習のための効率的なツールを提供するために設計されたオープンソースプロジェクトです。このプロジェクトは、Llama、Mistral、Phi、Gemmaなどの有名なモデルをサポートしています。

1年前

075.4K

MaxKB：スマートなカスタマーサービスと社内ナレッジベースのための、すぐに使えるAIナレッジベースQ&Aシステム

包括的な紹介 MaxKB (Max Knowledge Base) は、大規模言語モデルとRAG (Retrieval Augmented Generation) に基づいたオープンソースの知識ベースQ&Aシステムです。このシステムは、インテリジェントな顧客サービス、企業の内部知識ベース、学術研究および教育やその他のシナリオで広く使用されています。

1年前

085.5K

OmniThink：生成高质量长文的写作框架，搜索外部知识后反思并逐步构建知识树

OmniThink：質の高い長文エッセイを作成するためのライティング・フレームワークで、外部の知識を検索し、それを振り返り、段階的に知識ツリーを構築する。

包括的な紹介 OmniThinkは革新的なマシンライティングフレームワークで、人間の認知プロセスの反復的な拡張と反映を模倣することで、高品質の長文エッセイを生成するように設計されています。OmniThinkは、知識の境界を広げ、豊かで深い情報を生成することに重点を置いています。

1年前

051.4K

OpenAI Realtime Agents：多智能体语音交互应用（OpenAI示例）

OpenAI Realtime Agents: マルチインテリジェントなボディスピーチインタラクションアプリケーション(OpenAIの例)

概論 OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した）高レベルのインテリジェントボディモデルを提供し、...

1年前

053.1K

DeepFace: 顔の年齢、性別、感情、人種認識のための軽量Pythonライブラリ

概要 DeepFaceは、顔認識と顔属性分析（年齢、性別、感情、民族を含む）のための軽量なPythonライブラリです。VGG-Face、FaceNet、OpenFace、De...といった先進的な顔認識モデルを統合しています。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

089.5K

SynthLight：ポートレート画像の自然光レンダリング（未発表）

概要 SynthLightは拡散モデルに基づいたポートレートリライティングツールです。合成顔画像の再レンダリングを学習し、実際のポートレート写真の照明効果を調整します。このツールは、物理的なレンダリングエンジンを使用して、異なる照明条件下での照明変換をシミュレートするデータセットを生成します...

1年前

052.9K

1-2-1-MNVTON：効率的な映像、映像の中の人によるバーチャル試着（開設予定）

概論 1-2-1-MNVTON はGitHubベースのオープンソースプロジェクトで、「Modality-specific Normalization for Virtual Try-On」（MNVTON）技術を提供することを目的としています。

1年前

049.6K

ココロ-ONNX：多言語・多音声をサポートする効率的な音声合成ツール

包括的な紹介ココロ-ONNXは、ONNXランタイムをベースとしたオープンソースの音声合成(TTS)ツールです。thewh1teagleによって開発されたこのプロジェクトは、効率的で高速な音声合成ソリューションを提供することを目的としています。

1年前

0104.9K

Zerox: PDF、DOCX、Markdownへの画像変換、ビジュアルモデル高精度OCR

一般的な紹介 Zeroxは、ビジュアルモデルを通してPDF、DOCX、画像やその他のドキュメントをMarkdown形式に変換するために設計されたオープンソースプロジェクトです。このプロジェクトはgetomni-aiチームによって開発され、シンプルで効率的なOCR（光学式文字認識）ソリューションを提供します。

1年前

076K

Charla: Ollamaバックエンドにネイティブに統合されたエンドポイントベースのミニマルなAIチャットツール

概要 Charlaはエンドポイントベースのチャットアプリケーションで、ネイティブ言語モデルとの対話ができるように設計されています。このアプリケーションはOllamaバックエンドと統合され、コンテキストを考慮した対話をサポートし、チャットセッションをMarkdownファイルとして保存します。ユーザーは単に...

1年前

060.2K

MiniRAG：簡易検索拡張生成フレームワーク、エンティティグラフインデックスリコール関連テキストブロック

包括的な紹介 MiniRAGは、極めてシンプルなRAG（Retrieval Augmented Generation）フレームワークであり、ヘテロジニアスグラフインデキシングと軽量なトポロジー拡張検索によって、小さなモデルでも優れたRAG性能を実現することを目的としている。香港大学データサイエンス研究室（HKUDS）によって開発され、...

1年前

062.7K

Omni-RGPT：画像・映像の領域レベル理解のためのマルチモーダルグランドモデルによるビジュアルコンテンツ分析の強化

包括的な紹介 Omni-RGPTは、画像や動画の領域レベルでの理解を可能にするために設計されたマルチモーダルな大規模言語モデルである。トークンマークテクニックを導入することで、Omni-RGPTは、視覚特徴空間内のターゲット領域を領域キュー（例えば、ボックスや...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

062.6K

Bailing：自然な会話とコミュニケーションのための低遅延オープンソース音声対話アシスタント

包括的な紹介ベイリング（Bailing）は、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントです。このプロジェクトは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデリング(LLM)および音声合成(TTS)技術を組み合わせて...

1年前

070.5K

メタバースAI：AIデジタル人クローンとショートビデオ生成ツールのオープンソース版

総合紹介 Metaverse AI（オープンソース版）はGitHubでホストされているプロジェクトで、libn-netチームによって開発されている。AI技術によってデジタルな人間の画像や声をクローンし、短い動画を生成することができ、吹き替えや字幕にも対応しています。このツールはWindo...

1年前

057.9K

WikiChat：ウィキペディアのデータを使って知識を検索するためのチャットツール

概論ウィキチャットはスタンフォード大学で開発された実験的なチャットボットで、ウィキペディアからデータを取得することで、大規模言語モデルの事実性を向上させることを目的としている。大規模言語モデル（ChatGPTやGPT-4など）は、最新の情報や人気のないトピックを処理する傾向があります。

1年前

056.4K

OpenAI Edge TTS：利用 Edge TTS 的免费文本转语音API，兼容 OpenAI 格式

OpenAI Edge TTS: Edge TTSを使ったフリーの音声合成APIで、OpenAIのフォーマットと互換性があります。

一般的な紹介 OpenAI Edge TTSは、OpenAIと互換性のあるネイティブの音声合成（TTS）APIを提供するオープンソースプロジェクトです。このプロジェクトでは、Microsoft Edgeのオンライン音声合成サービスを使用して、ユーザーが高品質な音声合成を行うことができます。

1年前

082.3K

AIEvo：マルチインテリジェントな協調アプリケーションを作成するための効率的なフレームワーク

概要 AIEvoは、Ant Groupのオープンソースマルチエージェントフレームワークで、マルチエージェントアプリケーションを効率的に作成するために設計されています。このフレームワークは、複雑なタスクの実行成功率を向上させるために、 SOPタスクグラフに厳密に従います。また、フィードバックと監視機構により、高い柔軟性とスケーラビリティを保証します。

1年前

057.1K

PPTAgent: PPTプレゼンテーション、ドキュメントからPPTへの自動生成と評価

概要 PPTAgentは、ドキュメントからプレゼンテーションを自動生成する革新的なシステムです。このシステムは、プレゼンテーションの作成における人間のアプローチを取り入れ、コンテンツの品質と視覚的なインパクトを確保するための2段階のプロセスを採用しています。さらに、PPTAgentはPPTEvalを導入しています。

1年前

077.8K

FlowiseAI：カスタムLLMアプリケーションのためのノードドラッグアンドドロップインターフェースの構築

一般的な紹介 FlowiseAIは、開発者がカスタムLLM（大規模言語モデル）アプリケーションとAIエージェントを構築するために設計されたオープンソースのローコードツールです。ドラッグ＆ドロップのシンプルなインターフェースで、ユーザーはLLMアプリケーションを素早く作成し、繰り返し実行することができます。

1年前

083.5K

RealtimeSTT：实时语音转文字工具，基于Whisper实现低延迟流式语音识别

RealtimeSTT: Whisperをベースとした低遅延ストリーミング音声認識のためのリアルタイム音声テキスト変換ツール

概論 RealtimeSTTは、高度な音声アクティビティ検出とウェイクワードアクティベーションを備えた、効率的で低レイテンシーのリアルタイム音声テキスト変換ライブラリです。Kolja Beigelによって開発され、高速で正確な音声テキスト変換を必要とするアプリケーションをサポートします。

AIニュース # AI Java オープンソースプロジェクト # AI音声合成

1年前

087.6K

SemHash: データクリーニング効率を向上させるセマンティックテキスト重複排除の高速実装

包括的な紹介 SemHashは、意味的類似性によってデータセットの重複を除去するための軽量で柔軟なツールです。Model2Vecの高速な埋め込み生成と、Vicinityの効率的なANN（近似最近傍）類似検索を組み合わせています。

1年前

070.6K

Cognita：モジュラーRAGアプリケーションを構築し、多様なRAG戦略を迅速にテストするためのオープンソースフレームワーク

包括的な紹介 Cognitaは、RAG（Retrieval-Augmented Generation）ベースのアプリケーションの開発を簡素化するためにTrueFoundry社によって開発されたオープンソースのフレームワークです。このフレームワークは、構造化されたモデ...

1年前

060.3K

BotSharp：.NETベースのマルチインテリジェンスAI開発・管理プラットフォーム

包括的な紹介 BotSharpは、包括的なAIチャットボットプラットフォーム構築ツールを提供することに特化した、.NET Coreベースのオープンソースプロジェクトです。C#プログラミングを採用し、クロスプラットフォームでの運用をサポートし、機械学習アルゴリズムの適用を簡素化することで、エンタープライズレベルの開発者が効率的に...

1年前

056.4K

Weebo: 自然言語での対話体験を提供するリアルタイム音声チャットボット

はじめに Weeboは、音声認識にWhisper Small、自然言語生成にLlama 3.2、音声合成にKokoro-82Mを利用したオープンソースのリアルタイム音声チャットボットです。このプロジェクトはAman...によって開発されました。

1年前

063.3K

OmAgent：マルチモーダル・スマートデバイス構築のための知的身体フレームワーク

包括的な紹介 OmAgentはOm AI Labによって開発されたマルチモーダルインテリジェントボディフレームワークであり、スマートデバイスにAIを搭載した強力な機能を提供することを目的としている。最先端のマルチモーダルベースモデルとインテリジェントボディアルゴリズムを統合することで、開発者は様々なデバイス上で効率的なスマートデバイスを作成することができます。

1年前

056K

RAIN：アニメ映像のビデオストリームを生成するためのリアルタイムの人間の表情のキャプチャ

概論 RAIN（Real-time Animation Of Infinite Video Stream）は、無限のビデオストリームのアニメーション効果をリアルタイムで生成するために設計されたオープンソースプロジェクトである。このプロジェクトはPscgylottiによって開発されました。

1年前

056.5K

Agent Service Toolkit：基于LangGraph构建AI智能体的完整工具集

エージェント・サービス・ツールキット：LangGraphに基づくAIインテリジェンス構築のための完全なツールセット

包括的な紹介 AIエージェント・サービス・ツールキットは、LangGraph、FastAPI、Streamlit上に構築された完全なツールセットで、開発者がAIエージェント・サービスを迅速に構築し、実行できるように設計されています。このツールキットは...

1年前

049.7K

Memora：人間との相互作用に関する情報を保存・更新するための、人間化されたAIメモリモジュールの構築

概要 Memoraは、パーソナライズされたAIに人間の記憶を複製するように設計されたエージェントである。タイムスタンプ付きの記憶、感情マーカー、マルチモーダル記憶などの機能により、AIが人間のように過去の交流、感情、共有された経験の詳細を記憶することを支援する。

1年前

061.9K

Stagehand: ブラウザオートメーション操作の自然言語実装フレームワーク

一般的な紹介 Stagehand は、シンプルさと拡張性に重点を置いた AI ウェブブラウジングフレームワークである。Playwrightと完全に互換性があり、3つのシンプルなAI API（act、extract、observe）を提供する。

1年前

078.4K

マイクロ・エージェント：コードを自動生成し、テストと修正を行うAIプログラミング・インテリジェンス。

一般的な紹介 Micro-Agentは、Builder.ioによって開発されたオープンソースのAIコーディングアシスタントであり、開発者にコードを自動的に生成してテストする機能を提供するように設計されている。自然言語による記述を理解することでテストケースを生成し、すべてのテストがパスするまでコードを繰り返し実行することで、オープンなコードを減らすことができます。

1年前

057.5K

Sherpa-ONNX: ONNXRuntimeによるオフライン音声認識と合成

概要 sherpa-onnxは、Next-gen Kaldiチームによって開発されたオープンソースプロジェクトで、効率的なオフライン音声認識および音声合成ソリューションを提供します。Android、iOS、Raspber...など複数のプラットフォームをサポートしています。

1年前

0280.9K

Eko: デスクトップとブラウザの自動化のための自然言語によるインテリジェント・ボディ・ワークフローの構築

概論 Eko は、自然言語記述によって効率的なインテリジェントエージェントワークフローを構築するために設計された、プロダクショングレードの JavaScript フレームワークです。開発者が深いプログラミングをすることなく、AI 技術を使って日常的なタスクを自動化できるよう設計されています。

1年前

063.8K

エージェント・インボックス：AIインテリジェンスとのヒューマンコンピュータインタラクションのための管理インターフェース

概論 Agent InboxはLangChainチームによって開発されたオープンソースプロジェクトで、AIインテリジェンスと対話するための新しいユーザー体験を提供します。このプロジェクトにより、ユーザーは一元化されたインターフェイスを通して、複数のAIインテリジェンスとのインタラクションを管理し、最適化することができます。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

062.4K

Social Media Agent：社交媒体智能助手，自动生成和管理社交媒体内容

ソーシャルメディア・エージェント：ソーシャルメディア・コンテンツを自動生成・管理するソーシャルメディア用インテリジェント・アシスタント

概要ソーシャルメディアエージェント（Social Media Agent）は、ソーシャルメディアコンテンツの生成と管理を自動化するために設計された、新しいエージェントインボックスによってインタラクション情報を管理するオープンソースプロジェクトです。このプロジェクトはLangChainチームによって開発されました。

1年前

057.9K

Executive AI Assistant：AI行政助理，提醒阅读邮件并规划工作日程

エグゼクティブAIアシスタント：AIエグゼクティブアシスタント、電子メールを読むためのリマインダー、仕事のスケジュールを計画する

概要エグゼクティブAIアシスタント（EAIA）は、ユーザーの日常業務を自動化・管理するために設計されたAIベースのアシスタントツールである。LangChain社によって開発されたこのツールは、Eメール、スケジュール管理、タスク管理などを行うことができます。

1年前

048.7K

MangaNinjia：アニメのモノクロ線画に素早く色をつける自動線画着色ツール。

総合紹介 MangaNinjiaはAlibaba Tongyi Visual Intelligence Lab (Ali-Vilab)によって開発されたオープンソースプロジェクトで、線画のカラーリングの自動処理に焦点を当てています。このツールは、ディープラーニング技術によって参照画像の正確なカラーマッチングを実現し、線画の色付けを大幅に改善します。

1年前

068.1K

Audiblez: ココロでオーディオブックを作成、電子書籍をオーディオブックに変換

概要 Audiblezは、電子書籍（.epub形式など）をオーディオブック（.m4b形式など）に変換するためのオープンソースプロジェクトです。Kokoroの高品質音声合成技術を利用し、多言語・多音声をサポートしています。ユーザーは単純に...

1年前

060.5K

検索 o1: 推論モデルに能動的な検索機能を与え、大規模モデルが思考しながら外部の知識を検索できるようにする。

包括的な紹介 Search-o1は、高度な検索メカニズムを統合することで、大規模推論モデル(LRM)のパフォーマンスを向上させることを目的としたオープンソースプロジェクトである。コアとなるアイデアは、動的な検索と知識の統合を通じて、推論プロセスで遭遇する知識不足の問題を解決することです。プロジェクトのスポンサーはsunn...

1年前

060.6K

Llama 3.2 Reasoning WebGPU：在浏览器中运行LLama-3.2

ラマ3.2推論WebGPU：ブラウザでラマ3.2を動かす

一般的な紹介 Transformers.jsは、Hugging Faceが提供するJavaScriptライブラリで、最先端の機械学習モデルをサーバーのサポートなしにブラウザで直接実行するように設計されています。このライブラリは、Hugging Fa...

AIニュース # AI Java オープンソースプロジェクト # オープンソース大型モデルツールのローカル展開

1年前

050.4K

MoneyPrinter V2：自动生成YouTube短视频与Twitter内容并发布

MoneyPrinter V2：短いYouTube動画とTwitterコンテンツを自動生成し、公開する

一般的な紹介 MoneyPrinter V2はFujiwaraChokiによって開発されたオープンソースプロジェクトで、自動化によってユーザーがオンラインでお金を稼ぐのを助ける。このプロジェクトは主にTwitter自動化、YouTubeショートビデオ生成、アフィリエイトキャンプを統合しています。

1年前

0138.2K

RTranslator: Android用リアルタイム音声翻訳アプリ！

一般的な紹介 RTranslatorは、Androidデバイスのために設計された事実上オープンソース、無料のオフラインリアルタイム翻訳アプリです。ユーザーはBluetoothヘッドセットを接続することで、携帯電話をポケットに入れたまま、まるで自分の国の言葉を話しているかのように他の人と会話をすることができます。

1年前

092.5K

Gemini Next Chat: ワンクリックで、プライベートなマルチモーダルGeminiアプリを無料でデプロイできます！

概論 Gemini Next Chatは、Geminiプライベートアプリケーションを簡単にデプロイできるように設計されたオープンソースプロジェクトです。このプロジェクトは、Gemini 1.5とGemini 2.0のマルチモーダルモデルをサポートしており、ユーザーはVercel上でワンクリックするだけでデプロイすることができます。

1年前

058.1K

AutoMouser：生成浏览器自动化代码，将鼠标操作通过AI转为Selenium Python脚本

AutoMouser：マウスアクションをAI経由でSelenium Pythonスクリプトに変換するブラウザ自動化コードの生成

概要 AutoMouserは、ユーザーのインタラクションをインテリジェントに追跡し、OpenAIのGPTモデルを使用してSeleniumテストコードを自動的に生成するChrome拡張機能です。ユーザーのブラウザ操作を記録し、それを変換することでテストコードを生成します。

1年前

058.4K

Vanna: RAG技術を使ったテキストからの正確なSQLクエリの生成

包括的な紹介 VannaはMITライセンスのオープンソースPythonフレームワークで、RAG（Retrieval Augmented Generation）技術を使ってSQLクエリを生成することに重点を置いている。ユーザはRAGモデルを訓練し、自分のデータに適用し、質問をすると、Vannaは適切なSQLクエリを返す。

1年前

069.3K

SVFR：ビデオ顔修復を実装する統一フレームワーク、白黒、ぼやけたポートレート古いビデオの修復

包括的な紹介 SVFR(Stable Video Face Restoration)は、基本顔復元(Basic Face Restoration: BFR)、色付け、修復、およびそれらの組み合わせタスクをサポートする、ビデオ顔復元のための統一フレームワークである。このフレームワークは、生成的プリオールと運動学的プリオールを利用し...

1年前

060.6K

LiveTalking: オープンソースのリアルタイム・インタラクティブ・デジタル・ヒューマン・ライブ・システム。

包括的な紹介 LiveTalkingは、オープンソースのリアルタイムインタラクティブデジタルヒューマンシステムであり、高品質のデジタルヒューマンライブソリューションの構築に取り組んでいます。このプロジェクトは、Apache 2.0オープンソースプロトコルを使用し、ER-NeRFレンダリング、リアルタイムオーディオおよびビデオストリーミング処理を含む多くの最先端技術と統合されています。

1年前

0140.7K

Aider: オープンソースのプログラミングアシスタントツール。

一般的な紹介 Aiderは強力なオープンソースのAIプログラミングアシスタントツールで、開発者が自然言語対話を通してコードを書いたり、編集したり、リファクタリングしたりするのを助けます。対話型AIペアプログラミングツールとして、Aiderは多くの主要なプログラミング言語をサポートし、Gitにシームレスに統合することができます...

1年前

080.4K

ジョイジェン：音声駆動型3D奥行き認識型トーキングビデオ編集ツール

包括的な紹介 JoyGenは、音声による表情生成の問題を解決することに焦点を当てた、話す顔のための革新的な2段階映像生成フレームワークである。Jingdong Technologyのチームによって開発されたこのフレームワークは、高度な3D再構成技術と音声特徴抽出法を用いて、話し手のアイデンティティ特性と表情を正確に捉えます。

1年前

057.3K

VSR：AI技術によるロスレスビデオ透かし除去及びハード字幕ソフトウェア（ビデオ透かし除去クライアント7G+)

包括的な紹介ビデオ字幕リムーバー（Video-subtitle-remover、略してVSR）は、AI技術に基づくビデオ処理ソフトウェアで、ビデオからハード字幕やテキストウォーターマークを削除するために特別に設計されています。このツールは、様々なAIアルゴリズムモデル（STTN、L...

1年前

0118.8K

TimesFM 2.0：グーグルが時系列予測のための事前学習済みモデルをオープンソース化

一般的な紹介 TimesFM 2.0 - 500M PyTorchは、Google Researchによって開発され、時系列予測用に設計された事前学習済みの時系列ベースモデルです。このモデルは、上下2048の時点を扱うことができます。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

076.2K

WeChat動画番号ダウンローダー：WeChat動画番号の動画を素早くダウンロード、複数のフォーマットとプラットフォームをサポートする

総合紹介 WeChat動画番号ダウンローダーはオープンソースプロジェクトで、ユーザーがWeChat動画番号から動画コンテンツを素早くダウンロードできるように設計されています。このツールは、様々なビデオフォーマットとプラットフォームをサポートしており、ユーザーはWindowsとmacOSシステム上で簡単に使用することができます。このプロジェクトはltaooによって開発され、...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

0111.2K

Riona-AI-Agent: 自動的に検索、いいね！、メッセージを残すソーシャルメディア自動対話型インテリジェンス

概要 Riona-AI-Agentは、主要なソーシャルメディア・プラットフォームの運用を管理・最適化するために特別に設計された、AIを搭載した革新的な自動化ツールです。このプロジェクトは、Instagram、Twitter、GitHub などのプラットフォーム用の高度な AI モデルを利用して、...

1年前

0158.7K

NVインジェスト：複雑なフォーマットのドキュメントを解析し、マルチモーダルデータをメタデータとテキストに抽出する。

包括的な紹介 NV Ingest (NVIDIA Ingest)は、何十万もの複雑で厄介な非構造化PDFやその他の企業ドキュメントを解析するために設計された、早期アクセス可能なマイクロサービス群です。これらのドキュメントをメタデータとテキストに変換し、検索に埋め込むことができます...

1年前

063.5K

「常時稼働のDeepseek AIアシスタント：Deepseek-V3に基づくインテリジェントな音声対話システムの構築

総合紹介 Always-On AI Assistantは、Deepseek-V3、RealtimeSTT、Typerなどの先進技術を統合することで、強力で永続的なオンラインAIアシスタントシステムを構築する革新的なAIアシスタントプロジェクトです。

1年前

061K

STAR：映像解像度の鮮明度を向上させる空間タイミング拡張AIモデル

包括的な紹介 STAR（Spatial-Temporal Augmentation with Text-to-Video Models）は、南京大学、ByteDance、西南大学によって共同開発された革新的な映像超解像フレームワークである。

1年前

061.4K

ImBD：AIによって生成されたコンテンツの検出。

包括的な紹介 ImBD（Imitate Before Detect）は、AAAI 2025カンファレンスで発表された、先駆的な機械生成テキスト検出プロジェクトである。ChatGPTのような大規模言語モデル(LLM)の普及に伴い、A...

1年前

078.5K

Browser Use Web UI：运行AI智能体浏览网页，让AI能够自动操作网页的开源框架

Browser Use Web UI: AIインテリジェンスがウェブをブラウズするためのオープンソースフレームワーク。

概要ブラウザユースWeb UIは、AIエージェントにグラフィカルインターフェースツールとしてブラウザインタラクション機能を提供することに焦点を当てた革新的なオープンソースプロジェクトです。このプロジェクトは、ブラウザユースコアフレームワークの上に構築されており、Gradio ...

10ヶ月前

083.4K

NVIDIA联合LangChain推出：分析编写结构化报告的高级指南,实现AI驱动的技术报告生成

NVIDIAとLangChainが、AI主導のテクニカルレポート生成を可能にする、アナリティクス向け構造化レポート作成のアドバンスガイドを発表

概論これはLangChainとNVIDIAが共同開発した構造化レポート生成ブループリント・プロジェクトで、GitHubのJupyter notebookチュートリアルで紹介されている。このプロジェクトは高度なAI技術、特にLlama-3.3-7...を利用しています。

1年前

059.1K

BrownChat：オープンソースのリアルタイム音声チャットAIアシスタント

概要 BrownChatはLarge Language Modelling (LLM)技術に基づいたリアルタイム音声チャットアプリケーションです。GitHubユーザーのsugarforeverによって開発されたこのプロジェクトは、高度な自然言語処理技術によってユーザーのコミュニケーション体験を向上させることを目的としています。

1年前

056.6K

Lecca：AIインテリジェンスとAIワークフローを構築するコードなしでプラットフォームを構築する

包括的な紹介 Leccaは、複数のツールやワークフローで大規模言語モデル（LLM）を構成し、デプロイすることができる強力なAIプラットフォームです。ユーザは簡単にAIエージェントを構築、カスタマイズ、自動化することができます。Leccaは幅広いAIプロバイダとモデルを提供しています。

1年前

056.1K