AIオープンソースプロジェクト

合計1020記事

順番に並べる

OASIS: 複雑な社会現象を研究するための、数百万人のユーザーによるソーシャルメディア・インタラクションのマルチインテリジェンス・シミュレーション

概論 OASIS（Open Agent Social Interaction Simulations）は、最大100万人のユーザーの行動をシミュレートできるオープンソースのソーシャルメディア・シミュレータである。このプラットフォームは、大規模言語モデルとルールベース...

1年前

066.4K

Refly：記事自動生成のための無料キャンバス上のプロセスオーケストレーションに基づくAIライティングプラットフォーム

包括的な紹介 Reflyは、マルチスレッド対話、ナレッジベース統合、文脈記憶、インテリジェント検索技術を通じて、ユーザーがアイデアを高品質なコンテンツに変換できるように設計された、無料のキャンバスベースのAIネイティブオーサリングエンジンです。このプラットフォームは、学習...

1年前

071.7K

ClickClickClick：任意のLLMを有効にし、AndroidとPCの操作を自動化する

一般的な紹介 ClickClickClickはBandarLabsによって開発されたフレームワークで、ローカルまたはリモートの大規模言語モデル（LLM）を使用してAndroidやPCの操作を自動化することを目的としています。このプロジェクトは現在、非常に実験的な段階にあり、以下のような様々なモデルをサポートしています。

1年前

049.2K

ライトカード：HTML5カードジェネレーターツール、シンプルなツールで美しいコンテンツカードを作る

概要 lightcard は、ユーザーが簡単に美しいコンテンツカードを作成できるように設計された、シンプルでエレガントなカード生成ツールです。このツールは、カスタムテキストコンテンツ、複数のテーマスタイル、QRコードに対応しており、作成がより簡単で楽しくなります。ユーザーは、タイトル、本文、作者を編集できます。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

059.5K

DeOldify：モノクロ写真やビデオをAI技術でカラー化する定番のオープンソースツール

包括的な紹介 DeOldifyは、白黒写真やビデオのインテリジェントな着色と復元に特化した、ディープラーニング技術に基づくオープンソースプロジェクトです。このプロジェクトは、革新的なNoGAN学習方法を用いて、画像の着色プロセスにおける従来のGANネットワークの一般的な欠点を解決することに成功しています...

1年前

070.9K

Browser-Use：AIインテリジェントがブラウザを簡単に操作するためのインテリジェント・ウェブ・オートメーション・ツールの構築

包括的な紹介 Browser-Useは、言語モデル（LLM）がウェブサイトと自然に対話できるように特別に設計された、革新的なオープンソースのウェブ自動化ツールです。強力で柔軟なフレームワークを提供し、GPT-4、Claud...などの主流の言語モデルを幅広くサポートします。

1年前

073.8K

YTSage：YouTube下载器，免费下载YouTube视频，提取音频，获取字幕

YTSage: YouTubeダウンローダー、YouTubeビデオを無料ダウンロード、音声抽出、字幕取得

概要 YTSageは、クリーンなPyQt6インターフェイスを備えたモダンなYouTubeダウンロードツールです。ユーザーはYTSageを使って、あらゆる画質の動画をダウンロードし、音声を抽出し、字幕を取得し（自動生成字幕を含む）、動画のメタ情報を表示することができます。

1年前

069.9K

PromptWizard: タスクパフォーマンスを向上させるプロンプトプロジェクト最適化のためのオープンソースフレームワーク

包括的な紹介 PromptWizardはMicrosoftによって開発されたオープンソースのフレームワークであり、モデルがプロンプトの単語を生成、評価、改善し、それ自身で例を生成し、継続的なフィードバックによってアウトプットの質を向上させる自己進化メカニズムを使用しています。プロンプトの単語を自律的に最適化し、適切な例文を生成・選択し、...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

058.9K

Ruyi-Models: レンズ制御とモーション振幅制御をサポートする、画像からビデオへのオープンソースモデルを生成します。

概要 Ruyi-Modelsは、画像から高品質の動画を生成するために設計されたオープンソースプロジェクトです。IamCreateAIチームによって開発されたこのプロジェクトは、768の解像度、毎秒24フレーム、5秒で120フレームの映画のようなビデオの生成をサポートしています。

1年前

064.2K

Robo Blogger：基于LangGraph将语音内容生成博客文章，自动化写作博客

ロボ・ブロガー：ラングラフをもとに音声コンテンツからブログ記事を生成、ブログ執筆を自動化

はじめにロボ・ブロガーは、音声読み上げ技術によってコンテンツ生成プロセスを簡素化するように設計された革新的なブログ作成ツールです。ユーザーはあらゆる音声テキスト変換アプリケーションを使ってアイデアを記録することができ、ロボ・ブロガーはそれらのアイデアを構造化されたブログコンテンツに変換します。

1年前

058.6K

Genesis: 実物理ベースの4Dダイナミックワールドシミュレーションのためのオープンソース生成物理エンジン

一般的な紹介 Genesisは、汎用ロボティクスと具現化AI学習のために設計された生成物理ワールドです。Genesisは、様々な材料や物理現象のシミュレーションをサポートする統一されたシミュレーション・プラットフォームを提供します。

1年前

067.2K

Kolors: 高品質画像生成のためのテキスト画像変換モデル、中国語ポスター生成もサポート

包括的な紹介 Kolorsは、Racerチームによって開発された、ポテンシャル拡散技術に基づく大規模なテキスト画像生成モデルです。このモデルは、数十億のテキスト-画像データのペアで学習され、中国語と英語の両方の入力をサポートし、高品質で複雑な意味的に正確な画像を生成することができます。

1年前

068.9K

ColorFlow：カートゥーンシェーディング、白黒画像の自動シェーディングによる画像の色の一貫性と品質の向上

包括的な紹介 ColorFlowは、Tencent ARCチームによって開発された画像シーケンスの自動カラーリングツールで、白黒画像シーケンスの自動カラーリングの問題を解決します。このツールは、検索で強化されたシェーディングパイプラインを使用して、キャラクターの髪の色やサービスなど、参照画像のプールを通して様々な要素の色を正確に生成します。

1年前

067.6K

BrushEdit：画像修復・編集のオールインワンツール、テンセントアークがリリース

総合紹介 BrushEditは、Tencent ARC Labsが開発したオールインワンの画像修復・編集ツールです。このツールは最新のAI技術に基づいており、画像の欠陥を自動的に識別して修復することができ、ユーザーによるインタラクティブな編集もサポートしています。

1年前

064.8K

Outlines：通过正则表达式、JSON或Pydantic模型生成结构化文本输出

アウトライン: 正規表現、JSON、Pydanticモデルによる構造化テキスト出力の生成

概説 Outlinesは、構造化テキスト生成を通じて大規模言語モデル（LLM）のアプリケーションを強化するために、dottxt-aiによって開発されたオープンソースライブラリです。このライブラリは、OpenAIやトランスフォーマーなど、様々なモデルの統合をサポートしています。

1年前

083.5K

RapBank：根据歌词和伴奏直接生成说唱(Rap)人声的模型（目前开放了数据集）

RapBank: 歌詞とバッキングトラックからラップ（Rap）ボーカルを直接生成するモデル（現在オープンデータセット）

概要 RapBankは、ラップ歌詞生成のために設計されたデータセットとツールセットです。このプロジェクトはNZqianによって作成され、YouTubeからラップ曲を収集・処理することで、研究者や開発者に高品質のラップ歌詞データを提供する。

1年前

061.6K

R2R: マルチモーダルコンテンツを解析し、知識グラフとハイブリッド検索を組み合わせた高度AI検索(RAG)システム

包括的な紹介 R2R (RAG to Riches)は、RAG (Retrieval Augmented Generation)機能をサポートする先進的なAI検索システムで、本番環境ですぐに使える機能を備えています。コンテナ化されたRESTful API上に構築されたこのシステムは、マルチモーダルコンテンツの解析、ハイブリッド検索機能を提供します。

1年前

091.5K

Megrez-3B-Omni：端侧多模态理解模型，支持文本、图像、音频多模态理解和分析

Megrez-3B-Omni：テキスト、画像、音声のマルチモーダル理解と解析をサポートするエンドサイド・マルチモーダル理解モデル

総合紹介 Infini-Megrezは、ハードウェアとソフトウェアの共同設計により、効率的なマルチモーダル理解と解析の実現を目指し、不問の中核ドーム（Infinigence AI）が開発したエッジ・インテリジェンス・ソリューションである。プロジェクトの中核となるのは、グラフをサポートするMegrez-3Bモデルである。

1年前

042.9K

GenEx：1枚の画像から探索可能な360°3D世界を生成（コードは順次オープンソース化）

一般的な紹介 GenExは、1枚の画像から完全に探索可能な360°の3D世界を生成できる先進的なAIモデルである。ユーザーはこの生成された世界をインタラクティブに探索することができる。GenExは想像空間における造形的AIの境界を押し広げ、...

1年前

051.9K

RAGFlow: 深い文書理解に基づくオープンソースのRAGエンジンで、効率的な検索強化生成ワークフローを提供します。

包括的な紹介 RAGFlowは、深い文書理解技術に基づいたオープンソースのRAG（Retrieval Augmented Generation）エンジンです。RAGFlowは、あらゆる規模の企業向けに効率的なRAGワークフローを提供し、実際の文書に基づいた複雑な形式のデータを提供できる大規模言語モデル（LLM）を組み込んでいます。

1年前

093.7K

NodeTool: ノードオーケストレーションに基づくAIモデルのワークフロー可視化クライアント

概要 NodeToolは、AI愛好家、開発者、データサイエンティスト、クリエイターにシンプルで直感的なインターフェイスを提供するように設計された革新的なAIオーサリングプラットフォームです。アーティスト、開発者、初心者を問わず、NodeToolはクリエイティブなプロトタイプを素早く作成するのに役立ちます。

1年前

058.9K

Porkybank：AIを活用した日々の予算管理が簡単にできる

一般的な説明 Porkybankは、ユーザーが簡単に毎日の予算を追跡するために設計されたオープンソースの個人財務管理アプリケーションです。収入-支出）÷日数＝現金というシンプルな計算式で、ユーザーは自分の財政状況を視覚化することができます。プロジェクトはGitHu...

1年前

048.1K

CrewAI：複雑なタスクを簡素化するマルチロールプレイ協調知能フレームワーク

包括的な紹介 CrewAIは、ロールプレイングと自律型AIエージェント間のコラボレーションをオーケストレーションするために設計された高度なフレームワークです。コラボレーションインテリジェンスを促進することで、CrewAIはエージェントがシームレスに連携して複雑なタスクを解決することを可能にします。インテリジェントアシスタントプラットフォームの構築、カスタマーサービスチームの自動化、マルチエージェント...

1年前

074.2K

Artab：ブラウザで開いた新しいタブで世界の名画を表示、Chromeプラグイン

一般的な説明 Artabは、新しいタブを開くたびに世界の素晴らしい芸術作品を紹介するように設計されたブラウザ拡張機能です。この拡張機能はChrome、Edge、Firefoxブラウザで利用できます。Artabを使用すると、ユーザーはブラウズすることができます...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

058.2K

Leffa：高保真模特虚拟试穿与人物姿势调整，Meta开源的可控人物图像生成模型

Leffa：高忠実度モデルのバーチャル試着とキャラクターポーズ調整、メタ・オープンソース制御キャラクター画像生成モデル

包括的な紹介 Leffaは、制御可能なキャラクター画像を生成するための統一されたフレームワークであり、キャラクターの外見（バーチャルフィッティングなど）やポーズ（ポーズ転送など）の精密な操作を可能にする。このフレームワークは、ターゲットクエリをアテンション層の正しい参照キーにフォーカスさせることで、細かいディテールの歪みを大幅に低減する。

1年前

062K

MMAudio：ビデオ映像に同期した効果音やサウンドトラックを生成する、ビデオと音声のマルチモーダル共同トレーニングツール

一般的な紹介 MMAudioは、マルチモーダルな共同トレーニングによって高品質な同期音声を生成することを目的としたオープンソースプロジェクトである。香港中文大学のHo Kei Chengらによって開発されたこのプロジェクトの主な機能は、ビデオやテキスト入力に基づいて同期された音声を生成することである。

1年前

065.4K

H2O GPT: ネイティブAI対話および文書処理ツールの柔軟な構成

一般的な紹介 H2O GPTは、プライベート化されたチャットとドキュメント処理機能を提供することを目的としたオープンソースプロジェクトです。このプロジェクトはApache 2.0ライセンスに基づいており、LLaMa2、Mistral、Falconなどの様々なGPTモデルをサポートしています。...

1年前

051.3K

OpenChat: 複数のデータソースを迅速に統合するカスタムチャットボット

概要 OpenChatは、大規模言語モデル（LLM）の使用を簡素化するために設計されたユーザーフレンドリーなチャットボットコンソールです。OpenChatは、2ステップのセットアッププロセスを提供することで、ユーザーが簡単に複数のカスタムチャットボットを作成し、管理することを可能にします。このプラットフォームはG...

1年前

060.1K

LocalGPT：ローカルデバイス上の複数のドキュメントと対話することで、データプライバシーを確保する

一般的な紹介 LocalGPTはオープンソースプロジェクトで、ユーザーがローカルデバイス上のドキュメントと会話できるように設計されており、データのプライバシーを保証します。様々なオープンソースモデルを使用することで、LocalGPTはデータをクラウドにアップロードすることなく、ドキュメントコンテンツを処理し理解することができます。このプロジェクトは、様々なアプリケーションをサポートしています。

1年前

059.5K

PrivateGPT: RAG処理フローを完全に局所化した文書Q&Aシステム

一般的な紹介 PrivateGPTは、インターネットに接続せずに大規模言語モデル（LLM）を使って文書をクイズすることを可能にする、本番環境で利用可能なAIプロジェクトです。このプロジェクトは、100%のデータプライバシーを保証し、すべてのデータはユーザの実行環境で処分されます...

1年前

057K

AutoGPT：ワークフロー自動化と自律的タスク実行のためのインテリジェントな身体構築プラットフォーム

包括的な紹介 AutoGPTは、継続的に稼働するAIエージェントの作成、導入、管理を支援し、複雑なワークフローを自動化するために設計された強力なプラットフォームです。Significant Gravitas社によって開発されたこのプラットフォームは、幅広いツールと機能を提供し、ユーザがAIエージェントに集中できるようにします。

1年前

058.2K

DragGAN: インタラクティブな画像編集ツール、ポイント＆クリックとドラッグ＆ドロップによる画像位置のコントロール

概要 DragGANは、Generative Adversarial Networks（GAN）をベースとしたインタラクティブな画像編集ツールである。Xingang PanらによってSIGGRAPH 2023で発表され、ポイント・アンド・クリックやドラッグ・アンド・ドロップの簡単な操作で直感的に操作できることを目的としている...

1年前

056.1K

Qwen-Agent：基于Qwen的智能代理应用框架，包括工具调用、代码解释器、RAG和Chrome扩展。

Qwen-Agent: ツールコール、コードインタプリタ、RAG、Chrome拡張機能を含む、インテリジェントエージェントアプリケーションのためのQwenベースのフレームワーク。

包括的な紹介 Qwen-Agent は、Qwen 2.0 以降をベースに開発されたインテリジェントエージェントアプリケーションフレームワークで、コマンドフォロー、ツール使用、プランニング、メモリなどの機能を備えています。このフレームワークは、ブラウザアシスタント、コードインタプリタ、カスタムアシスタントのような様々なサンプルアプリケーションを提供します。

1年前

073.5K

ミニカバー：ブログ、ショートビデオ、ソーシャルメディアなどにパーソナライズされたカバーを作成するために設計されたオンラインカバーメーカー！

概要 Mini-Coverは、ブログやショートビデオ、ソーシャルメディアなどのプラットフォーム用にパーソナライズされたカバーを生成するために設計されたオープンソースのオンラインカバー生成ツールです。JLinMrによって開発されたこのツールは、シンプルで効率的なソリューションを提供し、ユーザーのニーズに合ったカバーを素早く生成することを目的としています。

1年前

057.4K

MarkItDown：Microsoftドキュメントインテリジェント変換ツール、様々なファイルをMarkdown形式に変換

一般的な紹介 MarkItDownはMicrosoftによって開発されたPythonツールで、様々なファイルやオフィス文書をMarkdown形式に変換するように設計されています。このツールは、PDF、PowerPoint、Word、Excel、ダイアグラム...など、幅広い種類のファイルをサポートしています。

1年前

063.2K

Claude Engineer: 利用Claude模型自主生成和管理AI工具的智能体对话助手

クロード・エンジニア：クロード・モデルを用いてAIツールを自律的に生成・管理する知的身体対話アシスタント

概要 Claude EngineerはDoriandarkoによって開発された対話型コマンドラインインターフェイス（CLI）で、AnthropicのClaude-3.5-Sonnetモデルを利用してソフトウェア開発作業を支援する。

1年前

060.4K

Swarms: マルチインテリジェンス・オーケストレーション・フレームワーク、エンタープライズ・プロダクション・ツール

概要 Swarmsは、効率的なエージェント管理とタスク処理によってビジネスの生産性を向上させるために設計された、エンタープライズグレードのプロダクション対応マルチエージェント・オーケストレーション・フレームワークです。複数のモデル、複数のメモリシステム、カスタムエージェントの作成をサポートするこのフレームワークは、モジュール設計と包括的なロギング機能を提供し、システム...

1年前

050.3K

ソニック：音声でポートレート画像を生成し、生き生きとした表情のデジタルデモ映像を制作

概要 Sonicは、グローバルな音声知覚に焦点を当てた革新的なプラットフォームであり、音声によって駆動される鮮やかなポートレートアニメーションを生成することを目的としている。テンセントと浙江大学の研究チームによって開発されたこのプラットフォームは、音声情報を使って表情や頭の動きを制御し、自然で滑らかなアニメーション動画を生成する。

1年前

071.8K

Ultravox：实时端到端语音对话的音频多模态大模型，GPT-4o语音交互的开源实现

Ultravox: リアルタイムのエンドツーエンド音声対話のための音声マルチモーダル・マクロモデル、GPT-4o音声対話のオープンソース実装

包括的な紹介 Ultravoxは、リアルタイム音声処理のために設計された革新的なマルチモーダル大規模言語モデル（LLM）です。従来の音声認識システムとは異なり、Ultravoxは音声認識（ASR）ステージを別途用意する必要がなく、音声を直接高次元空間に...

1年前

065.5K

infinite-zoom-stable-diffusion：生成无限缩放循环视频

infinite-zoom-stable-diffusion: 無限ズームのループビデオを生成する。

包括的な紹介無限ズーム安定拡散（Infinite Zoom Stable Diffusion）は、安定拡散技術を使用して無限ズームビデオを作成するために設計されたオープンソースプロジェクトです。このプロジェクトは、使いやすいColabノートブックを提供し、ユーザは...

1年前

059.3K

Easy-Wav2Lip: Wav2Lipに最適化された高品質ビデオリップ同期ツール

はじめに Easy-Wav2LipはWav2Lipをベースに改良されたツールで、ビデオのリップシンクのプロセスを簡素化するように設計されています。このツールは、Google Colabとローカルインストールをサポートし、よりシンプルなセットアップと実装を提供します。アルゴリズムを最適化することで、Ea...

1年前

0103.6K

Research Rabbit：使用本地LLM进行网页研究和报告撰写，自动深入用户指定主题并生成总结。

リサーチラビット：ネイティブのLLMを使用し、ユーザーが指定したトピックに自動的にドリルダウンし、サマリーを生成するWebリサーチとレポート作成。

はじめに Research Rabbitは、LLM（Large Language Model）ベースのウェブリサーチおよび要約アシスタントです。ユーザがリサーチトピックを提供すると、Research Rabbitは検索クエリを生成し、関連するウェブ結果を取得し、これらの結果を要約します...

1年前

068.5K

AgentClientDemo：演示智能体运行过程的Python客户端，提供直观的图形用户界面

AgentClientDemo: インテリジェントボディの実行プロセスをデモンストレーションするPythonクライアント。

包括的な紹介 AgentClientDemoは、インテリジェント(Agent)とクライアント(Client)の機能を統合した包括的なPythonプロジェクトです。このプロジェクトはPyQtフレームワークに基づいており、直感的で使いやすいグラフィカルユーザインタフェース（GUI）を提供します。

1年前

052.4K

HelloMeme：生成局部高保真表情动作一致的图像或视频，Runway Act one 开源平替

HelloMeme：ローカルの忠実度の高い表現アクション一貫性のある画像やビデオを生成、Runway Act oneオープンソースピンポン！

包括的な紹介 HelloMemeはHelloVisionによって開発されたオープンソースプロジェクトであり、空間編み目アテンションを統合することによって、拡散モデルに高レベルで忠実なストリップを埋め込むことを目的としている。

1年前

057K

Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

概要 Chunkrは、PDF、PPTX、DOCX、ExcelファイルをRAG（Retrieval Augmented Generation）やLLM（Large Language Modelling）で使用するのに適したデータに変換するためのセルフホストAPIです。このプロジェクトはLumina...によって開発されました。

1年前

054.3K

GitIngest: GithubのコードリポジトリをLLMの理解に適したテキストに素早く変換

概要 GitIngestは、GitHubのコードリポジトリをLarge Language Model (LLM)のヒントに適したテキストに変換するためのオープンソースツールです。簡単な操作で、あらゆるGitHubリポジトリの内容を抽出し、LLMヒントに適合するように整形することができます。

1年前

080.7K

CodeArena: オープンソースLLMプログラミング能力比較アリーナ、最適なコード生成モデルをリアルタイム表示

一般的な紹介 CodeArenaは、リアルタイムの対決を通じて最高のオープンソースコード生成モデル（LLM）を紹介するために設計されたユニークなプラットフォームです。ユーザーは、異なる LLM が同じプログラミング・タスクで競い合う様子を見たり、リアルタイム・リーダーボードを通じて最高のパフォーマンスを発揮したモデルを見ることができます。このプラットフォームは、Togetter...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

061.5K

NSFW Detector: ファイルにNSFWコンテンツが含まれているかどうかを検出し、データのセキュリティを保護します。

包括的な紹介 NSFW DetectorはAIベースの不快コンテンツ検出ツールで、主に画像、動画、PDFファイルなどに不快コンテンツが含まれているかどうかを検出するために使用されます。このツールは、Falconsai/nsfwimagedetectio...を使用しています。

1年前

075.2K

ChatFree（ChatAnywhere-2）：使用GPT API创建的本地Copilot，支持任意窗口中补全对话

ChatFree (ChatAnywhere-2): GPT APIを使用して作成されたネイティブのコパイロットで、どのウィンドウでもダイアログを完了できます。

概要 ChatFreeは、ユーザーのAIアプリをブラウザの制約から解放し、ローカルで実行することを目的としたオープンソースプロジェクトです。GPTAPIを使用して作成されたCopilotは、Office、Word、WPSなどの幅広いオフィスソフトウェアをサポートするように設計されています。このプロジェクトは...

1年前

070.8K

Sketch-Gen: 高品質の線画とスケッチを生成、イメージキューワードをバックプロパゲート、ワンクリックパッケージインストール

概要 Sketch-Genは、アーティストやデザイナーが高品質な線画やスケッチを素早く生成できるように設計された、AI技術ベースの線画・スケッチ生成ツールです。Paints-UNDOプロジェクトから生まれたこのツールは、高度な機械学習モデルを使用しています。

1年前

062.5K

PydanticAI：使用Pydantic构建生成式AI应用，让构建生产级AI应用更加简单

PydanticAI: PydanticでジェネレーティブAIアプリを作れば、本番レベルのAIアプリが簡単に作れる

概論 PydanticAIはPydanticベースのPythonエージェントフレームワークで、生成AIアプリケーションの開発を簡素化するために設計されています。Pydanticチームによって開発され、幅広いモデル（OpenAI、Gemini、Groqなど）と...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

057.6K

Steel Browser：自动化网页浏览器API，构建控制浏览器操作的智能体与应用

Steel Browser: ブラウザ操作を制御するインテリジェンスとアプリケーションを構築する自動ウェブブラウザAPI

概要 Steel Browserは、AIエージェントとアプリケーションのために設計されたオープンソースのブラウザAPIです。Steel Browserは、インフラストラクチャを気にすることなくウェブ操作を自動化できるフルブラウザインスタンスを提供します。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

076.7K

E2M: 複数のファイル形式をMarkdownに変換し、簡単に統一されたドキュメントフォーマットを実現する

概要 E2M (Everything to Markdown)は、様々なファイルフォーマットをMarkdownフォーマットに変換するために設計されたオープンソースのPythonライブラリです。このツールは、doc、docx、epub、html、htm、u...などのフォーマットをサポートしています。

1年前

060.9K

ハイブリッドVincennesビデオ：高品質のビデオのリアルな映像を生成し、テンセントは、大規模なモデルのオープンソースのビデオ生成

総合紹介テンセント混元テキスト生成動画（Yuanbao APPで利用可能）は、テンセントが開始したAI技術に基づく動画生成プラットフォームです。このプラットフォームは、強力な分野横断的知識と自然言語理解力を備えた騰訊混合元ビッグモデルを活用し、ユーザーのテキスト記述に基づいて高品質の動画を生成する。

1年前

070.2K

Llama OCR：利用免费Llama 3.2 Vision接口，三行代码将图像转换为Markdown的OCR库

Llama OCR: 3行のコードで画像をMarkdownに変換するOCRライブラリ。

概要 Llama OCRは、Llama 3.2 VisionをベースにしたOCR（光学式文字認識）ライブラリで、文書をMarkdown形式に変換することができます。このライブラリーはNutlope社によって開発され、Togetherを使用しています。

1年前

061.6K

Clevrr Computer：使用 PyAutoGUI 库实现自动化桌面操作智能体

Clevrr Computer: PyAutoGUIライブラリでデスクトップ操作のインテリジェンスを自動化する

一般的な紹介 Clevrr Computerは、PyAutoGUIライブラリを使用してシステム操作を自動化することを目的としたオープンソースプロジェクトです。このプロジェクトはAnthropicにインスパイアされ、PyAutoGUIライブラリを使用して正確かつ効率的に操作を実行できる自動化エージェントを設計しました。

1年前

061.3K

Director：智能视频代理框架，用自然语言描述执行视频搜索、编辑和生成工作流

Director: 自然言語記述によるビデオ検索、編集、生成ワークフローのためのインテリジェントビデオエージェントフレームワーク

概要 Directorは、インテリジェントなビデオエージェントを構築することで、ビデオインタラクションとワークフローを簡素化し、最適化するために設計されたオープンソースのフレームワークです。このフレームワークは、VideoDBの "video-as-data "インフラストラクチャに基づいており、検索、編集、コンパイル、生成などの複雑なビデオタスクを処理することができます。

1年前

058.4K

MCP Server ChatSum：依赖MCP在Claude中查询和总结微信聊天消息

MCPサーバーChatSum: ClaudeでWeChatメッセージをクエリーし要約するためにMCPに頼る

一般的な紹介 MCPサーバー ChatSumは、ユーザーがチャットメッセージを照会し要約するために設計されたオープンソースプロジェクトです。このプロジェクトはGitHubでホストされており、ユーザーが特定のパラメータに基づいてチャットログを照会し、対応する要約を生成することができる強力なツールセットを提供します...

1年前

061.3K

LongWriter：智谱推出生成超长文本的强大模型，支持一次对话生成10000+字

LongWriter：ウィズダム・スペクトラムは、超長文を生成するための強力なモデルを発表し、1回の会話で10,000語以上の生成に対応。

包括的な紹介 LongWriter は、清華大学データマイニング研究グループ (THUDM) によって開発された強力な長文生成ツールです。このツールは、先進的なロングコンテクスト言語モデル（LLM）に基づいており、10,000語以上の長文を生成することができます。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

059K

Plate: 豊富なプラグイン拡張機能をサポートしたAI駆動型リッチテキストエディタ

概要 PlateはReactとTypeScriptで構築されたAI搭載のリッチテキストエディタで、高度にカスタマイズ可能で拡張性の高い編集体験を提供するように設計されています。Slate.jsをコアに利用し、モダンなUIと組み合わせている。

1年前

089K

Minima: オープンソースのRAGコンテナで、ローカルへのデプロイやChatGPTへの統合が可能。

一般的な紹介 MinimaはオープンソースのRAG(Retrieval-Augmented Generation)ソリューションで、ChatGPTのローカル展開と統合をサポートしています。プロジェクトはdmayborodaによって管理されており、その目的は...

1年前

051.6K

MuseGAN: マルチトラック音楽/サウンドトラックを生成し、複数の楽器の音楽クリップを簡単に作成するためのオープンソースモデル

一般的な紹介 MuseGANはGenerative Adversarial Networks (GAN)に基づいた音楽生成プロジェクトで、マルチトラック（マルチ楽器）の音楽を生成するように設計されています。MuseGANはLakh Pianorを使用しています。

1年前

054.3K

MoneyPrinterTurbo：ビデオテーマを入力すると、ワンクリックでビデオコピーと短いHDビデオを生成します。

総合紹介 MoneyPrinterTurboはオープンソースプロジェクトで、先進的なAIビッグモデル技術を利用して、ワンクリックで短いHDビデオを生成する機能を実現します。ユーザーは動画のテーマやキーワードを提供するだけで、システムが自動的に動画コピー、動画クリップ、動画字幕を生成します。

1年前

067.2K

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR

Docling：様々なフォーマットのドキュメントをサポート MarkdownやJSONへの解析とエクスポート PDFサポート OCR

包括的な紹介 Doclingは、PDF、DOCX、PPTX、XLSX、画像、HTML、AsciiDocおよびMarkdownを含む幅広い文書形式をサポートする強力な文書解析およびエクスポートツールです。

1年前

0107.4K

Model Context Provider CLI：任意大模型中使用MCP服务的命令行工具，不依赖Claude

Model Context Provider CLI: クロードに依存しない、あらゆる大規模モデルでMCPサービスを使用するためのコマンドラインツール。

包括的な紹介モデルコンテキストプロバイダCLI（mcp-cli）は、モデルコンテキストプロバイダサーバと対話するためのプロトコルレベルのコマンドラインツールです。このツールによって、ユーザーはコマンドを送信したり、データを照会したり、サーバーが提供する様々なリソースと対話したりすることができます...

1年前

056K

ControlFlow：制御された透明なAIインテリジェンス・ボディ・ワークフローを構築するためのPythonフレームワーク

概論 ControlFlowはPrefectHQによって開発されたPythonフレームワークで、AIワークフローの構築と管理に特化している。ワークフローを定義し、大規模言語モデル（LLM）生成にタスクを委譲するための、構造化された開発者指向のフレームワークを提供します。

1年前

051.4K

ConsisID：キャラクタ一貫性のある映像を生成するポートレート参照マップ、迅速な多端末統合

包括的な紹介 ConsisIDは、北京大学のYuan Rong氏のグループによって開発されたオープンソースプロジェクトであり、周波数分解技術によって、同一性のあるテキストからビデオへの生成（IPT2V）を実現することを目的としている。プロジェクトの中核は、DiT（Diffusion Transfor...

1年前

061.5K

GraphRAG Visualizer：可视化和探索Microsoft GraphRAG工件的工具

GraphRAG Visualizer: Microsoft GraphRAGアーティファクトを視覚化・探索するツール

はじめに GraphRAG Visualizer は、Microsoft GraphRAG の成果物を視覚化し、探索するために設計されたウェブベースのツールです。アップロードされたPar...

1年前

067.7K

Crawlee: Node.jsによる信頼性の高いWebクローラとブラウザ自動化ツールの構築

一般的な紹介 CrawleeはApifyによって開発されたオープンソースのウェブクローラーとブラウザ自動化ライブラリで、Node.js環境用に設計されています。JavaScriptとTypeScriptをサポートしており、Puppeteer...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

056.2K

Observers：用于AI可观测性的轻量级库，可追踪OpenAI兼容的API请求数据

Observers：OpenAI互換のAPIリクエストデータを追跡するAI observabilityのための軽量ライブラリ

概要 Observersは、生成AI APIに包括的な観測機能を提供するために設計されたオープンソースのPython SDKです。このライブラリにより、ユーザーはAIモデルとのインタラクションを簡単に追跡・記録し、これらの観測結果を複数のバックエンドに保存することができます。どのような...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

048.7K

Knowledge Graph Studio（WhyHow）：创建和管理知识图谱的开源平台，RAG应用原生支持

Knowledge Graph Studio (WhyHow): ナレッジグラフの作成と管理のためのオープンソースプラットフォーム。

包括的な紹介 Knowledge Graph Studio (KGS) は、RAGネイティブなナレッジグラフの作成と管理のプロセスを簡素化するために設計されたオープンソースのプラットフォームです。このプラットフォームは、ルールベースのエンティティ解決、モジュール式のグラフ構築、柔軟なデータ...

1年前

078.5K

Report mAIstro：生成任意自定义主题的详细报告文档，例如商业分析、年终汇报等

レポートMAIstro：ビジネス分析、期末レポートなど、カスタムトピックに関する詳細なレポートを作成します。

概要レポートmaistroは、自然言語処理技術により、ユーザーが簡単にカスタムレポートを作成できるように設計された強力なツールです。このツールはLangChainテクノロジーを利用し、ユーザーから提供されたトピックや構造を詳細なレポートに変換します。

1年前

042.4K

TRELLIS：Microsoft开发的3D资产生成模型，支持多种格式和灵活编辑

TRELLIS：複数のフォーマットをサポートし、柔軟な編集が可能なマイクロソフト開発の3Dアセット生成モデル

概要 TRELLISは、マイクロソフトが開発した大規模3Dアセット生成モデルです。テキストや画像のプロンプトを受け取り、ラジアルフィールド、3Dガウシアン、メッシュなど、さまざまな形式で高品質な3Dアセットを生成することができます。TRELLISの中核をなすのは、統一された構造化潜在...

1年前

073.5K

GraphCast：拡散モデルに基づく中期的な世界気象予測の学習と予測のための効率的なツール

はじめに GraphCastはGoogle DeepMindによって開発された先進的な天気予報ツールで、ディープラーニング技術によって中期的な世界の天気予報の精度を向上させることを目的としている。このプロジェクトでは、事前に学習された様々なモデルとサンプルコードを提供しており、ユーザーはこれらのコードをリソースとして利用することができます。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

053.1K

Bambo: 軽量で柔軟なインテリジェント・ボディのためのフレームワーク。役割とツールをシンプルに構成し、複数の負荷タスクを処理する。

一般的な紹介 Bamboは新しいタイプのプロキシフレームワークであり、主流のフレームワークよりも軽量で柔軟性が高く、様々な負荷タスクに対応できる。Bamboはツールカタログに全てのツールを定義し、非同期のカスタム関数を使用することで、効率的なプロキシ機能を実現している。ユーザーはllm_c...

1年前

057.4K

LAMBDA：下書きメール（Gmail）の返信を迅速に生成するローカライズされたAIメール自動化システム

概要 LAMBDA（Local Auto MailBox Draft Assistant）は、ユーザーのメールスタイルから学習し、Gmailの受信トレイにある未読メールすべてに下書きを生成するように設計された、ローカライズされたAIメール自動化システムです...

1年前

057.5K

Marco-o1：基于Qwen2-7B-Instruct微调的开源版OpenAI o1模型，探索开放式推理模型，解决复杂问题

Maro-o1：Qwen2-7Bに基づくOpenAI o1モデルのオープンソース版-複雑な問題を解決するためのオープンな推論モデルを探求するための微調整を指示する。

総合紹介 Marco-o1は、アリババ国際デジタル商務グループ(AIDC-AI)によって開発された、複雑な実世界の問題を解決するためのオープンな推論モデルです。このモデルは、思考の連鎖（CoT）微調整、モンテカルロ木探索（MCTS）、および革新的な推論戦略を組み合わせています...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

054.6K

Flow（Laminar）：タスクを簡素化し、柔軟に管理するインテリジェンス構築のための軽量タスクエンジン

包括的な紹介 Flowは、シンプルさと柔軟性に重点を置いてAIエージェントを構築するために設計された軽量タスクエンジンです。従来のノードベースやエッジベースのワークフローとは異なり、Flowは並列実行、動的スケジューリング、インテリジェントな依存関係管理をサポートする動的タスクキューシステムを使用する。その中核となるコンセプトは...

1年前

066K

Laminar: オープンソースのAIプロダクトエンジニアリングプラットフォーム。

包括的な紹介 Laminarは、第一原理からのAIエンジニアリングに焦点を当てた、オープンソースのAIエンジニアリング最適化プラットフォームです。LLM（大規模言語モデリング）アプリケーションの品質を向上させるために、ユーザーがデータを収集、理解、利用することを支援します。Laminarは、包括的な観測可能性、テキスト...

AIニュース # AI Java オープンソースプロジェクト

1年前

047.6K

Translation Agent WebUI：吴恩达翻译智能体界面版，提供多种翻译API和Gradio界面

翻訳エージェントWebUI: 呉エンダ翻訳インテリジェンスボディインタフェースバージョン、様々な翻訳APIとグラディオインタフェースを提供します。

概要翻訳エージェントWebUIは、Andrewyngの翻訳エージェントのために設計されたGradioベースのWebユーザーインターフェイスです。このツールは、自動的に送信を検出することができます...

1年前

052.7K

MegaParse：解析各类型文档为LLM可用数据，完整保留文档中的表格、图片等所有信息

MegaParse：各タイプのドキュメントをLLMで利用可能なデータに解析し、表や写真などドキュメント内のすべての情報をそのまま保存する。

概論 MegaParseは、Large Language Model (LLM)のデータ処理を最適化するために設計された、パワフルで多機能な文書解析ツールです。MegaParseは、テキスト、PDF、PowerPointプレゼンテーション、Word文書など、どのような文書を扱う場合でも...

1年前

062.8K

RMBG-2-Studio：批量移除图像和视频背景的开源程序，基于RMBG 2.0优化

RMBG-2-Studio: RMBG 2.0 用に最適化された、画像やビデオの背景を一括除去するオープンソースプログラム。

概論 RMBG-2-Studioは、BRIA-RMBG-2.0モデルに基づいて開発された、背景の除去および置換を行う拡張アプリケーションです。このアプリケーションは、電子商取引、ゲーム、...を含む様々なタイプの画像に対して、効率的で正確な画像背景処理機能をユーザーに提供するように設計されています。

1年前

083.5K

OpenAlternative：精选常用SaaS产品的开源软件替代方案，寻找最佳开源替代方案

OpenAlternative：一般的に使用されているSaaS製品の代替となるオープンソースソフトウェアのセレクション。

概要 OpenAlternativeは、オープンソースソフトウェアの代替品を提供することに焦点を当てたプラットフォームであり、ユーザーが日常的に使用している商用SaaS製品に代わる適切なオープンソースツールを見つけることを目的としています。このサイトでは、オープンソースツールの厳選されたコレクションを通じて、ユーザーのコスト削減と改善を支援しています...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

052.2K

Denser Chat: PDFファイルとのインタラクト、ソースコードハイライトの提供

概要 Denser Chatは、denser.aiによって開発・保守されているチャットボット・プロジェクトで、PDFファイルやウェブページからテキストや表を抽出し、ソースコードハイライトを行います。このプロジェクトはdenser-re...

1年前

050.2K

TextDistiller：一键总结一整本书，高效提炼书籍内容，快速掌握核心思想

TextDistiller：ワンクリックで本全体を要約し、本の内容を効率的に抽出し、核となるアイデアを素早く把握する。

包括的な紹介 TextDistillerは、章ごとに、または全体として本を要約し、簡潔でありながら包括的な概要を提供するように設計された高度なAI駆動型ツールです。TextDistillerを使うことで、ユーザーはどんな本でも、核心となるアイデアや重要なポイントを素早く把握することができます...

1年前

054.3K

AIチャットボット：ヴェルセル、インテリジェントなチャットボットを構築・展開

概要 AI ChatbotはVercelによって開発されたオープンソースプロジェクトで、開発者がインテリジェントなチャットボットを素早く構築し、デプロイすることを支援します。このプロジェクトはNext.jsフレームワークに基づいており、OpenAI...などの様々なAIモデルプロバイダと統合されています。

1年前

062.6K

ChainForge：大規模言語モデルヒントの有効性をテスト・評価するオープンソースのビジュアルプログラミング環境

概要 ChainForgeは、大規模言語モデル（LLM）のキューの有効性をテスト・評価するために設計されたオープンソースのビジュアルプログラミング環境です。データフローキューイングエンジニアリング環境を提供し、LLM応答における様々なキューの品質を素早く探索・分析することができます。

1年前

055.1K

InsightExpress：AIを活用した調査レポートの作成とメール配信

概要 InsightExpressはNext.jsベースのアプリケーションで、ユーザーが提供したトピックに基づいてAI主導の調査レポートを生成し、ユーザーにメールで送信します。このアプリケーションは、LangflowのAI ...

1年前

055.4K

Taipy: 効率的なデータ分析とAIアプリケーションのためのデータサイエンティスト向けPythonオープンソースライブラリ

概要 TaipyはAvaiga社によって開発された強力なPythonライブラリで、データ科学者や機械学習エンジニアがデータ駆動型のWebアプリケーションを迅速に構築・展開できるように設計されています。

1年前

060.7K

Midjourney Proxy：代理/逆向Midjourney Discord频道，实现AI绘图API调用（免费测试）

Midjourney Proxy: AIマッピングAPIコールのためのMidjourney Discordチャンネルのプロキシ/リバーシング（無料テスト）

包括的な紹介 Midjourney Proxyは、MidjourneyのDiscordチャンネルにAI描画機能をAPI形式に変換するプロキシサービスを提供するために設計されたオープンソースプロジェクトです。このプロジェクトは完全にフリーでオープンソースであり、ワンクリックで顔の入れ替え、画像のブレンド、グラフの生成をサポートします。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

070.4K

Awesome LLM Apps：收集和探索优秀开源的LLM应用程序，一行命令快速部署

素晴らしいLLMアプリ：優れたオープンソースのLLMアプリを収集・探索し、コマンド1つで素早くデプロイできます！

概要 Awesome LLM Appsは、Shubham Sabooによって作成されたGitHubリポジトリで、素晴らしいLLM（大規模言語モデリング）アプリを幅広く集め、紹介することに特化しています。このリポジトリには、OpenAI、An...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

064.1K

DHライブ: 30/40シリーズグラフィックスカードでスムーズなリアルタイムインタラクションを実現するAIデジタルピープル

一般的な紹介 DH_liveは、サンプルレスラーニングに基づいたリアルタイムのライブデジタルヒューマンプロジェクトで、スムーズでインタラクティブなライブストリーミング体験をユーザーに提供することを目的としています。このプロジェクトは、NVIDIA 30および40シリーズのグラフィックカードをサポートし、25fps以上でリアルタイムに実行することができます。ユーザーは...

1年前

064.5K

multi-model-bolt.new：基于 Bolt.new 的开源修改版，AI驱动的全栈开发工具

multi-model-bolt.new：AI駆動型フルスタック開発ツールBolt.newをベースとしたオープンソース修正版

一般的な説明 multi-model-bolt.newは、TogetherAIモデルの使用を可能にするBolt.newの改良版で、展開、モバイル応答、音声入力などの機能をサポートしています。ユーザーは、ブラウザーで直接プロンプトを表示したり、...

1年前

073.2K

Langflow：強力なAIインテリジェンスとワークフローを構築するためのローコードツール

概要 Langflowは、強力なAIエージェントとワークフローを構築するために開発者向けに設計されたローコードツールです。あらゆるAPI、モデル、データベースの使用をサポートし、複雑なAIアプリケーションの開発を簡素化します。Langflowは直感的なビジュアル・インターフェースを提供します。

1年前

0110K

AI Hedge Fund：开源自动化交易系统，利用多智能体进行复杂对冲基金交易决策

AIヘッジファンド：複雑なヘッジファンド取引の意思決定に複数の知性を利用するオープンソースの自動取引システム

一般的な紹介 AIヘッジファンドは、マルチ・エージェント・システムを利用して取引の意思決定を行う人工知能ヘッジファンドである。このシステムは、マーケット・データ・エージェント、クオンツ・エージェント、リスク管理エージェント、ポートフォリオ管理エージェントなど、複数の専門エージェントと連携し、複雑な取引を実現する。

1年前

084.4K

AI Chatbot Supabase：开源的Next.js和Supabase构建的AI聊天机器人，快速部署到Vercel。

AIチャットボット Supabase: オープンソースのNext.jsとSupabaseで構築されたAIチャットボットをVercelに迅速に導入。

概要 AIチャットボット Supabaseは、Next.jsとSupabaseで構築されたオープンソースのAIチャットボットテンプレートです。Vercelによって開発されたこのプロジェクトは、完全に機能的でカスタマイズ可能なチャットボットソリューションを提供することを目的としています。...

1年前

068.6K

RAGLite: 複数のデータベースと言語モデルをサポートする効率的な検索補強生成（RAG）ツール。

概要 RAGLiteは、PostgreSQLまたはSQLiteデータベースをサポートするRAG（Retrieval Augmented Generation）用のPythonツールキットです。異なる言語モデルやリフォーマラを選択できる柔軟な設定オプションを提供します。

1年前

059.9K

OpenWebUI-Monitor：监控OpenWebUI用户活动，管理使用限额，支持一键部署。

OpenWebUI-Monitor：OpenWebUIのユーザーアクティビティを監視し、使用量の制限を管理し、ワンクリックのデプロイをサポートします。

概要 OpenWebUI-Monitorは、OpenWebUIユーザーのアクティビティを監視し、使用クォータを管理するためのダッシュボードです。ユーザークォータを効率的に設定し、ユーザデータと視覚的な情報をリアルタイムで表示することができ、ワンクリックのデプロイをサポートし、ユーザ管理と監視を容易にします。

1年前

073.6K

Srcbook：TypeScriptの完全なプロジェクトを迅速に構築し、反復するオープンソースのフルスタックAIエンジニア

Srcbookの概要 SrcbookはTypeScriptを中心としたアプリケーション開発プラットフォームであり、AIアシスタントを用いてWebアプリケーションを迅速に作成し、繰り返し実行できるように設計されている。ネイティブランタイムをサポートし、インタラクティブなノートブックインターフェースを提供し、バックエンドのコードを書いて実行することができる。

1年前

060K