AIオープンソースプロジェクト

合計1020記事

順番に並べる

FantasyTalking: リアルな似顔絵を生成するオープンソースツール

一般的な紹介 FantasyTalkingは、Fantasy-AMAPチームによって開発されたオープンソースプロジェクトで、オーディオドライブを通してリアルなトーキングポートレート動画を生成することに焦点を当てています。このプロジェクトは、高度なビデオ拡散モデルWan2.1とオーディオエンコーダWa...

1年前

081.4K

Ortlin：すべてのOpenAIモデルとAPIを操作するためのウェブGUI

概論 Ortlinは、技術者、非技術者を問わず、誰でも簡単にOpenAIのAPIや基礎モデルと対話できるように設計されたウェブベースのグラフィカルユーザーインターフェースです。完全にフリーでオープンソースであるため、ユーザーはOpenAIを手間をかけずに利用することができます...

2年前

081.4K

Social Media Agent：社交媒体智能助手，自动生成和管理社交媒体内容

ソーシャルメディア・エージェント：ソーシャルメディア・コンテンツを自動生成・管理するソーシャルメディア用インテリジェント・アシスタント

概要ソーシャルメディアエージェント（Social Media Agent）は、ソーシャルメディアコンテンツの生成と管理を自動化するために設計された、新しいエージェントインボックスによってインタラクション情報を管理するオープンソースプロジェクトです。このプロジェクトはLangChainチームによって開発されました。

2年前

081.4K

Feeds.Fun：自動的にタグ付けとフィルタリングを行うRSSフィード

一般的な紹介 Feeds.Funは、ユーザーが効率的にニュースを読むためのツールであり、自動的にニュースにタグを付けたり、ユーザーの好みに基づいてコンテンツをフィルタリングするなどのコア機能を備えています。開発者のAliaksei Yaletski（スクリーンネームTiendil）によって作成され、...

1年前

081.2K

Agent-Wiz：AIインテリジェンシアのワークフローとセキュリティリスクの分析

概要 Agent-Wizは、開発者、研究者、セキュリティチーム向けに設計されたオープンソースのPythonコマンドラインツールです。LangGraph、CrewAI、AutoGenなどの主要なAIインテリジェンスフレームワークから複雑なワークフローを抽出し、...

1年前

081.2K

MemFree：地域の知識ベースと検索情報を混合するAI検索エンジン

概要 MemFreeは、テキスト、画像、文書、ウェブページを検索し、質問することができる高度なハイブリッドAI検索エンジンです。テキスト、マインドマップ、画像、動画の検索結果にワンクリックでアクセスすることができます。MemFreeは、ユーザーの知識ベースから情報を抽出し、...

2年前

081.2K

AutoGPT：ワークフロー自動化と自律的タスク実行のためのインテリジェントな身体構築プラットフォーム

包括的な紹介 AutoGPTは、継続的に稼働するAIエージェントの作成、導入、管理を支援し、複雑なワークフローを自動化するために設計された強力なプラットフォームです。Significant Gravitas社によって開発されたこのプラットフォームは、幅広いツールと機能を提供し、ユーザがAIエージェントに集中できるようにします。

2年前

081.1K

メモベース：AIアプリケーションのためのユーザープロファイルに基づく長期記憶ソリューション

はじめに Memobaseは、生成的なAIアプリケーションのための長期的なユーザー記憶をサポートするように設計された、ユーザープロファイルに基づく記憶システムです。バーチャルコンパニオン、教育ツール、パーソナライズされたアシスタントなど、Memobaseは、AIが記憶し、理解し、成長するのを支援します。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

081.1K

Lumina-MGPT-2.0：複数の画像生成タスクを扱うための自己回帰画像生成モデル

概説 Lumina-mGPT-2.0は、上海AI研究所（Shanghai AI Laboratory）、香港中文大学（The Chinese University of Hong Kong：CUHK）、およびその他の組織によって共同開発されたオープンソースプロジェクトで、Alpha...によってGitHub上でホストされている。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

081.1K

X-ダイナ：静止画参考動画ミッシーの写真を踊らせるポーズ生成動画

包括的な紹介 X-Dynaは、ByteDanceによって開発されたオープンソースプロジェクトで、ゼロサンプル拡散技術を使用してダイナミックなポートレートアニメーションを生成します。このプロジェクトでは、ドライブビデオ内の表情や体の動きを使って個々のポートレート画像をアニメーション化し、リアルでコンテキストを意識したモーションエフェクトを生成します。

2年前

081.1K

MuseGAN: マルチトラック音楽/サウンドトラックを生成し、複数の楽器の音楽クリップを簡単に作成するためのオープンソースモデル

一般的な紹介 MuseGANはGenerative Adversarial Networks (GAN)に基づいた音楽生成プロジェクトで、マルチトラック（マルチ楽器）の音楽を生成するように設計されています。MuseGANはLakh Pianorを使用しています。

2年前

081.1K

知識テーブル：構造化データの効率的な抽出と探索のためのオープンソースツール

包括的な紹介ナレッジテーブル（Knowledge Table）は、非構造化ドキュメントから構造化データを抽出し、探索するプロセスを簡素化するために設計されたオープンソースプロジェクトです。ユーザは、自然言語クエリインタフェースを通して、表やグラフのような構造化された知識表現を作成することができる。このツールは、抽出のカスタマイズをサポートしています。

2年前

081.1K

OmniParser: ユーザーインターフェースのスクリーンショットを構造化された要素に解析し、大規模なモデルの理解と操作を容易にします。

一般的な紹介 OmniParserは、ユーザーインターフェースのスクリーンショットを構造化された理解しやすい要素に解析するためにMicrosoftによって開発されたツールです。このツールは、GPT-4Vが対応するインターフェイス領域に正確なアクションを生成する能力を大幅に向上させます。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

081K

AI Hive: Javaベースの汎用AIチャット統合プラットフォーム

包括的な紹介 AIビーハイブ（ai-beehive）は、Spring Boot 3とJDK 17を備えたJava言語上に構築された多機能AIプラットフォームである。このプロジェクトは、ChatGPT...を含む複数のAI技術を統合しています。

2年前

081K

Hoarder：开源 AI 书签管理工具，支持多种格式文件，智能标签分类、全文检索

Hoarder: オープンソースのAIブックマーク管理ツール、複数フォーマット対応、インテリジェントタグ分類、全文検索

概要説明 Hoarderは、リンク、メモ、PDF、画像の保存をサポートするセルフホストブックマーク管理ツールです。自動タグ付けにAI技術を使用し、全文検索機能を提供します。ユーザーはChromeプラグインとFirefoxプラグインを使用することができます...

2年前

081K

タンクワーク：音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ

概論 TankWorkはオープンソースのデスクトップエージェント・フレームワークで、コンピュータビジョンとシステムレベルのインタラクションを通じて、AIがコンピュータを認識し制御できるように設計されています。このフレームワークは、エージェントが音声やテキストコマンドでコンピュータを直接制御し、リアルタイムのスクリーンコンテンツを処理し、継続的なオーディオビジュアルを提供することを可能にします。

2年前

081K

「常時稼働のDeepseek AIアシスタント：Deepseek-V3に基づくインテリジェントな音声対話システムの構築

総合紹介 Always-On AI Assistantは、Deepseek-V3、RealtimeSTT、Typerなどの先進技術を統合することで、強力で永続的なオンラインAIアシスタントシステムを構築する革新的なAIアシスタントプロジェクトです。

2年前

080.9K

アトミック・エージェント：軽量モジュール型AIインテリジェンス構築のためのフレームワーク

概論 Atomic Agentsは、エージェントAIパイプラインとアプリケーションを構築するためのアトミティシティ（atomicity）のコンセプトに基づいて設計された、非常に軽量でモジュール化されたフレームワークです。このフレームワークは、強力なアプリケーションを作成するために組み合わせることができるツールとエージェントのセットを提供します。このフレームワークは、Instruc...

2年前

080.8K

ChatGPT Box: 他のウェブページでChatGPTを動作させるブラウザプラグイン

一般的な紹介 ChatGPT Boxは、ChatGPTをユーザーのブラウザに深く統合するために設計されたオープンソースのブラウザ拡張機能です。josStorerによって開発されたこのツールは、複数の言語をサポートし、任意のページ上でチャットペアを呼び出すなどの様々な機能を提供します...

1年前

080.8K

Audio-Reasoner: オーディオ深層推論をサポートする大規模言語モデル

包括的な紹介 Audio-Reasonerは清華大学のチームによって開発され、GitHubでホストされているオープンソースプロジェクトである。このモデルはQwen2-Audio-Instructをベースにしており、...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

080.7K

Minima: オープンソースのRAGコンテナで、ローカルへのデプロイやChatGPTへの統合が可能。

一般的な紹介 MinimaはオープンソースのRAG(Retrieval-Augmented Generation)ソリューションで、ChatGPTのローカル展開と統合をサポートしています。プロジェクトはdmayborodaによって管理されており、その目的は...

1年前

080.7K

LivePortrait：静止画や動画からダイナミックなポートレートを生成するアニメーションツール

一般的な紹介 LivePortraitはRacer Technologyによって開発された先進的なAIダイナミックポートレートアニメーションツールです。革新的なAI技術を利用し、静止画像を鮮やかなビデオアニメーションに変換します。本物の写真でも、アニメーションスタイルでも、芸術的なポートレートでも、LivePo...

2年前

080.6K

PiT：画像パーツから完全な画像をつなぎ合わせるツール（未開封）

概論 PiT（Piece it Together）はGitHubでホストされているオープンソースツールで、テルアビブ大学のエラッド・リチャードソンなどの研究者によって開発された。羽のような断片化された画像パーツを入力することができる。

1年前

080.6K

DB-GPT: AIネイティブデータアプリケーション開発フレームワークの構築、マルチモデル管理とインテリジェントデータ処理の統合

包括的な紹介 DB-GPTは、AWEL（Agentic Workflow Expression Language）とスマートボディ技術を用いて構築されたオープンソースのAIネイティブデータアプリケーション開発フレームワークです。このプロジェクトは、大規模モデルの分野でインフラを構築することを目的としています。

1年前

080.5K

Robo Blogger：基于LangGraph将语音内容生成博客文章，自动化写作博客

ロボ・ブロガー：ラングラフをもとに音声コンテンツからブログ記事を生成、ブログ執筆を自動化

はじめにロボ・ブロガーは、音声読み上げ技術によってコンテンツ生成プロセスを簡素化するように設計された革新的なブログ作成ツールです。ユーザーはあらゆる音声テキスト変換アプリケーションを使ってアイデアを記録することができ、ロボ・ブロガーはそれらのアイデアを構造化されたブログコンテンツに変換します。

2年前

080.5K

EasyControl：ポートレートをジブリ風に変身させる無料ツール

概要 EasyControlはオープンソースプロジェクトであり、効率的で柔軟な画像生成制御を提供する拡散変換器（DiT）アーキテクチャに基づいています。その中でも、ジブリ・コントロールLoRAは特別な機能の一つで、たった100個のサブ...

1年前

080.5K

par_scrape: ウェブデータをインテリジェントに抽出するクローラーツール

一般的な紹介 par_scrape は Python ベースのオープンソース Web クローラーツールで、開発者の Paul Robello によって GitHub で公開されています。Selenium...

1年前

080.5K

GaiaNetノード：独自のローカルモデル・オンラインプロキシサービスをインストールし、実行します。

概要 GaiaNet-AI/gaianet-nodeは、Mac、Linux、Windows WSLにデフォルトのノード・ソフトウェア・スタックを1つのコマンドで素早くインストールできるオープンソースプロジェクトです。ユーザはノードの初期化、設定のカスタマイズ、ダウンロード...

2年前

080.5K

DragGAN: インタラクティブな画像編集ツール、ポイント＆クリックとドラッグ＆ドロップによる画像位置のコントロール

概要 DragGANは、Generative Adversarial Networks（GAN）をベースとしたインタラクティブな画像編集ツールである。Xingang PanらによってSIGGRAPH 2023で発表され、ポイント・アンド・クリックやドラッグ・アンド・ドロップの簡単な操作で直感的に操作できることを目的としている...

2年前

080.4K

Mahilo：異なるAIインテリジェンスフレームワークをリアルタイムで連携させる統合プラットフォーム

Mahiloは、開発者Jayesh SharmaによってGitHubで公開されたオープンソースのマルチインテリジェンス統合プラットフォームであり、ユーザーが異なるフレームワークのAIインテリジェンスを接続し、リアルタイムのコミュニケーション、人間とコンピュータのインタラクション、インテリジェントなコラボレーションをサポートできるように設計されている。この ...

1年前

080.4K

AIビデオ・スターター・キット: ブラウザ上でAIビデオの作成と編集がフルフローで可能

概論ビデオ・スターター・キット（Video Starter Kit）は、fal-ai-communityによって公開されたオープンソースプロジェクトで、ブラウザでのビデオ制作にAIモデルを使用する方法を示すものです。画像を動画に変換するためのツールを提供しています。

2年前

080.3K

IMS Toucan: 高速でコントロール可能な多言語（7000以上の言語に対応）音声合成ツール

一般的な紹介 IMS Toucanはドイツのシュトゥットガルト大学の自然言語処理研究所(IMS)によって開発された最先端の音声合成(TTS)ツールキットです。このツールキットは7000以上の言語をサポートし、高速で、制御可能で、必要な計算資源が少ない。

1年前

080.3K

Open-Reasoner-Zero：オープンソースの大規模推論強化学習トレーニングプラットフォーム

概論 Open-Reasoner-Zeroは強化学習（RL）研究に特化したオープンソースプロジェクトで、GitHub上のOpen-Reasoner-Zeroチームによって開発されています。効率的でスケーラブル、かつ使いやすいトレーニング...

1年前

080.2K

R1-Onevision：マルチモーダル推論をサポートするオープンソースの視覚言語モデル

包括的な紹介 R1-Onevisionは、Fancy-MLLMチームによって開発されたオープンソースのマルチモーダル・マクロ言語モデルです。視覚と言語の深い組み合わせに焦点を当て、画像やテキストなどのマルチモーダル入力を処理し、視覚的推論、画像理解、数学的解決などの分野で活躍することができます。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

080.2K

Cloudflare Agents: エッジネットワーク上にリアルタイムの対話型インテリジェンスを構築

概論 Cloudflare AgentsはCloudflareのオープンソース開発フレームワークで、開発者がグローバルエッジネットワーク上にインテリジェントなAIエージェントを構築できるように設計されています。エージェントが状態を保持し、リアルタイムで通信し、自律的に実行する能力を提供します。

1年前

080.2K

Gaze-LLE：映像中の人物注視のターゲット予測ツール

Synthesis Gaze-LLEは、大規模な学習エンコーダーに基づいた視線ターゲット予測ツールである。Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, and J... によって開発された。

1年前

080.1K

Reactive Resume: オープンソースの無料履歴書ビルダー。

概要 Reactive Resumeは、履歴書の作成、更新、共有のプロセスを簡素化するために設計された、無料でオープンソースの履歴書ビルダーです。このプラットフォームはユーザーのプライバシーを重視しており、ユーザーの追跡や広告は一切ありません。ユーザーは30秒以内にアプリをセルフホストすることができ、自分の履歴書を完全にコントロールすることができます。

2年前

080.1K

$XDOllama：适用于MacOS上快速调用Ollama\Dify\Xinference的AI模型界面。$

XDOllama: MacOS上でOllamaを素早く呼び出すためのAIモデル・インターフェース。

概要 XDOllamaは、Ollama、Dify、XinferenceなどのAIモデルを素早く呼び出すためにMacOSユーザー向けに設計されたデスクトップアプリケーションです。簡素化されたインターフェースとワークフローにより、このアプリケーションを使用すると、...

2年前

080.1K

ジョイジェン：音声駆動型3D奥行き認識型トーキングビデオ編集ツール

包括的な紹介 JoyGenは、音声による表情生成の問題を解決することに焦点を当てた、話す顔のための革新的な2段階映像生成フレームワークである。Jingdong Technologyのチームによって開発されたこのフレームワークは、高度な3D再構成技術と音声特徴抽出法を用いて、話し手のアイデンティティ特性と表情を正確に捉えます。

2年前

080K

Scraperr: セルフホスティングのウェブデータスクレイピングツール

概要 Scraperrは、XPath要素を指定することでウェブデータをスクレイピングすることができる、セルフホスト型のウェブデータスクレイピングツールです。ユーザーはURLと対応するクローリング要素を送信し、結果は表に表示され、エクセルファイルとしてダウンロードすることができます。

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

080K

self.so: ワンクリックで美しい履歴書ページを作成！

概要 self.soは、履歴書やLinkedInのプロフィールを素早く個人のウェブサイトに変換するために設計されたオープンソースのツールです。ユーザーはPDFの履歴書をアップロードするか、LinkedInのリンクを入力するだけで、システムがAI技術（Tog...をベース）を使って個人ウェブサイトに変換します。

1年前

080K

Rankify: 情報検索と並び替えをサポートするPythonツールキット

一般的な紹介 Rankifyは、オーストリアのインスブルック大学のデータサイエンスグループによって開発されたオープンソースのPythonツールキットである。情報検索、並べ替え、検索拡張生成（RAG）に焦点を当て、統一されたフレームワークを提供している。このツールキットには40の検索済みベンチマークが組み込まれている。

1年前

079.9K

OmAgent：マルチモーダル・スマートデバイス構築のための知的身体フレームワーク

包括的な紹介 OmAgentはOm AI Labによって開発されたマルチモーダルインテリジェントボディフレームワークであり、スマートデバイスにAIを搭載した強力な機能を提供することを目的としている。最先端のマルチモーダルベースモデルとインテリジェントボディアルゴリズムを統合することで、開発者は様々なデバイス上で効率的なスマートデバイスを作成することができます。

2年前

079.9K

Bonsai: エッジデバイスでの操作に適した3値重み付き言語モデル

一般的な紹介 Bonsaiはdeepgrove-aiによって開発されたオープンソースの言語モデルで、パラメータサイズは5億、3項重みを使用しています。LlamaアーキテクチャとMistral分類器をベースにしています。

1年前

079.9K

Confident AI：自动化大语言模型评估框架，对比不同大模型提示词输出质量

信頼できるAI：自動化された大規模言語モデル評価のためのフレームワーク。

包括的な紹介 DeepEvalは、大規模な言語モデリングシステムを評価およびテストするための、使いやすいオープンソースのLLM評価フレームワークです。Pytestに似ていますが、LLM出力のユニットテストに重点を置いています。DeepEvalは、G-Eval、ファントム...

1年前

079.9K

PDF to Podcast：PDFをポッドキャストに変換するユーティリティ

概論 Notebook LMのポッドキャスト生成機能と、最近のOpen Notebook LMのオープンソース実装に触発されました。このレシピでは、PDFからポッドキャストへのパイプラインを構築する方法を、ステップバイステップで詳しく説明します。任意のPDF...

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

079.9K

Telegram GPT Worker：部署在Cloudflare Workers上的多模型AI Telegram机器人

Telegram GPT Worker: Cloudflare Workers上に展開されたマルチモデルAI Telegramボット

概論 GPT-Telegram-WorkerはCloudflare WorkersをベースにしたマルチモデルのAI Telegramボットで、OpenAI、Claude、Azureなど複数のAPをサポートしています。

1年前

079.8K

AIポッドキャスト・ジェネレーター：ニュースを自動クロールして音声ポッドキャストを生成

概論 AI Podcast Generatorは、高度なAI技術を利用してウェブソースから魅力的なオーディオコンテンツを自動的に作成するインテリジェントなポッドキャスト生成ツールです。このシステムは、ニュース・コンテンツをキャプチャし、オーディオ・ポッドキャストに変換することで、自然な流れのナレーションを生成します。このプロジェクトはNext...

2年前

079.8K

SuperWeChatPC：オープンソースコンピュータ微信機能強化ツール、二次開発支援

総合紹介 SuperWeChatPCはオープンソースのコンピュータ用WeChat拡張ツールであり、その核心はユーザーと開発者に利便性を提供することである。当初、WeChatは単独でしか開くことができないという問題を解決し、後にWeChatSDKを追加し、開発者がWeChatの機能を呼び出すことができるようにしました。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

079.8K

OpenAlternative：精选常用SaaS产品的开源软件替代方案，寻找最佳开源替代方案

OpenAlternative：一般的に使用されているSaaS製品の代替となるオープンソースソフトウェアのセレクション。

概要 OpenAlternativeは、オープンソースソフトウェアの代替品を提供することに焦点を当てたプラットフォームであり、ユーザーが日常的に使用している商用SaaS製品に代わる適切なオープンソースツールを見つけることを目的としています。このサイトでは、オープンソースツールの厳選されたコレクションを通じて、ユーザーのコスト削減と改善を支援しています...

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

079.7K

LLManager：インテリジェントな自動プロセス承認と人間による監査を組み合わせた管理ツール

概要 LLManagerはLangChainのLangGraphフレームワークに基づいて開発されたオープンソースのインテリジェントな承認管理ツールです。セマンティック検索、サンプルレス学習、...

1年前

079.7K

CogView3: Wisdom Spectrumのオープンソースカスケード拡散テキスト生成画像モデル

包括的な紹介 CogView3は清華大学とシンクタンクチーム（Chi Spectrum Qingyan）によって開発された先進的なテキスト生成画像システムである。CogView3の主な特徴は、多段階生成、革新的なアーキテクチャ、効率的なパフォーマンスです。

2年前

079.7K

LiberSonora：オーディオブック字幕抽出と多言語翻訳、オーディオブックの多言語書き起こし

包括的な紹介 LiberSonoraは、「自由な音」を意味し、強力なAI対応のオープンソースオーディオブックツールセットです。インテリジェントな字幕抽出、AIタイトル生成、多言語翻訳などをサポートし、GPUアクセラレーションによるバッチオフライン処理が可能です。

1年前

079.7K

ai-gradio: 複数のAIモデルを簡単に統合し、Gradioに基づいたマルチモーダル・アプリケーションを構築する

概論 ai-gradioはオープンソースのPythonツールキットで、開発者が複数のAIモデルを簡単に統合して使用できるように設計されています。Gradio上に構築されたこのプロジェクトは、複数のAIモデルとサービスをサポートするための統一されたインターフェースを提供します。テキスト、音声、動画のいずれでも...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

079.6K

Dynamiq：AIアプリケーション開発を簡素化するRAGとLLMエージェントをサポートするインテリジェント・ボディ・オーケストレーション・フレームワーク

包括的な紹介 Dynamiqは、エージェントAIと大規模言語モデリング（LLM）アプリケーションのために設計されたオープンソースのAIオーケストレーションフレームワークです。Dynamiqは、特にRAG（Retrieval Augmented Generation）とLLMエージェントのオーケストレーションの分野において、AI駆動型アプリケーションの開発を簡素化することを目的としています。

2年前

079.5K

DSPyの例：DSPyの機能を実証する実践的な例

概要 DSPy Example Codebaseは、Langtrace AIチームによって管理されているGitHubコードベースです。このコードベースは、DSPyの様々な機能を実際の例を通して紹介し、開発者の理解を深めることを目的としています。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

079.5K

LangWatch：DSPyフレームワークに基づくLLMプロセスのモニタリングと最適化のための可視化ツール

包括的な紹介 LangWatchは、大規模言語モデル（LLM）運用のために設計された包括的なプラットフォームで、監視、分析、評価、データセット管理、キューの最適化を提供します。このプラットフォームは、スタンフォード大学のDSPyフレームワークをベースにしており、ユーザがより良い管理と最適化を行えるように設計されています。

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

079.5K

ステッカーベイカー：AIでパーソナライズされたステッカー画像を作る

概要 stickerbakerは、人工知能技術を使って様々な面白いステッカーを作成するオープンソースのステッカーメーカーです。シンプルな猫のステッカーが欲しい人も、多様なステッカーをシリーズで作りたい人も、stickerbakerはあなたのニーズに応えます...

2年前

079.4K

LuminaBrush：スマートペイントツールで画像にイルミネーションを加える

はじめに LuminaBrushは、人工知能技術を搭載した、照明効果のための革新的なインタラクティブ画像編集ツールです。このプロジェクトでは、2段階のフレームワークを使用して画像を処理します。第1段階では、入力画像を「均一な照明」ルックに変換し、第2段階では、...

2年前

079.4K

LLM API Engine: 自然言語によるAPIの迅速な生成とデプロイメント

一般的な紹介 LLM API Engineは、開発者がAIを搭載したAPIを迅速に構築し、デプロイできるように設計されたオープンソースプロジェクトです。このプロジェクトは、Large Language Model（LLM）とインテリジェントなウェブクローリング技術を活用し、ユーザーが自然言語記述によってカスタムAPIを作成できるようにします。

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

079.3K

Vision Parse: 視覚言語モデルを用いたPDFドキュメントのMarkdownフォーマットへのインテリジェント変換

包括的な紹介 Vision Parseは画期的な文書処理ツールで、最先端の視覚言語モデル（Vision Language Models）技術と、PDF文書を高品質のMarkdown形式にインテリジェントに変換する機能を巧みに組み合わせています...

2年前

079.2K

DocsGPT: ドキュメントチャットアシスタント、1つのドキュメント、ウェブソースから信頼できる回答を得る、ローカル展開をサポート

概要 DocsGPT はオープンソースのドキュメントアシスタントで、プロジェクトドキュメントのクエリプロセスを簡素化するように設計されています。強力な GPT モデルを統合することで、開発者はプロジェクトに関する質問を簡単に行い、正確な回答を得ることができます。

2年前

079.2K

悟空：詳細で一貫性のある動画を生成します。詳細なキャラクターやオブジェクトを使用したコマーシャルの作成に最適です。

包括的な紹介 Gokuは、ストリーム変換技術に基づく連携型画像・動画生成モデルであり、業界トップクラスのパフォーマンスを達成するよう設計されています。Gokuは、きめ細かなデータ照合、モデル設計、ストリーム変換の定式化など、高度で高品質な映像生成技術を統合しています。

1年前

079.1K

OneFileLLM: 複数のデータソースを単一のテキストファイルに統合

包括的な紹介 OneFileLLMは、大規模言語モデル（LLM）に簡単に入力できるように、複数のデータソースを単一のテキストファイルに統合するために設計されたオープンソースのコマンドラインツールです。GitHubリポジトリ、ArXiv論文、YouTube動画トランスクリプション、Web...

1年前

079K

Vector Vein：コードフリーのAIワークフロー構築プラットフォーム

総合紹介 Vector Veinは、インテリジェントで自動化されたワークフローを簡単に作成できるように設計された、コードフリーのAIワークフロー構築プラットフォームです。プログラミングの基礎は必要なく、ユーザーはドラッグ＆ドロップ操作で様々な機能モジュールを接続するだけで、複雑なAIワークフローを構築することができます。

2年前

079K

HiOllama: Ollamaのネイティブ・モデルと対話するためのクリーンなチャット・インターフェース

概論 HiOllamaは、PythonとGradioで構築されたユーザーフレンドリーなインターフェースで、Ollamaモデルと対話するために設計されています。リアルタイムのテキスト生成とモデル管理機能をサポートし、シンプルで直感的なウェブインターフェースを提供します。ユーザーは、温度などのパラメーターを調整することができます。

2年前

079K

XiaoYuanKouSuan_Auto：小猿口算自动答题工具，高效解决口算题目

XiaoYuanKouSuan_Auto：XiaoYuanKouSuan自動質疑応答ツール、効率的に口頭算数の問題を解く

包括的な紹介 Ape Mouth Calculator Automatic Question Answer Toolは、OCR認識と自動化スクリプトによってApe Mouth Calculatorアプリケーションの問題を効率的に解くために設計されたPythonベースのオープンソースプロジェクトです。このツールはOpenCVやTesseractなどの技術を利用し、画面上の問題をリアルタイムで識別することができます...

2年前

078.9K

NVIDIA PDF to Podcast：设置引导提示词将PDF转换为播客的AI工具

NVIDIA PDF to Podcast：プロンプトの誘導語を設定してPDFをポッドキャストに変換するAIツール

概論 NVIDIA AI Blueprint: PDF to Podcastは、NVIDIAが開発したオープンソースプロジェクトで、PDFドキュメントを魅力的なオーディオコンテンツに変換します。このプロジェクトは、NVIDIA NIM (NVIDIA AI Blueprint) を活用しています。

AIニュース # AI Java オープンソースプロジェクト # AI音声合成

1年前

078.9K

Cloud Document Converter：飞书文档下载插件，飞书云文档转换为本地Markdown格式文档

クラウド文書変換：Flying Book文書ダウンロードプラグイン、Flying Bookクラウド文書からローカルMarkdown形式文書への変換

概要 Cloud Document Converterは、Flying Bookのクラウド文書をMarkdown形式に変換するためのChrome拡張機能です。ユーザーはフライングブックのクラウド文書を簡単にダウンロードまたはコピーしてMarkdo...

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

078.9K

DeepSeek Engineer：基于DeepSeek API的实验性编码助手,附提示词

DeepSeek Engineer：DeepSeek APIに基づく実験的なコーディングアシスタント。

概要 DeepSeek Engineerは、DeepSeek APIに基づく強力なプログラミングアシスタントツールで、直感的なコマンドラインインタフェースを通じてユーザーと対話し、さまざまなソフトウェア開発タスクを支援します。このツールは、大規模な言語モデリングと実...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

078.8K

Bambo: 軽量で柔軟なインテリジェント・ボディのためのフレームワーク。役割とツールをシンプルに構成し、複数の負荷タスクを処理する。

一般的な紹介 Bamboは新しいタイプのプロキシフレームワークであり、主流のフレームワークよりも軽量で柔軟性が高く、様々な負荷タスクに対応できる。Bamboはツールカタログに全てのツールを定義し、非同期のカスタム関数を使用することで、効率的なプロキシ機能を実現している。ユーザーはllm_c...

2年前

078.8K

Azure TTS Importer：音声合成サービスを読み上げソフトウェアに統合する

包括的な紹介 TTS Importerは、Azure TTS（Text-to-Speech）音声合成サービスを様々な読み上げソフトに簡単にインポートできるように設計されたオープンソースプロジェクトです。このツールは、Read（legado...）を含むいくつかの一般的な読み上げソフトウェアをサポートしています。

1年前

078.8K

AigoTools: ウェブサイトの自動組み込みと多言語オープンソースAIツールナビゲーションサイトのサポート

一般的な紹介 AigoToolsは、ユーザーが迅速にナビゲーションサイトを作成し、管理するために設計されたオープンソースのAIウェブサイトナビゲーションです。サイト管理、AIベースの自動インクルージョン機能、多言語サポート、ダーク/ライトテーマ切り替え、SEO最適化機能を内蔵しています。

2年前

078.8K

OneLine：注目イベントのタイムラインを生成するAIツール

一般的な紹介 OneLineはGitHubでホストされているオープンソースのホットイベントタイムライン生成ツールで、ユーザーchengtx809によって開発されました。ユーザーによって入力されたキーワードによってイベントのタイムラインを素早く生成し、イベントの時間、タイトル、説明、関連人物を表示します...

1年前

078.7K

OpenPromptStudio：可视化编辑、管理图像提示词，同步自己的Notion提示词表

OpenPromptStudio：イメージプロンプトを視覚的に編集、管理し、独自のNotionプロンプトリストを同期します！

概論 OpenPromptStudio（OPS）は、Moonvyチームによって開発された、AIGCプロンプトワード用のオープンソースビジュアルエディタです。OPSは、MidjourneyのようなAIモデルをサポートし、プロンプトワードの作成と管理のプロセスを簡素化するように設計されています。

2年前

078.7K

Llama 3.2 Reasoning WebGPU：在浏览器中运行LLama-3.2

ラマ3.2推論WebGPU：ブラウザでラマ3.2を動かす

一般的な紹介 Transformers.jsは、Hugging Faceが提供するJavaScriptライブラリで、最先端の機械学習モデルをサーバーのサポートなしにブラウザで直接実行するように設計されています。このライブラリは、Hugging Fa...

AIニュース # AI Java オープンソースプロジェクト # オープンソース大型モデルツールのローカル展開

2年前

078.7K

Xata Agent: PostgreSQLデータベースの監視と最適化のためのAIアシスタント

概要 Xata Agentは、PostgreSQLデータベース専用に設計されたオープンソースのAIツールです。データベースの稼働状況を自動的に監視し、パフォーマンス上の問題や障害の根本原因を突き止め、それを解決するための推奨事項を提示します。開発チームのxAIは、このツールをPostgreSQLのような...

1年前

078.6K

SongGen: 曲の自動生成のための単段自己回帰変換器

包括的な紹介 SongGenは、テキストから曲への生成タスクのために設計された、オープンソースの単一ステージ自己回帰変換モデルである。このモデルは、テキスト入力からボーカルとバッキングトラックを含む楽曲を生成することができます。SongGenは、幅広い音楽属性をきめ細かく制御することができます...

1年前

078.6K

CleverBee：オープンソースのAIリサーチアシスタントが引用研究を生成

一般的な紹介 CleverBeeはGitHubでホストされているオープンソースのAI研究アシスタントであり、SureScaleAIによって開発された。ウェブブラウジング技術と大規模な言語モデル（GeminiやClaudeなど）を組み合わせることで、ユーザーを支援します...

1年前

078.5K

MOFAビデオ：静止画を動画に変換するモーション・フィールド・アダプテーション技術

概論 MOFA-Videoは、生成的運動場適応技術を利用して静止画像を動的動画に変換する最先端の画像アニメーション生成ツールである。東京大学とTencent AI Labとの共同研究により開発され、2024年のEuropean Conference on Computer Vision (EV)で発表される。

2年前

078.4K

Potpie AI：独自のコードベースを素早く作成するAIエンジニアリング・アシスタント

包括的な紹介 Potpie AIは、カスタマイズされたAIエンジニアリング・アシスタントを開発者に提供することに特化したオープンソースのプラットフォームです。AIエージェントがコード構造とロジックを深く理解し、コードベースのナレッジグラフを構築することで、デバッグ、テスト、コード生成などのタスクを自動化します。ユーザーはシンプルな...

1年前

078.4K

MM-EUREKA：視覚的推論を探求するマルチモーダル強化学習ツール

MM-EUREKAは、上海交通大学の上海人工知能研究所とその他の関係者によって開発されたオープンソースプロジェクトです。ルールベースの強化学習技術により、テキスト推論機能をマルチモーダルシナリオに拡張し、モデルによる画像とテキスト情報の処理を支援します。このツールのコア...

1年前

078.3K

Babelfish.ai：ブラウザで動作するリアルタイム音声書き起こし翻訳アプリケーション

概論 Babelfish.aiは、Huggingface Transformer.jsとSupabase Realtimeで構築されたリアルタイム文字起こし・翻訳アプリケーションです。このアプリケーションは、ブラウザで大きなモデルを読み込むことができます。

2年前

078.2K

Gemini Next Chat: ワンクリックで、プライベートなマルチモーダルGeminiアプリを無料でデプロイできます！

概論 Gemini Next Chatは、Geminiプライベートアプリケーションを簡単にデプロイできるように設計されたオープンソースプロジェクトです。このプロジェクトは、Gemini 1.5とGemini 2.0のマルチモーダルモデルをサポートしており、ユーザーはVercel上でワンクリックするだけでデプロイすることができます。

2年前

078.2K

エージェントラボラトリー：研究者のための自動化されたコードとスタディライティングアシスタント

包括的な紹介エージェントラボラトリーは、研究者の研究アイデアの実現を支援するために設計された、エンドツーエンドの自律的な研究ワークフローです。このシステムは、大規模な言語モデルによって駆動される専用エージェントで構成され、文献調査や計画の立案から実行まで、研究ワークフロー全体をサポートします。

1年前

078.2K

Pyramid Flow：Racerが発表した "Kringle "のオープンソース版で、SD3をベースとし、8GB未満のGPUで動作する（ワンクリックデプロイメント版）。

総合紹介ピラミッドフローは、フローマッチング技術に基づく効率的な自己回帰的映像生成手法である。この手法は、異なる解像度とノイズレベルの間を補間することで、映像コンテンツの生成と伸長において高い計算効率を達成する...

2年前

078.1K

Audibit：人気の技術記事をすぐに聴ける音声ポッドキャストにする

一般的な紹介 Audibitはオープンソースプロジェクトで、主な機能は、ハッカーニュース、TechCrunchや他の人気のある技術記事を自動的にオーディオポッドキャストに変換することです。このプロジェクトは...

1年前

078K

Skywork-R1V: グラフィカルハイブリッドマルチモーダル推論モデルオープンソース by Kunlun Wanwen

一般的な紹介 Skywork-R1Vは、SkyworkAI（Kunlun Wanwei）チームによって開発され、GitHubで公開されているオープンソースのマルチモーダル推論モデルです。画像とテキストを同時に処理することができ、多段階の論理的推論を実行し、特に複雑な画像問題の分析に優れています。この...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

078K

LaWGPT：中国法知識モデリング、法律クイズと司法試験トレーニングをサポート

一般的な紹介 LaWGPTは、南京大学の機械学習・データマイニング研究グループによってサポートされているオープンソースプロジェクトで、中国の法律知識に基づいた大規模な言語モデルの構築に専念しています。一般的な中国語モデル（Chinese-LLaMAやChatGLMなど）をベースにしています。

1年前

078K

Devin Cursor Rules：让Cursor和Windsurf 强化为 Devin

デビン・カーソルルール：デビンのために強化されたカーソルとウィンドサーフを作る

概要 Devin Cursor Rulesは、CursorおよびWindsurf統合開発環境（IDE）を、Devinと同様の高度なAI機能を実現するための設定ファイルやツールで拡張することを目的としたオープンソースプロジェクトです。このプロジェクトでは、Devinと同様の高度なAI機能を実現するための設定ファイルやツールを提供しています。

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

078K

VideoGrain: 動画のローカル編集用テキストプロンプトオープンソースプロジェクト

一般的な紹介 VideoGrainは、xAIチームによって開発され、GitHubでホストされているマルチグラニュラービデオ編集に焦点を当てたオープンソースプロジェクトです。このプロジェクトは論文「VideoGrain: Modulating Space-Tim...

1年前

078K

ワン・プロンプト・ワンストーリー：テキスト・プロンプトがキャラクターのアイデンティティと一貫したイメージを生み出す

Synthesis One-Prompt-One-Story（1Prompt1Story）は、1つのプロンプトから一貫した画像を生成できるように設計された革新的なテキストから画像への生成ツールである。ICLR 2025でTao Liuらによって発表された。

1年前

077.9K

CHRONOS: ニュースのタイムライン要約ツールでニュースの検索とタイムライン生成の効率を改善

一般的な紹介 CHRONOSはAlibaba NLPチームによって開発されたニュースタイムライン要約ツールです。CHRONOSはオープンドメインのタイムライン要約タスクを処理できるだけでなく、効率性とスケーラビリティの面でも優れています。

2年前

077.9K

健康アドバイスを提供するミニ・アシスタントのRAGベースの構築（パイロット・プロジェクト）

概論 LLM-RAG-Longevity-Coachは、Large Language Modelling (LLM)とRetrieval Augmented Generation (RAG)の技術に基づいたチャットボットで、ユーザーにパーソナライズされた健康と長寿のアドバイスを提供するように設計されている。このプロジェクトは、タイラー・バーレ...

1年前

077.9K

Chitu (Red Rabbit): 清華チームが発表した高性能大規模言語モデル推論フレームワーク

Chituは、清華大学のPACMANチームによって開発されたオープンソースの推論フレームワークで、「Red Rabbit」と呼ばれ、大規模な言語モデルを実行するために特別に設計されています。Chituは効率性、柔軟性、実用性に重点を置いており、企業が様々なデバイス上で大規模なモデルを迅速に展開することを可能にします。 Chituは様々なハードウェアをサポートしています。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

077.9K