AIオープンソースプロジェクト

合計1020記事

順番に並べる

エージェントS：人間のようにコンピュータを操作する知的体のためのオープンソース・フレームワーク

一般的な紹介エージェントSは、Simular AI社によって開発されたオープンソースのフレームワークであり、グラフィカル・ユーザー・インターフェース（GUI）を通じて人間のようにコンピュータを操作することができる。マルチモーダル大規模言語モデルと経験的学習技術を使用して、ウェブの閲覧、文書の編集、ソフトウェアの使用などのタスクを実行する。

1年前

093.6K

BabelDOC：PDF文書がバイリンガルのオープンソースツールに翻訳される

一般的な紹介 BabelDOCは、PDF文書をバイリンガル形式に翻訳するために設計されたオープンソースツールです。funstory-aiチームによって開発され、GitHubでホストされています。

10ヶ月前

0109.3K

Text2Voice：シリコンベースのフローAPIに基づく音声合成グラフィカルインターフェース

一般的な紹介 Text2Voiceは、シリコンベースのモビリティAPIに基づいた音声合成機能を提供するオープンソースツールで、クリーンなグラフィカル・ユーザー・インターフェース（GUI）が最大の特徴である。開発者のシェルドン・リーがGitHubで作成したもので、...

12ヶ月前

056.3K

FreeAI: PollinationsパッケージをベースにしたフリーのAIツール。

概要 FreeAIは、Pollinations.AI APIをベースとしたオープンソースのAIアプリケーションプラットフォームで、無料で無制限のAIチャットアシスタント、画像生成、音声合成サービスを提供している。このプロジェクトは、開発者のAzad-slによってG...

1年前

076.9K

最適化されたコード生成と表示のためのオープンWebUI

概論 Open WebUI Artifacts OverhaulはOpen WebUIをベースにしたフォークプロジェクトで、開発者のNick Tonjumによって開発された。AIが生成したコードを改善することに焦点を当てたオープンソースツールです。

AIニュース # AI Java オープンソースプロジェクト # AIローカライズチャットアプリケーション

1年前

073.9K

OpenAvatarChat：モジュール設計されたデジタル人間対話ツール

概論 OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタル人間対話ツールで、1台のPCで動作させることができます...

1年前

071.7K

uniOCR: クロスプラットフォームのオープンソーステキスト認識ツール

概論 uniOCRはmediar-aiチームによって開発されたオープンソースのテキスト認識ツールです。Rust言語に基づいており、macOS、Windows、Linuxシステムをサポートしています。画像からテキストを抽出することができます。

最新のAIリソース # AI Java オープンソースプロジェクト # OCR

1年前

079.8K

Serena: 意味検索とコード編集のためのフリーMCPツール

概要 Serenaは、Oraios AIチームによって開発され、GitHubでホストされているフリーでオープンソースのプログラミングツールです。コードベースで直接動作する強力なコードアシスタントで、開発者のコードの分析、編集、実行を支援します。

1年前

0186.4K

AudioX: 参照されたテキスト、画像、ビデオからオーディオと音楽を生成

概要 AudioXはZeyue TianらによるGitHub上のオープンソースプロジェクトである。AudioXはDiffusion Transf...

12ヶ月前

085.4K

EasyControl：ポートレートをジブリ風に変身させる無料ツール

概要 EasyControlはオープンソースプロジェクトであり、効率的で柔軟な画像生成制御を提供する拡散変換器（DiT）アーキテクチャに基づいています。その中でも、ジブリ・コントロールLoRAは特別な機能の一つで、たった100個のサブ...

1年前

054.7K

YOLOE: リアルタイムのビデオ検出と物体分割のためのオープンソースツール

YOLOEは清華大学ソフトウェア学院のマルチメディア・インテリジェンス・グループ（THU-MIG）が開発したオープンソースプロジェクトで、正式名称は「You Only Look Once Eye」。PyTorchフレームワークをベースにしており、YOLOシリーズの拡張機能に属している。

1年前

071.2K

複数の高度な音声合成サービスを統合したオープンソース運用プロジェクト

概要 Open-VoiceCanvasは、ItusiAIチームによって開発されたオープンソースの音声合成プラットフォームです。50以上の言語をサポートし、テキストを自然な音声に変換したり、音声をアップロードすることでパーソナライズされた音声をクローンすることができます。このプロジェクトはOpe...

1年前

058.3K

VideoMind：タイムスタンプによるビデオ位置決めコンテンツとQ&Aオープンソースプロジェクト

概論 VideoMindは、長い動画の推論、Q&A、要約生成に焦点を当てたオープンソースのマルチモーダルAIツールである。香港理工大学のYe Liuとシンガポール国立大学のShow Labのチームによって開発された。このツールは人間の動画理解を模倣している。

10ヶ月前

057.9K

SuperCoder: コマンドライン・ターミナル実行のためのインテリジェント・コード・アシスタント

一般的な紹介 SuperCoderはターミナルで動作するインテリジェントなツールで、プログラマーのために設計されています。AI技術を使って、ユーザーがコードを検索したり、プロジェクトの構造を見たり、ファイルを編集したり、バグを修正したりするのを手助けします。このプロジェクトはGitHubのhuytdによってオープンソース化されており、...

1年前

057.4K

Emigo：EmacsのAIを使った複雑なプログラミング作業のアシスタント

概論 EmigoはEmacs用に設計されたオープンソースのAIプログラミング・アシスタントで、MatthewZMDによってGitHub上で開発されています。大規模言語モデル(LLM)を統合することで、プログラマがEmacs上でコード解析を完了するのを支援します...

1年前

070.1K

SegAnyMo: ビデオから任意の移動物体を自動的にセグメント化するオープンソースツール

概要 SegAnyMoは、カリフォルニア大学バークレー校と北京大学の研究者チームによって開発されたオープンソースプロジェクトで、Nan Huangなどのメンバーが参加している。このツールはビデオ処理に重点を置いており、ビデオ内の任意の動く物体、例えば人、動物、...を自動的に識別し、セグメント化することができる。

1年前

063.9K

GenXD: 任意の3Dおよび4Dシーンのビデオを生成するためのオープンソースフレームワーク

一般的な紹介 GenXDは、シンガポール国立大学（NUS）とMicrosoftチームによって開発されたオープンソースプロジェクトです。GenXDは、任意の3Dおよび4Dシーンを生成することに重点を置き、データ不足やモデル設計の複雑さによる現実世界の3Dおよび4D生成の問題を解決する。このプロジェクトは、...

1年前

058.5K

ChatAnyone：写真から半身のデジタル人物ビデオを生成するツール

はじめに ChatAnyoneはHumanAIGCチームによって開発された革新的なプロジェクトです。人工知能技術を用いて、1枚の写真と音声入力から、上半身の動きを含むデジタル人物ビデオを生成する。このプロジェクトは、頭の動きを生成する階層的な動き拡散モデルに基づいています...

1年前

061.4K

Search-R1: 検索と推論のための大規模モデルを学習する強化学習

概要 Search-R1はPeterGriffinJinによってGitHub上で開発されたオープンソースプロジェクトであり、veRLフレームワーク上に構築されている。強化学習(RL)技術によって大規模言語モデル(LLM)を学習し、モデルが自律的に学習することを可能にします...

1年前

078.8K

DeepGemini: タスクのマルチモデルオーケストレーションとAPIインターフェースへのカプセル化

概論 DeepGeminiは、開発者Thomas Sligterによって作成されたオープンソースプロジェクトである。マルチモデルオーケストレーションをサポートするAI管理ツールであり、様々なAIモデルを柔軟に組み合わせることができるのが主な特徴である。

最新のAIリソース # AI Java オープンソースプロジェクト

10ヶ月前

050.6K

Optexity:人間の実演を見ながらウェブ操作を行うAIを訓練するオープンソースプロジェクト

概論 OptexityはGitHub上のオープンソースプロジェクトで、Optexityチームによって開発されている。このプロジェクトの核心は、人間のデモ・データを使って、コンピュータ・タスク、特にウェブ・ページ操作をこなすAIを訓練することである。このプロジェクトには3つのコードライブラリが含まれている。

1年前

061.3K

II-Researcher: 複雑な問題に答えるための深層探索と段階的推論

概要 II-Researcherは、Intelligent-Internetチームによって開発され、GitHubでホストされているオープンソースのAI研究ツールです。インテリジェントなウェブページやマルチステップサブ...

1年前

053.4K

Cua: AIエージェントがmacOS/Linuxサンドボックスで安全にアプリケーションを実行できるようにする

一般的な紹介 Cuaは "Computer-Use Agent "と呼ばれるオープンソースプロジェクトで、"クーア "と発音します。Apple Siliconデバイスのために設計され、高性能なmacOS OSを作成し、実行することができます。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

069.4K

論文からポッドキャストへ：学術論文を多人数会話のポッドキャストに変換する

一般的な紹介 Paper to Podcastは、学術研究論文を生き生きとした楽しいポッドキャストに変換することに特化したオープンソースのツールです。人工知能技術を使ってPDF形式の論文を3人の登場人物（ホスト、学習者、専門家）の対話に変え、複雑な...

1年前

048.3K

アヌビス：作業負荷の証明を通じてAIクローラーのクローリングを妨害する

一般的な紹介 Anubisは、AIクローラーからウェブサイトを保護するためにTecharoHQチームによって開発されたオープンソースツールです。HTTPリクエストにSHA256 Proof-of...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

071.5K

OmniSQL: 自然言語を高品質なSQLクエリに変換するモデル

概要 OmniSQLは、RUCKBReasoningチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。OmniSQLの主な機能は、ユーザーが入力した自然言語による質問を高品質なSQLクエリ文に変換することです。

1年前

069.2K

LatentSync: 音声から直接リップシンクされたビデオを生成するオープンソースツール

概要 LatentSyncはByteDanceによって開発され、GitHubでホストされているオープンソースツールです。動画内のキャラクターの唇の動きを音声を通して直接駆動し、口の形が音声と正確に一致するようにします。このプロジェクトは、Stable Di...

10ヶ月前

0139K

Morphik Core：マルチモーダルデータ処理のためのオープンソースRAGプラットフォーム

一般的な紹介 Morphik Coreはmorphik-orgチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。以前はDataBridge Coreと呼ばれていましたが、現在はMorphik Coreに改名されています。

1年前

064.4K

Workers AIに基づいて、無料で複数のファイルをMarkdown形式に変換する

概要 serverless-markdown-convertorは、Cloudflare WorkerとWorkers AIをベースとしたフリーでオープンソースのツールで、様々なファイルをMarkdow...

1年前

055.5K

EditorJumper：Cursor/Trae/Windsurf和JetBrains无缝切换工具

EditorJumper：Cursor/Trae/WindsurfとJetBrainsのシームレスな切り替えツール

概要 EditorJumperは、GitHubユーザーのwanniwaさんによって開発されたJetBrains IDE用のプラグインです。このプラグインを使うことで、開発者はJetBrains IDE（IntelliJ ...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

062.3K

バーチャル・ワイフ：Bステーションのライブ・ストリーミングと音声インタラクションをサポートする第二のデジタル・パーソン

VirtualWifeは、開発者yakami129によって作成されたオープンソースのバーチャルデジタルパーソンプロジェクトです。現在、インキュベーション段階にあり、ゴールは「魂」を持ったバーチャルキャラクターを作ることで、ユーザーは友達のように交流することができる。このプロジェクトはB Station Liveによってサポートされています。

1年前

054.4K

GPT-Crawler: ウェブサイトコンテンツを自動的にクロールして知識ベースドキュメントを生成

一般的な紹介 GPT-Crawlerは、BuilderIOチームによって開発され、GitHubでホストされているオープンソースツールです。1つ以上のウェブサイトのURLを入力することでページのコンテンツをクロールし、構造化ナレッジファイル（output.jso...

10ヶ月前

057.4K

MegaTTS3：中国語音声と英語音声を合成する軽量モデル

包括的な紹介 MegaTTS3は、ByteDanceが浙江大学と共同で開発したオープンソースの音声合成ツールで、高品質な中国語と英語の音声を生成することに重点を置いています。MegaTTS3のコアモデルは、わずか0.45Bパラメータで、軽量かつ効率的です。このプロジェクトは ...

1年前

068.4K

KBLaM：大規模モデルに外部知識を埋め込むためのオープンソース拡張ツール

KBLaMはマイクロソフトによって開発されたオープンソースプロジェクトで、正式名称は「知識ベース拡張言語モデル」（Knowledge Base Augmented Language Model）である。これは、外部の知識をベクトルに変換し、大規模なモデルに埋め込むことで、...

1年前

061.7K

LangGraph CodeAct：複雑なタスクを解決する知能を支援するコード生成

概要 LangGraph CodeActはLangChain AIチームによってGitHubでオープンソース化されたフレームワークで、CodeActアーキテクチャに基づいています（詳細は論文arXiv:2402.01030を参照）。CodeActは...

1年前

070.3K

BrowserTools MCP: ブラウザの動作をリアルタイムで監視するMCPサービス

概要 BrowserTools MCPは、AgentDeskAIチームによって開発されたオープンソースプロジェクトです。AIがChromeエクステンションとNode.jsサービスを通じて、ログ、ネットワークリクエスト、ブラウザアクティビティをリアルタイムで監視することを可能にします。

1年前

084.9K

AgentLaboratory: 知的エージェントによる科学研究の全プロセスを完了するオープンソースツール

一般的な紹介 AgentLaboratoryはGitHubでホストされているオープンソースツールで、Samuel Schmidgallによって開発されました。大規模言語モデル(LLM)によって駆動されるインテリジェントエージェントを使用し、研究者の科学的...

1年前

059K

キロ・コード：クリーンなユーザー・エクスペリエンスを備えたルー・コードのブランチ

一般的な紹介キロコードは、Visual Studio Code（略してVS Code）のオープンソース拡張プラグインです。人工知能技術を使って、ユーザーがより効率的にコードを書けるようにする。このプロジェクトはKilo-Orgチームによって開発された。

1年前

0155.8K

G-Search-MCP: 無料Google検索用MCPサーバー

一般的な紹介 G-Search-MCPはGitHubでホストされているオープンソースのGoogle検索ツールで、開発者のjae-jaeがgoogle-searchをベースに修正したものです。このツールはMCP (Model Context...) を渡します。

1年前

063.4K

AgentIQ: AIインテリジェンスの柔軟な接続と管理のためのオープンソースツール

概要 AgentIQは、開発者がAIインテリジェンスを効率的に接続・管理できるように設計されたNVIDIAのオープンソースツールです。異なるフレームワークのインテリジェンスがシームレスに連携し、企業データとツールを接続し、関数を呼び出すようなワークフローを構築することを可能にします。このツールの最大の特徴は...

1年前

054.6K

MIDI-3D: 1枚の画像からマルチオブジェクトの3Dシーンを高速生成するオープンソースツール

一般的な紹介 MIDI-3DはVAST-AI-Researchチームによって開発されたオープンソースプロジェクトで、開発者、研究者、クリエイターのために1つの画像から複数のオブジェクトを含む3Dシーンを素早く生成します。このツールはマルチインスタンス拡散モデリング技術に基づいています。

1年前

061K

TripoSF：高解像度3Dモデルを迅速に生成する実用的なツール

概論 TripoSFはVAST-AI-Researchチームによって構築されたオープンソースプロジェクトで、特に1枚の画像から高解像度の3Dモデルを素早く生成するように設計されています。SparseFlexと呼ばれる技術を使用しており、処理効率が高く、一般的な...

1年前

056.7K

TripoSG: 1枚の画像から高解像度の3Dモデリングデジタル資産を生成

概論 TripoSGはVAST AI研究チームによって開発されたオープンソースプロジェクトで、1枚の画像から高品質の3Dモデルを生成する。このプロジェクトでは、大規模な整流器フローコンバーター技術を用い、ハイブリッド教師あり学習と高品質なデータセットを組み合わせることで、生成された3Dモデルに...

1年前

062.9K

MoshiVis: リアルタイムの音声対話と画像理解のためのオープンソースモデル

一般的な紹介 MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi speech-to-text model (7Bパラメータ)をベースにしており、約2億600万個の新しい適応パラメータと凍結されたPal...

1年前

056.1K

MiniMind：ゼロから2時間のトレーニング 26MパラメータGPTオープンソースツール

一般的な紹介 MiniMindは、開発者jingyaogongによって作成されたオープンソースプロジェクトである。MiniMindの主な特長は、1つのNVIDIA製CPUで2時間...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

082.8K

WritingBench：大規模モデルのライティング能力をテストするベンチマーク評価ツール

概要 WritingBenchはX-PLUGチームによって開発され、GitHubでホストされているオープンソースプロジェクトである。大規模なモデルのライティング能力をテストするために設計されたツールで、1239の実世界のライティングタスクを提供する。これらのタスクは...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

062.9K

Free-Search: リアルタイムのグーグル検索結果に無料でアクセスできるAPIツール

概要 Free-SearchはHanzla Javaidによって開発され、GitHubでホストされているオープンソースのAPIツールである。主な機能は、カスタム検索エンジンを通してリアルタイムのGoogle検索結果を提供し、ウェブコンテンツをクロールして結果を返すことである。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

064.7K

AI-ClothingTryOn：ジェミニベースのバーチャル試着ツール

概論 AI-ClothingTryOnは、開発者のspeedTDによって作成され、GitHubでホストされているPythonベースのオープンソースデスクトップアプリケーションです。このアプリケーションは、Google Geminiの人工知能技術を使用しています。

1年前

059.8K

OpenDeepSearch: 知的推論をサポートするオープンソース検索ツール

概要 OpenDeepSearchは、sentient-agiチームによって開発されたオープンソースの検索ツールです。大規模言語モデリング(LLM)と知的推論エージェントを組み合わせ、ユーザがウェブページから情報を検索し、簡単な方法で正確な答えを得ることを可能にします。この ...

1年前

057.9K

Vibe Draw: 手描きスケッチを3Dモデルに変換するクリエイティブツール

概要 Vibe Drawは、Martin Sitによって開発されたオープンソースプロジェクトで、手描きのスケッチを美しい3Dモデルに変換することができます。このツールの目的はシンプルで、高度な芸術的スキルやリハーサルがなくても、誰でも簡単に3Dモデリングができるようにすることです。

1年前

056.4K

OAK: インテリジェント・ボディ・アプリケーションを視覚的に構築するためのオープンソース・プロジェクト

概論 OAK（Open Agent Kit）は、開発者がAIインテリジェンスを迅速に構築、カスタマイズ、デプロイするためのオープンソースツールです。OpenAI、Google、Anthropic...などの大規模言語モデル（LLM）を接続することができます。

1年前

059K

LangGraph CUA：コンピュータ操作を制御するLangGraphベースのAIインテリジェンス

LangGraph CUAはLangChainチームによって開発されたオープンソースプロジェクトである。LangGraphフレームワークをベースにしており、開発者はPythonを使ってコンピュータを直接操作できるAIインテリジェンスを構築することができる。このツールのコアは...

1年前

053.5K

n8n-mcp-server: n8nワークフローと対話するためのMCPサービスツール

一般的な紹介 n8n-mcp-serverはGitHubでホストされているオープンソースプロジェクトで、Leonard Sellemによって開発されています。MCP (Model Context Protocol) サービスツールであり、...

1年前

071.4K

FlowGram.AI：ノードワークフローを迅速に作成するオープンソースエンジン

包括的な紹介 Flowgram.aiは、ByteDanceによって開発されたオープンソースのプロセス構築エンジンです。ノード編集をベースとしており、開発者がワークフローを素早く作成できるよう、固定レイアウトとフリーリンクの2つのモードをサポートしている。プロジェクトはTypeScriptで書かれている。

1年前

0104.9K

Cursor Auto Register：自动创建并管理Cursor账号的开源工具

Cursor Auto Register: 自動的にCursorアカウントを作成・管理するオープンソースツール

概要 Cursor Auto RegisterはGitHubでホストされているオープンソースプロジェクトです。開発者のddCat-mainによって作成され、ユーザーがCursor AIコードエディターのアカウントを自動的に登録・管理できるようにします。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

075.4K

Qwen2.5-Omni：マルチモーダル入力とリアルタイム音声対話のためのエンド計測モデル

包括的な紹介 Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、リアルタイムでテキストや自然な音声による応答を生成することができる。このモデルは2025年の3 ...

1年前

069K

IndexTTS：中英ミキシング対応音声合成ツール

一般的な紹介 IndexTTSはGitHubでホストされているオープンソースの音声合成(TTS)ツールで、index-tsチームによって開発されています。XTTSとTortoiseの技術をベースに、モジュール設計を改良することで、効率的かつ...

1年前

0122.2K

包括的な紹介 Dify-Plusは、Difyオープンソースプロジェクトの二次開発をベースにしたAIアプリケーション開発プラットフォームです。Dify-Plusは、Difyをベースに新しい管理センターを追加し、エンタープライズシナリオ向けに機能を最適化しています。このプロジェクトは、当初は企業の内部利用を目的としていましたが、後にコミュニティにも同様のニーズがあることがわかり、Dify-Plusを開発しました。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

068.3K

Rankify: 情報検索と並び替えをサポートするPythonツールキット

一般的な紹介 Rankifyは、オーストリアのインスブルック大学のデータサイエンスグループによって開発されたオープンソースのPythonツールキットである。情報検索、並べ替え、検索拡張生成（RAG）に焦点を当て、統一されたフレームワークを提供している。このツールキットには40の検索済みベンチマークが組み込まれている。

1年前

055.1K

CFG-Zero-star：画像とビデオの生成品質を向上させるオープンソースツール

包括的な紹介 CFG-Zero-starは、Weichen Fanと南洋理工大学のS-Labチームによって開発されたオープンソースプロジェクトです。誘導戦略とゼロ初期値を最適化することで、ストリーム・マッチング・モデルにおけるクラシファイア・フリー・ガイダンス（CFG）技術を改善することに焦点を当てています。

1年前

068.3K

Bonsai: エッジデバイスでの操作に適した3値重み付き言語モデル

一般的な紹介 Bonsaiはdeepgrove-aiによって開発されたオープンソースの言語モデルで、パラメータサイズは5億、3項重みを使用しています。LlamaアーキテクチャとMistral分類器をベースにしています。

1年前

052.5K

Motia: コードでインテリジェンスを迅速に構築するための開発フレームワーク

一般的な紹介 Motiaは、GitHubでホストされ、MotiaDevチームによって開発された、ソフトウェアエンジニアのためのオープンソースのAIエージェントフレームワークです。開発者は使い慣れたプログラミング言語（例：Python、TypeScript、Rub...

1年前

075.5K

DiffSynth-Engine：オープンソースエンジン、FLUXの低既存デプロイメント用、Wan 2.1

一般的な紹介 DiffSynth-EngineはModelScopeによって立ち上げられたオープンソースプロジェクトで、GitHubでホストされています。拡散モデリング技術に基づいており、画像や動画を効率的に生成することに重点を置き、開発者が本番環境でAIモデルを展開するのに適しています...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

069.3K

RF-DETR：リアルタイム視覚物体検出のためのオープンソースモデル

包括的な紹介 RF-DETRはRoboflowチームによって開発されたオープンソースの物体検出モデルです。RF-DETRはTransformerアーキテクチャをベースにしており、リアルタイム性を特徴としています。このモデルはMicrosoft COCOデータセット上で初めて60APs以上のリアルタイム性を達成した。

1年前

093.4K

Aana SDK: マルチモーダルAIモデルを簡単に導入できるオープンソースツール

概論 Aana SDKはMobius Labsが開発したオープンソースのフレームワークで、マラヤーラム語のആന（象）にちなんで名付けられた。開発者がマルチモーダルAIモデルを迅速にデプロイ、管理できるように支援し、テキスト、画像、音声、動画、その他のデータの処理をサポートします。

1年前

051.3K

PiT：画像パーツから完全な画像をつなぎ合わせるツール（未開封）

概論 PiT（Piece it Together）はGitHubでホストされているオープンソースツールで、テルアビブ大学のエラッド・リチャードソンなどの研究者によって開発された。羽のような断片化された画像パーツを入力することができる。

1年前

054K

エージェントTARS：視覚とコマンドを使ってコンピュータを操作するオープンソースのインテリジェンス

総合紹介エージェントTARSは、ByteDance社がオープンソース化したマルチモーダルAIインテリジェンスで、ウェブコンテンツを視覚的に理解し、コマンドラインとファイルシステム操作を組み合わせることで、ユーザーが複雑なコンピュータタスクを完了するのを支援するコア機能を備えています。従来のツールのような手動操作を必要とせず、自己...

1年前

072.4K

Qlib：マイクロソフトが開発したAI定量投資調査ツール

Qlibはマイクロソフトが開発したオープンソースのプラットフォームであり、AI技術を活用してクオンツ投資のリサーチを支援することに主眼を置いている。Qlibは、最も基本的なデータ処理からスタートし、ユーザーが投資アイデアを探求し、使える戦略に変えることをサポートする。このプラットフォームはシンプルで使いやすく、機械学習を使って投資リサーチを改善したい人に適している。

1年前

086.9K

小説を自動的にクロールし、多文字のオーディオブックを生成するツール

概論 Auto-Audio-BookはGitHubでホストされているオープンソースプロジェクトです。ウェブサイトから小説の内容を自動的にクロールし、複数のキャラクターの声を持つオーディオブックに変換します。開発者 zqq-nuli Python 3.1...

1年前

065.4K

UniAPI：大規模モデルのAPI転送をサーバーレスで統合管理

包括的な紹介 UniAPIはOpenAIプロトコルと互換性のあるAPIフォワーダーであり、その中核機能はOpenAI、Azure OpenAI、Clau...といった複数のビッグモデルサービスプロバイダーのAPIを管理することである。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

058.7K

Oliva：音声制御のマルチインテリジェンス製品検索アシスタント

概要 OlivaはDeluxerがGitHubで開発したオープンソースのマルチインテリジェンスアシスタントツールです。複数のAIインテリジェンスの連携により、Qdrantデータベースの商品情報検索を支援します。主な特徴は、音声操作に対応していることです...

1年前

066.9K

Playwright MCP：マイクロソフトのブラウザ自動化MCPサービス

一般的な紹介 Playwright MCPはMicrosoftによって開発され、GitHubでホストされているオープンソースツールである。モデルコンテキストプロトコル（MCP）プロトコルを介して、人工知能モデルがブラウザを直接制御できるようにする。

1年前

0102.2K

PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツール

一般的な紹介 PDF Craftは、書籍のPDFをスキャンしてMarkdown形式に変換するために設計されたオープンソースツールです。このツールはoomol-labによって開発され、電子書籍を整理したいユーザのためにGitHubでホストされています。このツールは、以下の方法で動作します。

1年前

080.6K

InfiniteYou：顔の特徴を保持する写真生成・編集ツール

概要 InfiniteYouは、ByteDance Intelligent Creationチームによって開発されたオープンソースプロジェクトです。拡散トランスフォーマー（DiTs）技術に基づき、FLUX.1-devモデルを使用しています。主な機能は、ユーザーが写真をアップロードし、テキストの説明を入力することで、写真を生成することです。

1年前

060.2K

Grok-Mirror：収益性の高いGrokミラーサイトのワンクリック展開

包括的な紹介 Grok-Mirrorは、操作可能なGrokミラーステーションの構築に基づいた、サーバーレスで迅速なデプロイが可能なGrok3国内ミラーステーションです。Docker経由でワンクリックでローカルのGrokキオスクをデプロイすることができます。GrokはxAIの人工知能です。

1年前

095.5K

LHM：1枚の画像から動き対応の3D人体モデルを生成する

包括的な紹介 LHM（Large Animatable Human Reconstruction Model）は、aigc3dチームによって開発されたオープンソースプロジェクトで、1枚の画像からアクションをサポートする3D人体モデルを素早く生成します。主な特徴 ...

1年前

065.4K

セカンド・ミー：個人的な記憶と習慣を持つ、現地で訓練されたAIドッペルゲンガー

Second MeはMindverseチームによって開発されたオープンソースプロジェクトで、あなたのコンピューター上に「デジタル・ドッペルゲンガー」のような働きをするAIを作り、あなたの言葉や記憶を通してあなたの話し方や癖を学習し、あなたのことを理解する賢い人間になることができる。

1年前

069.4K

openapi-mcp-server: AIがオープンAPIを使ってMCPサービスを直接呼び出せるようにする。

概論 openapi-mcp-serverは、OpenAPI v3.1に準拠したAPIをAIで使用可能なリソースに変換するために設計されたオープンソースツールです。janwilmakeによってメンテナンスされており、Model Contex...

1年前

064.4K

MCPサービスのセキュリティリスクを検出するオープンソースツール

一般的な紹介 mcp-is-dangerousは、Shaojie JiangによってGitHub上で開発されたオープンソースツールです。シンプルなPythonコードを使用し、ユーザーがMCP（Model Context ...

1年前

054.4K

StarVector: 画像とテキストからSVGベクターグラフィックスを生成するための基本モデル

一般的な紹介 StarVectorは、画像やテキストをScalable Vector Graphics（SVG）に変換するために、Juan A. Rodriguezなどの開発者によって作成されたオープンソースプロジェクトです。このツールは、画像コンテンツとテキストを理解できるように視覚言語モデルを使用しています...

1年前

063.2K

CortexON：複雑なタスクの自動化をサポートするオープンソースのマルチエージェントAIツール

概論 CortexONは、GitHub（https://github.com/TheAgenticAI/CortexOn）でホストされているオープンソースのマルチエージェントAIシステムです。TheAgenti...によって開発されました。

1年前

055.6K

MarkPDFDown: マルチモーダルモデルに基づくPDFからMarkdownへの変換

概要 MarkPDFDownはオープンソースのツールです。Multimodal Big Language Modelを使ってPDFファイルをMarkdown形式に変換します。開発者はGitHubユーザーのjorbenです。このツールの目的はシンプルです：PDFドキュメントを...

1年前

060.8K

Easy Dataset: 大規模モデルの微調整データセットを作成するシンプルなツール

包括的な紹介 Easy Datasetは、大規模モデル（LLM）を微調整するために特別に設計されたオープンソースツールで、GitHubでホストされています。ファイルのアップロード、コンテンツの自動セグメント化、質問と回答の生成、そして最終的に適切なLLMの出力を可能にする、使いやすいインターフェースを提供します。

1年前

067.1K

サーバーレス高速デプロイ Grok3国内ミラーサイト

概要 Grok Playgroundは、"Technical Crawling Shrimp "のチームによって開発されたオープンソースプロジェクトである。このツールの主な機能は、ユーザーがGrok3の国内ミラーサイトを10秒でデプロイできるようにすることです。 Grok3はxAIによって導入された人工知能モデルで、...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

077K

Skywork-R1V: グラフィカルハイブリッドマルチモーダル推論モデルオープンソース by Kunlun Wanwen

一般的な紹介 Skywork-R1Vは、SkyworkAI（Kunlun Wanwei）チームによって開発され、GitHubで公開されているオープンソースのマルチモーダル推論モデルです。画像とテキストを同時に処理することができ、多段階の論理的推論を実行し、特に複雑な画像問題の分析に優れています。この...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

053.1K

AIロゴ：AIがカスタマイズされたブランドロゴを素早く生成

概論 AI LogoはオープンソースのAIアプリケーション・プロジェクトであり、人工知能によってパーソナライズされたブランドロゴを素早く生成することを目的としている。Stable DiffusionやDeepAIといった強力なAI技術を組み合わせ、ユーザーが簡単なブランドロゴを入力できるようにしています。

1年前

052.2K

Docs: オープンソースの共同ノート・文書管理ツール

概要 Docs は、suitenumerique チームによって開発されたオープンソースの共同ノート作成および文書管理プラットフォームです。DjangoとReactの技術を使って構築されており、ユーザーがメモを取ったり、ドキュメントを管理したりするのに役立つ使いやすいツールを提供することを目標としています。

1年前

056.2K

SmartRead: PDF技術文書に自動的に注釈を付け、関連する引用を提供

包括的な紹介 SmartReadは、技術文書向けに設計されたAIベースのオープンソースツールです。PDFファイルを自動的に分析し、重要な用語、タイトル、核となるアイデアなどの重要なコンテンツをマークし、ユーザーが複雑な文書を素早く理解できるようにします。同時に、主な内容を提供し、文書化することもできます。

1年前

063.1K

Hunyuan3D-2: テンセントのオープンソース高解像度3Dモデル生成ツール

概論 Hunyuan3D-2はTencentによって開発されたオープンソースプロジェクトで、テキストや画像から高解像度の3Dモデルを生成する。形状生成モデル(Hunyuan3D-DiT)とテクスチャ生成モデル(Hunyuan3D...)の2つのコアコンポーネントで構成されています。

1年前

093K

LangManus: マルチインテリジェンス・コラボレーションをサポートするオープンソースのAI自動化フレームワーク

概要 LangManusは、GitHubでホストされているオープンソースのAI自動化フレームワークです。元同僚のグループが余暇を利用して開発したもので、言語モデルとウェブ検索、データクローリング、コード実行のための専門ツールを組み合わせることを目的とした学術的なプロジェクトである。

1年前

056.3K

カーソルを使ってFigmaのデザインを読み込み、修正するためのMCPサービス。

概要 Cursor Talk to Figma MCPは、AIプログラミング・ツールCursorとデザイン・ソフトウェアFigmaを接続するオープンソース・プロジェクトです。

1年前

064.4K

アイドル・フィッシュの販売員が24時間体制で自動対応するAIカスタマーサービスボット

包括的な紹介 XianyuAutoAgentは、GitHubで開発者shaxiuによってオープンソース化されたIdlefishプラットフォーム用に設計されたインテリジェントな顧客サービスロボットシステムです。AI技術を利用し、7×24時間の自動勤務を実現し、アイドルフィッシュ販売者の返信を支援する。

1年前

067.1K

Seed-VC：少ないサンプル数で音声と歌のリアルタイム変換に対応

概要 Seed-VCはPlachtaaによって開発されたGitHub上のオープンソースプロジェクトです。Seed-VCは、1秒から30秒のリファレンスオーディオを使用することができます。このプロジェクトは、リアルタイムの音声変換、ディレイ変換、音声合成をサポートしています。

1年前

0164.9K

PilottAI: エンタープライズグレードのマルチインテリジェンス・アプリケーションを構築するオープンソース・プロジェクト

一般的な紹介 PilottAIはGitHubでホストされているオープンソースのPythonフレームワークで、開発者のanuj0456によって作成されました。PilottAIは、エンタープライズクラスのマルチインテリジェントな身体システムの構築を支援することに重点を置いており、大規模言語モデル（LLM）の統合をサポートし、あらゆる...

1年前

048.1K

HumanOmni：人間のビデオ感情や行動を分析するためのマルチモーダル・マクロモデル

一般的な紹介 HumanOmniは、HumanMLLMチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルビッグモデルです。HumanOmniは人間の動画を分析することに特化しており、画像と音声の両方を処理することで、感情や行動、対話の内容を理解するのに役立ちます。このプロジェクトでは2...

1年前

058.3K

TxAgent：医師が薬効や治療法を分析するためのAIツール

包括的な紹介 TxAgentは、ハーバード大学の医学・科学人工知能チーム（MIMS）によって開発されたオープンソースのAIツールで、医師が薬物相互作用を分析し、パーソナライズされた治療計画を立てるのを支援する。TxAgentは、多段階の推論と生物医学的知識のリアルタイム検索により、患者固有の状況を組み合わせ...

1年前

065.3K

OpenSearch-SQL: 自然言語をSQLクエリに変換するオープンソースツール

包括的な紹介 OpenSearch-SQLはオープンソースプロジェクトで、ユーザーの自然言語記述をSQLクエリ文に変換できる強力なText-to-SQLツールです。このプロジェクトはO...

1年前

060.5K

SmolDocling：少量で効率的な文書処理のための視覚言語モデル

包括的な紹介 SmolDoclingは、ds4sdチームがIBMと共同で開発したビジュアル言語モデル（VLM）で、SmolVLM-256Mをベースに構築され、Hugging Faceプラットフォームでホストされています。サイズは小さく、わずか ...

1年前

051.7K

Moffee：マークダウンをPPTスライドショーに変換する

一般的な紹介 Moffeeは、Markdownファイルを素早く、簡単かつ効率的にプロフェッショナルなスライドショーに変換するオープンソースツールです。ユーザはMarkdownコンテンツを書くだけで、Moffeeはレイアウト、ページ分割、スタイルを自動的に処理し、手作業でタイプセットする必要がなくなります。

1年前

076.5K