AIオープンソースプロジェクト

合計1020記事

順番に並べる

目を通すブックマーク

カーソルを使ってFigmaのデザインを読み込み、修正するためのMCPサービス。

概要 Cursor Talk to Figma MCPは、AIプログラミング・ツールCursorとデザイン・ソフトウェアFigmaを接続するオープンソース・プロジェクトです。

1年前

095K

RoomGPT：部屋の写真をアップロードし、AIを使ってリデザインする！

概要 RoomGPTは、GitHubユーザーのNutlopeによって開発されたオープンソースプロジェクトで、ユーザーが部屋の写真をアップロードすると、人工知能技術を使ってその部屋のリデザインバージョンを生成することができる。このプロジェクトは、高額なデザイナー費用を支払うことなく、プロ級のインテリアデザインを利用できるようにすることを目的としている。

2年前

095K

LangBot：开源大模型即时通信机器人，支持多微信、QQ、飞书等多平台部署AI机器人

LangBot：オープンソースの大型モデルインスタントメッセージングロボット、複数のWeChat、QQ、Flybookと他のマルチプラットフォームのAIロボットの展開をサポートしています。

LangBotは、複数のメッセージングプラットフォームと大型モデルをサポートする大型モデルベースのインスタントメッセージングボットプラットフォームです。このプラットフォームはQQ、WeChat（企業WeChat、個人WeChat）、Flybook、Discord、OneBotなどのメッセージングプラットフォームに適応し、Open...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

095K

FinRobot：金融データ分析の効率化と投資リサーチを向上させる知的ボディ

包括的な紹介 FinRobotはAI4Finance Foundationによって開発されたオープンソースのAIインテリジェンス・プラットフォームであり、金融分析用に設計されている。従来の言語モデルをカバーするだけでなく、様々なAI技術を取り入れ、金融業界に包括的なソリューションを提供することを目指しています。

1年前

095K

Markdownify MCP Server：基于MCP协议将各种内容转换为Markdown格式

Markdownify MCP Server: MCPプロトコルに基づき、様々なコンテンツをMarkdownフォーマットに変換します。

一般的な紹介 Markdownify MCPサーバーはモデルコンテキストプロトコルに基づいたオープンソースツールで、開発者のZach CaceresによってGitHubでホストされています ...

1年前

095K

Kotaemon: 簡単に導入できるオープンソースのマルチモーダル文書クイズツール

一般的な紹介 Kotaemonは、RAG(Retrieval Augmented Generation)に基づいたQ&A機能をエンドユーザーや開発者に提供するために設計されたオープンソースのドキュメントQ&Aツールです。このプロジェクトはCinnamonによって開発され、様々なLLM APIプロバイダー（例えばOpenA...

2年前

094.7K

Aide：VSCodeの開発体験を向上させるAIヘルパー拡張機能、コードのワンクリック注釈、変換、UI生成

概要 AIDE（AI-assisted Development Extension）は、VSCodeのための強力なAI支援開発拡張機能で、ユニークで有用なAIプログラミング支援を提供することに重点を置いています。GitHu...とは異なります。

2年前

094.6K

AnyText：多言語の画像テキストを生成・編集し、画像内に複数行の中国語を生成することができます。

総合紹介 AnyTextは、拡散モデルに基づいて開発された画期的な多言語ビジュアルテキスト生成・編集ツールです。画像の中に自然で高品質な多言語テキストを生成し、柔軟なテキスト編集機能をサポートします。研究チームによって開発され、ICLR 2024で発表されました。

2年前

094.6K

TxAgent：医師が薬効や治療法を分析するためのAIツール

包括的な紹介 TxAgentは、ハーバード大学の医学・科学人工知能チーム（MIMS）によって開発されたオープンソースのAIツールで、医師が薬物相互作用を分析し、パーソナライズされた治療計画を立てるのを支援する。TxAgentは、多段階の推論と生物医学的知識のリアルタイム検索により、患者固有の状況を組み合わせ...

1年前

094.6K

フライング・パドル PP-TableMagic: 複雑なテーブルの構造化情報抽出

表認識の目的は、画像中の表を解析し、表の構造やセルの位置を正確に特定し、構造化された表形式（HTMLなど）に変換することである。今日の情報化時代において、大量の重要な表データがまだ構造化されていない状態で存在している（例えば、統計表の写真をスキャンした文書など）。

1年前

094.6K

PandasAI: 自然言語によるデータクエリとグラフ生成のためのデータ分析対話プラットフォーム

はじめに PandasAI は Python ベースのオープンソースプラットフォームであり、自然言語処理技術によってデータ分析プロセスを簡素化するように設計されています。データベース（SQL、CSV、pandas、polars、mongodb、n...など）との対話を可能にします。

2年前

094.5K

Fish Agent：端到端AI语音克隆助手，实时语音对话助理，Fish Speech衍生项目

フィッシュ・エージェント：エンド・ツー・エンドのAIボイス・クローン・アシスタント、リアルタイム音声対話アシスタント、フィッシュ・スピーチ・スピンオフ・プロジェクト

包括的な紹介フィッシュ・スピーチ派生プロジェクトフィッシュ・エージェントは、V0.1 3Bモデル・アーキテクチャに基づいて開発された、革命的なエンド・ツー・エンドのAIスピーチ・クローン・システムです。完全なエンド・ツー・エンドの音声クローン処理システムとして、その最大の特徴は、革新的なスピーチレス...

2年前

094.4K

Eko: デスクトップとブラウザの自動化のための自然言語によるインテリジェント・ボディ・ワークフローの構築

概論 Eko は、自然言語記述によって効率的なインテリジェントエージェントワークフローを構築するために設計された、プロダクショングレードの JavaScript フレームワークです。開発者が深いプログラミングをすることなく、AI 技術を使って日常的なタスクを自動化できるよう設計されています。

1年前

094.2K

R1-V: 視覚言語モデルの汎化能力のための低コスト強化学習

包括的な紹介 R1-Vは、低コストの強化学習（RL）を通して視覚言語モデリング（VLM）のブレークスルーを達成することを目的としたオープンソースプロジェクトです。このプロジェクトは、VLMが一般的な計数能力を学習する動機付けとなる、検証可能な報酬メカニズムを利用している。驚くべきことに、R1-Vの2B ...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

094.2K

HyperChat：MCPインテリジェンスを使用して複雑なタスクを実行するAI対話クライアント

概要 HyperChatは、BigSweetPotatoStudioによって開発され、GitHubでホストされているオープンソースのチャットクライアントです。OpenAI、Cla...などのいくつかの大規模な言語モデル（LLM）のAPIを統合することにより、BigSweetPotatoStudio言語モデルの包括的な概要を提供するように設計されています。

1年前

094.1K

AutoAgent：自然言語によるAIインテリジェンスの迅速な作成と展開のためのフレームワーク

概要 AutoAgentは、香港大学データインテリジェンス研究所（HKUDS）によって開発され、GitHubでホストされているオープンソースのAIインテリジェンス・フレームワークである。ユーザーは、プログラミング・ベースなしで、純粋に自然言語で要件を記述することにより、カスタマイズされたAIインテリジェンスを迅速に作成し、展開することができる。

1年前

094.1K

uni-api：轻量大模型API转换为OpenAI接口，YAML文件配置API渠道

uni-api: 軽量なビッグモデルAPIをOpenAIインターフェイスに変換。

包括的な導入フロントエンドなし、純粋な設定ファイルの設定APIチャネル。ただ、自分のAPIステーションを実行することができますファイルを書いて、ドキュメントには、詳細な設定ガイドを持っている、白フレンドリー。 uni-apiは、統一されたAPIプロジェクトを可能にする大規模なモデルの統一管理です。

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

094.1K

openapi-mcp-server: AIがオープンAPIを使ってMCPサービスを直接呼び出せるようにする。

概論 openapi-mcp-serverは、OpenAPI v3.1に準拠したAPIをAIで使用可能なリソースに変換するために設計されたオープンソースツールです。janwilmakeによってメンテナンスされており、Model Contex...

1年前

094K

VideoRAG：マルチモーダル検索と知識グラフ構築をサポートする超長尺動画理解のためのRAGフレームワーク

包括的な紹介 VideoRAGは、非常に長い文脈動画を処理し理解するために設計された、検索機能を強化した生成フレームワークです。このツールは、グラフ駆動のテキスト知識ベースと階層的なマルチモーダルコンテキストエンコーディングを組み合わせ、1つのNVIDIA RTX 3090 GPUで効率的に処理します...

1年前

094K

Perplexica：1比1复刻 Perplexity AI 功能和界面的开源AI搜索引擎

Perplexica: Perplexity AIの機能とインターフェイスを1対1で再現したオープンソースのAI検索エンジン

概要 Perplexicaは、インターネットを深く掘り下げた答えを提供するために設計されたオープンソースのAI駆動型検索エンジンです。類似検索や埋め込み技術などの高度な機械学習アルゴリズムを使用し、検索結果を最適化し、引用元とともに明確な回答を提供します。

2年前

093.9K

InfiniteYou：顔の特徴を保持する写真生成・編集ツール

概要 InfiniteYouは、ByteDance Intelligent Creationチームによって開発されたオープンソースプロジェクトです。拡散トランスフォーマー（DiTs）技術に基づき、FLUX.1-devモデルを使用しています。主な機能は、ユーザーが写真をアップロードし、テキストの説明を入力することで、写真を生成することです。

1年前

093.8K

Genesis: 実物理ベースの4Dダイナミックワールドシミュレーションのためのオープンソース生成物理エンジン

一般的な紹介 Genesisは、汎用ロボティクスと具現化AI学習のために設計された生成物理ワールドです。Genesisは、様々な材料や物理現象のシミュレーションをサポートする統一されたシミュレーション・プラットフォームを提供します。

2年前

093.8K

リアルタイム音声テキスト化のためのオープンソースツール

概要 realtime-transcription-fastrtcは、音声をリアルタイムでテキストに変換することに特化したオープンソースプロジェクトです。FastRTC技術を使って低遅延の音声ストリームを処理し、ローカルのWhisperモデルと組み合わせて効率的なテキスト変換を実現します。

1年前

093.6K

LMスピード：大規模モデルAPIのパフォーマンスを迅速にテストする

概要 LM Speed は、AI 開発者向けに設計されたツールであり、lmspeed.net でオンラインサービスとしても提供されている。主な機能は、言語モデル API のパフォーマンスをテスト・分析し、スピードのボトルネックを素早く特定し、呼び出し戦略を最適化することである。これは...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

093.5K

OpenAOE: 大規模モデルグループチャットフレームワーク: 複数の大規模言語モデルと同時にチャットする

包括的な紹介 OpenAOEは、オープンソースの大規模モデルグループチャットフレームワークです。OpenAOEを使えば、ユーザーは複数の大規模言語モデル（LLM）と同時に会話し、並列出力を得ることができます。このフレームワークは...

1年前

093.4K

Morphik Core：マルチモーダルデータ処理のためのオープンソースRAGプラットフォーム

一般的な紹介 Morphik Coreはmorphik-orgチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。以前はDataBridge Coreと呼ばれていましたが、現在はMorphik Coreに改名されています。

1年前

093.4K

MegaParse：解析各类型文档为LLM可用数据，完整保留文档中的表格、图片等所有信息

MegaParse：各タイプのドキュメントをLLMで利用可能なデータに解析し、表や写真などドキュメント内のすべての情報をそのまま保存する。

概論 MegaParseは、Large Language Model (LLM)のデータ処理を最適化するために設計された、パワフルで多機能な文書解析ツールです。MegaParseは、テキスト、PDF、PowerPointプレゼンテーション、Word文書など、どのような文書を扱う場合でも...

2年前

093.3K

AI Chatbot Supabase：开源的Next.js和Supabase构建的AI聊天机器人，快速部署到Vercel。

AIチャットボット Supabase: オープンソースのNext.jsとSupabaseで構築されたAIチャットボットをVercelに迅速に導入。

概要 AIチャットボット Supabaseは、Next.jsとSupabaseで構築されたオープンソースのAIチャットボットテンプレートです。Vercelによって開発されたこのプロジェクトは、完全に機能的でカスタマイズ可能なチャットボットソリューションを提供することを目的としています。...

2年前

093.3K

WeClone：WeChatのチャットログと音声を使ったデジタル・ドッペルゲンガーの育成

総合的な紹介 WeCloneは、WeChatのチャット記録と音声メッセージを、大規模な言語モデルと音声合成技術と組み合わせて使用するオープンソースプロジェクトであり、ユーザーはパーソナライズされたデジタル・ドッペルゲンガーを作成することができます。このプロジェクトは、ユーザーのチャットの習慣を分析してモデルを訓練するだけでなく、少数の音声サンプルを使ってリアルな音声を生成することができます。

1年前

093.2K

Oliva：音声制御のマルチインテリジェンス製品検索アシスタント

概要 OlivaはDeluxerがGitHubで開発したオープンソースのマルチインテリジェンスアシスタントツールです。複数のAIインテリジェンスの連携により、Qdrantデータベースの商品情報検索を支援します。主な特徴は、音声操作に対応していることです...

1年前

093.2K

LlamaCoder: プロンプトワードを使って小さなウェブアプリケーションを素早く生成・公開

一般的な紹介 LlamaCoderは、Llama 3.1とTogether AIをベースにしたオープンソースのコード生成ツールです。LlamaCoderは、Llama 3.1とTogether AIをベースにしたオープンソースのコード生成ツールです。

2年前

093.2K

CapsWriter-Offline：PC用音声入力・字幕書き起こしツール

概要 CapsWriter-Offlineは、GitHubでホストされており、開発者HaujetZhaoによって構築されたPC用の音声入力および字幕書き起こしツールです。完全にオフラインで動作するため、インターネット接続を必要とせず、音声入力やオーディオビジュアル...

1年前

093.1K

MyCoder：コードを自動的に修正し、テストケースを生成するコマンドラインAIツール

一般的な紹介 MyCoderは、drivecoreチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。AnthropicのClaude AP...をベースにしています。

1年前

093.1K

修复无效JSON字符串，解决 LLMs 生成的 JSON 数据中可能出现的格式错误。

無効なJSON文字列を修正し、LLMによって生成されたJSONデータで起こりうるフォーマットエラーを解決しました。

一般的な説明無効なJSONファイルを修正するためのモジュールで、特に大規模言語モデル(LLM)が出力する不正なJSONデータを解析するためのモジュールです。このモジュールは、引用符の欠落、不正なカンマ、エスケープされていない文字、不完全なkey-value...などの一般的なJSON構文エラーを修正します。

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

093.1K

Vercel AI SDK：人気のフロントエンドフレームワークでAI搭載アプリケーションを構築する

概論 Vercel AI SDKは、React、Svelte、Vue、Solidなどのフレームワークを使用してAIアプリケーションを構築する開発者を支援するために、Vercelチームによって開発されたオープンソースツールです。複数の言語モデルプロバイダをサポートしています。

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

093.1K

X-Kit: XユーザーデータとツイートのためのTwitterデータクロールとアナリティクス

概要 X-Kitは、X（旧Twitter）のユーザーデータやツイートをクロールして分析するために設計されたオープンソースツールです。GitHubユーザーのxiaoxiuniqueによって開発されたこのツールは、ユーザーが任意のXユーザーに関する基本的な情報やツイートを取得するプロセスを自動化するために設計されています。

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

093.1K

Tarsier: 高品質な動画説明を生成するためのオープンソース動画理解モデル

包括的な紹介 Tarsierは、ByteDanceによって開発されたオープンソースのビデオ言語モデルファミリーで、高品質のビデオ記述を生成するためのものです。CLIP-ViTがビデオフレームを処理し、Large Language Model (LLM)が...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

093K

Kolors: 高品質画像生成のためのテキスト画像変換モデル、中国語ポスター生成もサポート

包括的な紹介 Kolorsは、Racerチームによって開発された、ポテンシャル拡散技術に基づく大規模なテキスト画像生成モデルです。このモデルは、数十億のテキスト-画像データのペアで学習され、中国語と英語の両方の入力をサポートし、高品質で複雑な意味的に正確な画像を生成することができます。

2年前

092.9K

AgentGPT：自動化されたAIインテリジェンスを作成・実行するオープンソースプロジェクト

一般的な紹介 AgentGPTは、Reworkdチームによって開発され、GitHubでホストされているオープンソースプロジェクトで、ユーザーがブラウザを通して自律的にAIインテリジェンスを作成、設定、デプロイできるように設計されています。ユーザーは目標を設定するだけで、AgentGPTは...

1年前

092.9K

Probly：データを分析し、グラフを生成するAI用オープンソース表ツール

Problyは、PragmaticMachineLearningチームによって開発され、GitHubでオープンソース化されたスプレッドシートツールで、従来のスプレッドシートの機能と強力なAIデータ分析機能を兼ね備えています。このツールは、...

1年前

092.9K

DeepClaude：融合DeepSeek R1链式推理与Claude创造力的聊天界面

DeepClaude：DeepSeekのR1チェーン推論とClaudeの創造性を融合したチャットインターフェース

包括的な紹介 DeepClaudeは、DeepSeek R1の連鎖推論（CoT）機能とAnthropic Claudeモデルの創造性とコード生成を統合した、高性能な大規模言語モデル（LLM）推論APIとチャット・インターフェースです...

2年前

092.9K

MegaTTS3：中国語音声と英語音声を合成する軽量モデル

包括的な紹介 MegaTTS3は、ByteDanceが浙江大学と共同で開発したオープンソースの音声合成ツールで、高品質な中国語と英語の音声を生成することに重点を置いています。MegaTTS3のコアモデルは、わずか0.45Bパラメータで、軽量かつ効率的です。このプロジェクトは ...

1年前

092.8K

AI2SRT：ジェミニ・モデルを使用して、ワンクリックで短いナレーション付きビデオや長いビデオの要約ビデオを作成する。

包括的な紹介 AI2SRTは、GeminiAIのビッグモデルを使用して、ワンクリックで短いナレーション付きビデオと長いビデオのビデオ要約を生成し、音声とビデオの書き起こし字幕をサポートするオープンソースプロジェクトです。このプロジェクトは、ビデオコンテンツの作成プロセスを簡素化し、効率的な字幕生成と翻訳機能を提供することを目的としています。ユーザーは、字幕を作成した後、その字幕を字幕翻訳ソフトに渡すことができます。

2年前

092.8K

E2Bオープンコンピュータの使用：E2BサンドボックスでAIオペレーティングシステムを安全に実行する

概要 E2B Open Computer Useは、E2B Desktop Sandboxを通じて、安全なクラウドベースのLinuxコンピュータ利用体験を提供することを目的としたオープンソースプロジェクトです。E2B Sandboxは、ユーザが任意の大規模コンピュータに接続できるデスクトップグラフィカル環境を提供します。

2年前

092.8K

MockingBird：快速克隆声音与模型训练，基于 xtts v2 实现的文本转语音

MockingBird: 高速音声クローニングとモデルトレーニング、xtts v2に基づく音声合成

包括的な紹介 MockingBirdはオープンソースプロジェクトであり、AI技術を通じて、迅速な音声クローンと音声合成を実現することを目指している。ユーザーは5秒間の音声サンプルを提供するだけで、どのような音声コンテンツでも生成できる。このプロジェクトは様々な中国語データセットをサポートし、Windows ...

2年前

092.7K

LazyLLM：マルチインテリジェント・ボディ・アプリケーション構築のためのShangtangオープンソース・ローコード開発ツール

包括的な紹介 LazyLLMはLazyAGIチームによって開発されたオープンソースツールで、マルチインテリジェンス大規模モデルアプリケーションの開発プロセスを簡素化することに重点を置いています。ワンクリックのデプロイと軽量なゲートウェイ機構により、開発者が複雑なAIアプリケーションを素早く構築できるよう支援し、面倒なエンジニアリングの設定を省きます。

1年前

092.7K

Orate：よく知られた音声生成、音声トランスクリプション、音声モデリングを統合する統一API

概要 Orateは、音声生成と文字起こしに特化したAIツールキットです。Orateは、OpenAI、ElevenLabs、AssemblyAIなどの主要なAIプロバイダーとシームレスに統合する統一APIを提供し、ユーザーが強制的に音声を作成できるようにします。

2年前

092.7K

hugging faceの無料apiをcloudflareに導入し、インターフェイス転送をサポートする

国内配備は抱擁顔にアクセスすることはできませんので、クラウドフレアの労働者に配備することができるように変換に基づいて兄配備プログラムで。準備1、登録クラウドフレア2、登録抱擁顔...

2年前

092.7K

OmniGen：マルチモーダル入力を用いた統一的な画像生成モデルによる、文字の一貫性を保った画像生成

概論 OmniGenはVectorSpaceLabによって開発された「ユニバーサル」画像生成モデルであり、ユーザーは簡単なテキストプロンプトやマルチモーダル入力で、多様で文脈に富んだ視覚効果を作成することができる。OmniGenは、特に、...を認識する必要があるアプリケーションに適しています。

2年前

092.6K

TheoremExplainAgent：利用 Manim 生成5分钟以上数学讲解动画视频

TheoremExplainAgent: Manimで5分以上の数学解説アニメーションを作成

概論 TheoremExplainAgentは、TIGER AI Labによって開発された革新的なプロジェクトであり、人工知能技術を用いて複雑な数学や科学の定理を分かりやすいビデオアニメーションに変換する。このツールはラージ・ランゲージ・モデル（LLM...

1年前

092.6K

PhotoDoodle: テキストコマンドで写真にアーティスティックな落書きができるAIツール

概要 PhotoDoodleは、ShowLabによって開発されたオープンソースの画像編集ツールで、人工知能技術による写真の芸術的な編集に焦点を当てています。ユーザーは、簡単なテキストプロンプトを入力するだけで、実際の写真に漫画スタイル、3D効果、光を追加することができます...

1年前

092.6K

Devika：命令を理解し、サブタスクに分割してコードを書く、オープンソースのAIソフトウェアエンジニアの知能

一般的な紹介 Devikaは高度なAIソフトウェアエンジニアであり、人間の高度な指示を理解し、それをステップに分解し、関連する情報を研究し、与えられた目標を達成するためにコードを書く。大規模な言語モデル、計画・推論アルゴリズム、ウェブブラウジング機能を使って、インテリジェントにソフトウェアを開発する。

1年前

092.5K

エル：軽量機能的キュー・ワード工学フレームワーク

一般的な紹介 ellは、元OpenAIの研究者であるウィリアム・ガスによって開発された軽量な関数型言語モデル・プログラミング・ライブラリである。ellは、キューを単なる文字列としてではなく、プログラムとして扱うことを念頭に設計されている。

1年前

092.4K

QAnything: RAG処理フローを高度に統合したローカル知識ベースQ&Aシステム

QAnything Comprehensive Introduction QAnything（Question and Answer based on Anything）は、NetEaseが発表したローカル知識ベースのQ&Aシステムで、あらゆる種類のファイル形式とデータベースをサポートし、オフラインでインストールして使用することができる。

2年前

092.4K

Weebo: 自然言語での対話体験を提供するリアルタイム音声チャットボット

はじめに Weeboは、音声認識にWhisper Small、自然言語生成にLlama 3.2、音声合成にKokoro-82Mを利用したオープンソースのリアルタイム音声チャットボットです。このプロジェクトはAman...によって開発されました。

2年前

092.4K

PantoMatrix（EMAGE）：全身手势生成框架，从音频生成全身手势的3D动画框架

PantoMatrix（Emage）：全身ジェスチャー生成フレームワーク、音声から全身ジェスチャーを生成する3Dアニメーションフレームワーク

包括的な紹介 PantoMatrixは、音声と顔、体の一部、手、全身の動きを含む部分的なジェスチャーから、完全な人間の動きを生成できる先進的なフルボディジェスチャー生成フレームワークです。このフレームワークは、最新のマルチモーダルデータセットとディープラーニング技術を利用して、高品質の3D...

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

092.4K

MarkItDown：Microsoftドキュメントインテリジェント変換ツール、様々なファイルをMarkdown形式に変換

一般的な紹介 MarkItDownはMicrosoftによって開発されたPythonツールで、様々なファイルやオフィス文書をMarkdown形式に変換するように設計されています。このツールは、PDF、PowerPoint、Word、Excel、ダイアグラム...など、幅広い種類のファイルをサポートしています。

2年前

092.4K

NodeRAG：正確な情報検索と生成のための異種グラフベースのツール

包括的な紹介 NodeRAGはGitHubでホストされているオープンソースの検索拡張生成（RAG）システムであり、Terry-Xu-666によって開発された。異種グラフ構造によって情報検索と生成を最適化し、検索精度と文脈関連性を大幅に向上させます。

1年前

092.4K

Langui: AIユーザーインターフェイスコンポーネントのオープンソースライブラリ

概要 LangbaseIncのLanguiは、生成AIや大規模言語モデリング（LLM）プロジェクトのために設計されたオープンソースのユーザーインターフェイスコンポーネントライブラリです。このライブラリはTailwind CSSをベースにしており、開発者が素早くUIを構築できるように、あらかじめビルドされたUIコンポーネントのコレクションを提供します。

2年前

092.3K

Flow（Laminar）：タスクを簡素化し、柔軟に管理するインテリジェンス構築のための軽量タスクエンジン

包括的な紹介 Flowは、シンプルさと柔軟性に重点を置いてAIエージェントを構築するために設計された軽量タスクエンジンです。従来のノードベースやエッジベースのワークフローとは異なり、Flowは並列実行、動的スケジューリング、インテリジェントな依存関係管理をサポートする動的タスクキューシステムを使用する。その中核となるコンセプトは...

2年前

092.2K

Memary：知識グラフを使ってエージェントの長期記憶を強化するオープンソースプロジェクト

概要 Memaryは、自律型知能に長期的なメモリ管理ソリューションを提供することに焦点を当てた、革新的なオープンソースプロジェクトです。このプロジェクトは、インテリジェンスが従来のコンテキストウィンドウの限界を突破し、知識グラフと特殊化されたメモリモジュールを通じて、よりスマートなインタラクション体験を実現できるよう支援する。

2年前

092.1K

VoiceCraft: オープンソースゼロサンプル音声クローニング・音声合成ツール

包括的な紹介 VoiceCraftは、ニューラルコーデック言語モデルに基づいたオープンソースの音声編集およびゼロサンプル音声合成ツールです。革新的な符号化シーケンス生成方法を採用しており、既存の音声シーケンスに対して挿入、削除、置換操作を行うことで、自然で首尾一貫した編集音声を生成することができます。

2年前

092K

Gemini Cursor：基于Gemini构建的AI桌面智能助手，能看、能听、能说

Gemini Cursor：見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント

概論 Gemini Cursorは、GoogleのGemini 2.0 Flash（実験的）モデルをベースとしたデスクトップ知的アシスタントである。Gemini Cursorは、マルチモーダルAPIを通じて、視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延な利用を提供します。

1年前

092K

ANP: インテリジェントエージェント間の安全で効率的な通信のためのオープンソースプロトコル

概要 AgentNetworkProtocol（略してANP）は、GitHubでホストされているオープンソースのプロトコルプロジェクトで、インテリジェントエージェント（AIエージェント）に安全で効率的な通信ソリューションを提供することに焦点を当てている。このプロトコルは、アイデンティティと暗号化という3つのレイヤーから構成されています。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

091.9K

FlashMLA：优化Hopper GPU的MLA解码内核（DeepSeek 开源周第一天）

FlashMLA：HopperGPU向けMLAデコード・カーネルの最適化（DeepSeek Open Source Week 1日目）

概要 FlashMLAは、DeepSeek AIが開発した効率的なMLA（Multi-head Latent Attention）デコーディングカーネルで、NVIDIA HopperアーキテクチャGPUに最適化されている。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

091.8K

アイドル・フィッシュの販売員が24時間体制で自動対応するAIカスタマーサービスボット

包括的な紹介 XianyuAutoAgentは、GitHubで開発者shaxiuによってオープンソース化されたIdlefishプラットフォーム用に設計されたインテリジェントな顧客サービスロボットシステムです。AI技術を利用し、7×24時間の自動勤務を実現し、アイドルフィッシュ販売者の返信を支援する。

1年前

091.8K

Fast-Agent: マルチインテリジェントなボディ・ワークフローを迅速に構築するための宣言的文法とMCPの統合

概要 Fast-Agentは、evalstateチームによってGitHubでメンテナンスされているオープンソースツールで、開発者がマルチインテリジェンスワークフローを素早く定義、テスト、構築できるように設計されています。シンプルな宣言的構文に基づいており、MCP（Mode...

1年前

091.8K

DreamTalk：1枚のアバター画像で表情豊かなトーキングビデオを生成！

DreamTalk総合紹介 DreamTalkは清華大学、アリババグループ、華中科技大学が共同開発した拡散モデル駆動型表情トーキングヘッド生成フレームワークです。主に、ノイズ除去ネットワーク、スタイル認識リップエキスパート、スタイル予測器の3つの部分から構成されており、ノイズ除去ネットワーク、スタイル認識リップエキスパート、スタイル予測器は、...

2年前

091.7K

Zonos: 高品質音声合成と音声クローニングツール

一般的な紹介 ZonosはZyphraによって開発されたオープンソースの音声合成と音声クローニングツールです。Zonos-v0.1バージョンは、高品質の音声出力を生成するために高度なトランスフォーマーとブレンドモデルを使用しています。このツールは複数の言語をサポートしています。

1年前

091.7K

Easy Voice Toolkit: 地域展開のためのAI音声ツールキット

包括的な紹介 Easy-Voice-ToolkitはOpen Source Speech Projectに基づく多機能なツールキットで、音声認識、音声トランスクリプション、音声変換、データセット作成、モデルトレーニングのための幅広い自動音声ツールを提供します。ユーザーは、必要に応じてこれらのツールを選択的に使用することができます...

2年前

091.6K

Parler-TTS: 入力テキストから話者固有の音声合成モデルを生成する

一般的な紹介 Parler-TTSは、Hugging Face社によって開発されたオープンソースの音声合成（TTS）モデルライブラリで、高品質で自然な音声を生成するように設計されています。このモデルは、特定の話者スタイル（性別、ピッチ、話し方など）の入力テキストに基づいて音声を生成することができます。

1年前

091.6K

ModelBest：世界をリードする軽量・高性能エンドサイド・ビッグモデル

概要 ModelBestは、軽量かつ高性能な大型モデルの開発に注力する企業であり、先進的なAI技術をメインストリーム家電や日常生活のあらゆるエンドデバイスに応用することに専念している。同社のMiniCPMシリーズは、非常に高い演算能力とメモリ使用効率を備えたエンドサイドモデルです。

2年前

091.6K

Ichigo (llama3-s): ローカルリアルタイム音声AIアシスタント、オープンソース版Siri

はじめに Ichigoはオープンソースのリアルタイム音声AIプロジェクトで、テキストベースの言語モデルをネイティブな「聞き取り」機能で拡張することを目的としています。このプロジェクトでは、MetaのChameleon論文にインスパイアされた初期のフュージョン技術を使用している。

2年前

091.6K

OWL：現実的なタスクにおけるマルチインテリジェンス・コラボレーションのための自動化ツール

概論 OWL（Optimized Workforce Learning）は、CAMEL-AIチームによって開発されたオープンソースのフレームワークで、実世界のタスクを自動化するためのマルチインテリジェンス・コラボレーションの最適化に焦点を当てている。CAMEL-AIフレームワークに基づいて...

1年前

091.5K

Research Rabbit：使用本地LLM进行网页研究和报告撰写，自动深入用户指定主题并生成总结。

リサーチラビット：ネイティブのLLMを使用し、ユーザーが指定したトピックに自動的にドリルダウンし、サマリーを生成するWebリサーチとレポート作成。

はじめに Research Rabbitは、LLM（Large Language Model）ベースのウェブリサーチおよび要約アシスタントです。ユーザがリサーチトピックを提供すると、Research Rabbitは検索クエリを生成し、関連するウェブ結果を取得し、これらの結果を要約します...

1年前

091.5K

Audiblez: ココロでオーディオブックを作成、電子書籍をオーディオブックに変換

概要 Audiblezは、電子書籍（.epub形式など）をオーディオブック（.m4b形式など）に変換するためのオープンソースプロジェクトです。Kokoroの高品質音声合成技術を利用し、多言語・多音声をサポートしています。ユーザーは単純に...

2年前

091.5K

Flock：迅速なチャットボット構築のためのローコードワークフローオーケストレーション

概要 Flockはオープンソースのワークフロー用ローコードプラットフォームで、GitHubでホストされており、Onelevenvyチームによって開発されています。LangChainとLangGraphの技術をベースにしており、ユーザーがチャットマシンを素早く構築できるようにすることに重点を置いています。

1年前

091.5K

OASIS: 複雑な社会現象を研究するための、数百万人のユーザーによるソーシャルメディア・インタラクションのマルチインテリジェンス・シミュレーション

概論 OASIS（Open Agent Social Interaction Simulations）は、最大100万人のユーザーの行動をシミュレートできるオープンソースのソーシャルメディア・シミュレータである。このプラットフォームは、大規模言語モデルとルールベース...

1年前

091.5K

Ant Design X：快速构建AI聊天界面的工具包，支持模型集成和数据流管理。

Ant Design X: モデル統合とデータフロー管理をサポートし、AIチャットインターフェースを迅速に構築するためのツールキット。

包括的な紹介 Ant Design Xは、Ant Groupによってオープンソース化されたツールキットで、開発者がAI主導の対話インターフェースを素早く構築できるように設計されています。豊富なコンポーネントとテンプレートのセットを提供し、OpenAI標準と互換性のあるモデル統合をサポートし、インテリジェントなカスタマーサービス、AIアシスタント、その他のような様々なアプリケーションに適しています。

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

091.4K

G-Search-MCP: 無料Google検索用MCPサーバー

一般的な紹介 G-Search-MCPはGitHubでホストされているオープンソースのGoogle検索ツールで、開発者のjae-jaeがgoogle-searchをベースに修正したものです。このツールはMCP (Model Context...) を渡します。

1年前

091.2K

Leffa：高保真模特虚拟试穿与人物姿势调整，Meta开源的可控人物图像生成模型

Leffa：高忠実度モデルのバーチャル試着とキャラクターポーズ調整、メタ・オープンソース制御キャラクター画像生成モデル

包括的な紹介 Leffaは、制御可能なキャラクター画像を生成するための統一されたフレームワークであり、キャラクターの外見（バーチャルフィッティングなど）やポーズ（ポーズ転送など）の精密な操作を可能にする。このフレームワークは、ターゲットクエリをアテンション層の正しい参照キーにフォーカスさせることで、細かいディテールの歪みを大幅に低減する。

2年前

091.2K

Optexity:人間の実演を見ながらウェブ操作を行うAIを訓練するオープンソースプロジェクト

概論 OptexityはGitHub上のオープンソースプロジェクトで、Optexityチームによって開発されている。このプロジェクトの核心は、人間のデモ・データを使って、コンピュータ・タスク、特にウェブ・ページ操作をこなすAIを訓練することである。このプロジェクトには3つのコードライブラリが含まれている。

1年前

091.2K

Data Formulator：AIによるデータ可視化ツール

概論 Data Formulator は Microsoft Research によって開発されたオープンソースのAI駆動型データ可視化ツールである。このツールは、グラフィカル・ユーザー・インターフェース (GUI) と自然言語入力 (NL) を組み合わせたもので、ユーザーは簡単なインタラクションやコマンドによって、素早くデータを作成し、反復することができます。

1年前

091.2K

MiniMind-V：26Mパラメトリック視覚言語モデルの1時間トレーニング

概要 MiniMind-Vは、GitHubでホストされているオープンソースプロジェクトで、わずか2600万個のパラメータを持つ軽量な視覚言語モデル（VLM）を1時間以内に学習できるように設計されています。MiniMind 言語モデルをベースに、新しいビジュアル...

1年前

091.1K

Insanely Fast Whisper: 高速で効率的な音声テキスト化オープンソースプロジェクト

包括的な紹介 insanely-fast-whisperは、OpenAIのWhisperモデルと様々な最適化技術（Transformers、Optimum、Flash Attentionなど）を組み合わせた音声転送です...

2年前

091.1K

Ruyi-Models: レンズ制御とモーション振幅制御をサポートする、画像からビデオへのオープンソースモデルを生成します。

概要 Ruyi-Modelsは、画像から高品質の動画を生成するために設計されたオープンソースプロジェクトです。IamCreateAIチームによって開発されたこのプロジェクトは、768の解像度、毎秒24フレーム、5秒で120フレームの映画のようなビデオの生成をサポートしています。

2年前

091K

OrionChat：マルチプラットフォームAIモデルを統合したシンプルなWebチャットインタフェース（デプロイメント不要）

OrionChatは、複数の主流AIモデルと対話するための統一されたプラットフォームをユーザーに提供する、ウェブベースのAIチャット・インターフェースです。このプロジェクトは、Ollama（ローカルで動作）、OpenAI GPT、Google Gemi...を含む幅広いAIモデルをサポートしています。

2年前

090.9K

RapBank：根据歌词和伴奏直接生成说唱(Rap)人声的模型（目前开放了数据集）

RapBank: 歌詞とバッキングトラックからラップ（Rap）ボーカルを直接生成するモデル（現在オープンデータセット）

概要 RapBankは、ラップ歌詞生成のために設計されたデータセットとツールセットです。このプロジェクトはNZqianによって作成され、YouTubeからラップ曲を収集・処理することで、研究者や開発者に高品質のラップ歌詞データを提供する。

2年前

090.9K

SegAnyMo: ビデオから任意の移動物体を自動的にセグメント化するオープンソースツール

概要 SegAnyMoは、カリフォルニア大学バークレー校と北京大学の研究者チームによって開発されたオープンソースプロジェクトで、Nan Huangなどのメンバーが参加している。このツールはビデオ処理に重点を置いており、ビデオ内の任意の動く物体、例えば人、動物、...を自動的に識別し、セグメント化することができる。

1年前

090.8K

ボイスチェンジャー：お気に入りのアニメキャラクターを歌わせるリアルタイムボイスチェンジャー！

概要 Voice Changerはオープンソースのリアルタイム音声変換ツールで、MMVC、so-vits-svc、RVC、DDSP-SVC、Beatriceなどの幅広いAI音声モデルをサポートしています。

2年前

090.8K

Bilingual Book Maker：使用AI翻译制作双语电子书，全书自动化翻译工具

バイリンガルブックメーカー: AI翻訳を使用して、バイリンガルの電子書籍を作成します。

一般的な紹介バイリンガルブックメーカーは、ユーザーがAI技術を使って多言語版の電子書籍を作成できるように設計されたオープンソースプロジェクトです。このツールは主に翻訳にChatGPTを使用し、epub、txt、srtを含む複数のファイル形式をサポートしています。

1年前

090.7K

Fullmoon：ネイティブの多言語モデルチャット用iOSアプリ

一般的な説明 FullmoonはiOSデバイス用に設計されたアプリで、ネイティブの大規模な言語モデルとのプライベートチャット機能を提供することを目的としています。このアプリはApple Siliconに最適化されており、iPhone、iPad、Macに対応しています。チャットのユーザー...

2年前

090.6K

TripoSG: 1枚の画像から高解像度の3Dモデリングデジタル資産を生成

概論 TripoSGはVAST AI研究チームによって開発されたオープンソースプロジェクトで、1枚の画像から高品質の3Dモデルを生成する。このプロジェクトでは、大規模な整流器フローコンバーター技術を用い、ハイブリッド教師あり学習と高品質なデータセットを組み合わせることで、生成された3Dモデルに...

1年前

090.6K

NodeTool: ノードオーケストレーションに基づくAIモデルのワークフロー可視化クライアント

概要 NodeToolは、AI愛好家、開発者、データサイエンティスト、クリエイターにシンプルで直感的なインターフェイスを提供するように設計された革新的なAIオーサリングプラットフォームです。アーティスト、開発者、初心者を問わず、NodeToolはクリエイティブなプロトタイプを素早く作成するのに役立ちます。

2年前

090.6K

SVFR：ビデオ顔修復を実装する統一フレームワーク、白黒、ぼやけたポートレート古いビデオの修復

包括的な紹介 SVFR(Stable Video Face Restoration)は、基本顔復元(Basic Face Restoration: BFR)、色付け、修復、およびそれらの組み合わせタスクをサポートする、ビデオ顔復元のための統一フレームワークである。このフレームワークは、生成的プリオールと運動学的プリオールを利用し...

2年前

090.5K

MIDI-3D: 1枚の画像からマルチオブジェクトの3Dシーンを高速生成するオープンソースツール

一般的な紹介 MIDI-3DはVAST-AI-Researchチームによって開発されたオープンソースプロジェクトで、開発者、研究者、クリエイターのために1つの画像から複数のオブジェクトを含む3Dシーンを素早く生成します。このツールはマルチインスタンス拡散モデリング技術に基づいています。

1年前

090.5K

E2M: 複数のファイル形式をMarkdownに変換し、簡単に統一されたドキュメントフォーマットを実現する

概要 E2M (Everything to Markdown)は、様々なファイルフォーマットをMarkdownフォーマットに変換するために設計されたオープンソースのPythonライブラリです。このツールは、doc、docx、epub、html、htm、u...などのフォーマットをサポートしています。

2年前

090.5K

ブラウズAI：コードなしで構造化データを抽出し監視する

Browseの紹介 Browse AIは、プログラミングなしであらゆるウェブサイトからデータを抽出・監視できるように設計された、コーディング不要のクラウドベースのウェブ自動化ソフトウェアです。マウス1つでデータ抽出、監視、自動化タスクを実行するボットを訓練することができます...

2年前

090.5K

ALog：音声読み上げ機能付きの携帯型AI音声日記アプリ。

一般的な紹介 ALogはAIベースの音声日記アプリケーションで、ユーザーが音声で日常生活を記録できるように設計されています。duxinsによって開発され、GitHubでオープンソース化されている。ユーザーは音声入力で日記を記録することができ、アプリは自動的に音声をテキストに変換します...

2年前

090.3K