AIオープンソースプロジェクト

合計1020記事
MoneyPrinterTurbo:输入视频主题一键生成视频文案和高清短视频

MoneyPrinterTurbo:ビデオテーマを入力すると、ワンクリックでビデオコピーと短いHDビデオを生成します。

総合紹介 MoneyPrinterTurboはオープンソースプロジェクトで、先進的なAIビッグモデル技術を利用して、ワンクリックで短いHDビデオを生成する機能を実現します。ユーザーは動画のテーマやキーワードを提供するだけで、システムが自動的に動画コピー、動画クリップ、動画字幕を生成します。
9ヶ月前
035.5K
Leffa:高保真模特虚拟试穿与人物姿势调整,Meta开源的可控人物图像生成模型

Leffa:高忠実度モデルのバーチャル試着とキャラクターポーズ調整、メタ・オープンソース制御キャラクター画像生成モデル

包括的な紹介 Leffaは、制御可能なキャラクター画像を生成するための統一されたフレームワークであり、キャラクターの外見(バーチャルフィッティングなど)やポーズ(ポーズ転送など)の精密な操作を可能にする。このフレームワークは、ターゲットクエリをアテンション層の正しい参照キーにフォーカスさせることで、細かいディテールの歪みを大幅に低減する。
12ヶ月前
035.5K
MCP Server ChatSum:依赖MCP在Claude中查询和总结微信聊天消息

MCPサーバーChatSum: ClaudeでWeChatメッセージをクエリーし要約するためにMCPに頼る

一般的な紹介 MCPサーバー ChatSumは、ユーザーがチャットメッセージを照会し要約するために設計されたオープンソースプロジェクトです。このプロジェクトはGitHubでホストされており、ユーザーが特定のパラメータに基づいてチャットログを照会し、対応する要約を生成することができる強力なツールセットを提供します...
9ヶ月前
035.4K
Open Canvas:代码编辑协作画布,开源版OpenAI Canvas/Claude Artifacts

Open Canvas: コード編集が可能なコラボレーション・キャンバス、OpenAI Canvasのオープンソース版/Claude Artifacts

LangChainは、デュアルエージェントメモリ機能を内蔵し、完全な実行の詳細を観察するために統合されたスミスを使用して、ドキュメントの編集とコラボレーション体験を強化するために設計されたオープンソースのWebアプリケーション、Open Canvasを紹介します。このプラットフォームはOpenA...
9ヶ月前
035.4K
Shortest:AI自动化测试工具,使用自然语言进行端到端测试

最短:エンド・ツー・エンドのテストに自然言語を使用するAI自動テストツール

一般的な紹介 Shortestは、Anti-Workチームによって開発されたAIを搭載した自然言語エンドツーエンドテストフレームワークです。Playwrightをベースに構築されており、GitHubとの統合や二要素認証(2FA)をサポートしています。Shortestの主な特徴は...
10ヶ月前
035.4K
PRAG:提升问答系统性能的参数化检索增强生成工具

PRAG: Q&Aシステムのパフォーマンス向上のためのパラメトリック検索拡張生成ツール

包括的な紹介 PRAG(Parametric Retrieval-Augmented Generation)は、大規模言語モデル(LLM)のパラメータ空間に直接埋め込むことで、外部知識の生成を強化することを目的とした革新的な検索拡張生成ツールである。
10ヶ月前
035.4K
TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

タンクワーク:音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ

概論 TankWorkはオープンソースのデスクトップエージェント・フレームワークで、コンピュータビジョンとシステムレベルのインタラクションを通じて、AIがコンピュータを認識し制御できるように設計されています。このフレームワークは、エージェントが音声やテキストコマンドでコンピュータを直接制御し、リアルタイムのスクリーンコンテンツを処理し、継続的なオーディオビジュアルを提供することを可能にします。
10ヶ月前
035.4K
VBDeepSeek:使用DeepSeek生成四级单词学习资料的开源工具

VBDeepSeek:DeepSeekを使用して4年生の単語学習教材を作成するためのオープンソースツール

総合紹介 "Vocabulary Book by DeepSeek "はDeepSeekのビッグモデルに基づいて開発されたオープンソースプロジェクトで、英語学習者が大学英語レベル4(CET-4)の語彙を効率的に習得することを目的としています。プロジェクトはGitHubでホストされています...
9ヶ月前
035.4K
HivisionIDPhotos:开源智能AI证件照制作工具

HivisionIDPhotos:オープンソースのスマートAI写真ID作成ツール

包括的な紹介 HivisionIDPhotosは、オープンソースの軽量AI文書写真制作ツールであり、インテリジェントに様々な仕様に沿って標準的な文書の写真を生成するために、ユーザーの写真のシーンとキーイングを識別することができます。このツールは、カスタムの背景色とサイズをサポートし、将来的には、美しさと...
1年前
035.3K
Novel:模仿Notion AI的开源写作编辑器

小説:Notion AIを模倣したオープンソースのライティング・エディター

包括的な紹介 これは、Steven Teyによって開発されたオープンソースプロジェクトで、Novelと呼ばれ、NotionスタイルのWYSIWYGテキストエディタであり、ユーザーがテキスト入力の効率を向上させることができる統合されたAIの自動補完機能です。このプロジェクトは、詳細なドキュメントとインストール手順を提供します。
1年前
035.3K
Base Chat:基于 Ragie 构建知识库的多租户聊天机器人

Base Chat: Ragieに基づく知識ベース構築のためのマルチテナント型チャットボット

概要 Base Chatは、Ragie Connectを使用して組織のナレッジベースに接続し、会話するマルチテナント型チャットボットです。このプロジェクトは、複数のRagie機能のリファレンスアプリケーションであり、Next.jsで構築され、Goo...
9ヶ月前
035.3K
Knowledge Table:高效提取与探索结构化数据的开源工具

知識テーブル:構造化データの効率的な抽出と探索のためのオープンソースツール

包括的な紹介 ナレッジテーブル(Knowledge Table)は、非構造化ドキュメントから構造化データを抽出し、探索するプロセスを簡素化するために設計されたオープンソースプロジェクトです。ユーザは、自然言語クエリインタフェースを通して、表やグラフのような構造化された知識表現を作成することができる。このツールは、抽出のカスタマイズをサポートしています。
1年前
035.3K
AI Podcast Generator:自动抓取新闻生成音频播客

AIポッドキャスト・ジェネレーター:ニュースを自動クロールして音声ポッドキャストを生成

概論 AI Podcast Generatorは、高度なAI技術を利用してウェブソースから魅力的なオーディオコンテンツを自動的に作成するインテリジェントなポッドキャスト生成ツールです。このシステムは、ニュース・コンテンツをキャプチャし、オーディオ・ポッドキャストに変換することで、自然な流れのナレーションを生成します。このプロジェクトはNext...
1年前
035.3K
Parler-TTS:根据输入文本生成特定说话人风格的文本转语音模型

Parler-TTS: 入力テキストから話者固有の音声合成モデルを生成する

一般的な紹介 Parler-TTSは、Hugging Face社によって開発されたオープンソースの音声合成(TTS)モデルライブラリで、高品質で自然な音声を生成するように設計されています。このモデルは、特定の話者スタイル(性別、ピッチ、話し方など)の入力テキストに基づいて音声を生成することができます。
10ヶ月前
035.3K
Coding Agent:基于Langgraph构建的简单编程助手

コーディング・エージェント:Langgraph上に構築されたシンプルなプログラミング・アシスタント

概要 Coding AgentはAbhinavTheDevによって開発されたインテリジェントなプログラミングアシスタントで、開発者のプログラミング効率を向上させるために設計されています。このツールは、人工知能技術を使用して、コードを自動的に生成し、プログラミングの提案を行い、さまざまなコーディングで開発者を支援します。
10ヶ月前
035.3K
Cognita:构建模块化RAG应用的开源框架,快速测试多样RAG策略

Cognita:モジュラーRAGアプリケーションを構築し、多様なRAG戦略を迅速にテストするためのオープンソースフレームワーク

包括的な紹介 Cognitaは、RAG(Retrieval-Augmented Generation)ベースのアプリケーションの開発を簡素化するためにTrueFoundry社によって開発されたオープンソースのフレームワークです。このフレームワークは、構造化されたモデ...
10ヶ月前
035.3K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun:ウェブデータを自動的にクロールし、APIやスプレッドシートに変換するオープンソースのコード不要プラットフォーム

包括的な紹介 Maxunはオープンソースのコード不要のウェブデータ抽出プラットフォームで、ウェブデータを自動的にクロールしてAPIやスプレッドシートに変換するロボットを数分で訓練することができます。このプラットフォームは、ページングとスクロールをサポートし、ウェブサイトのレイアウトの変更に適応し、強力なデータクローリングを提供します。
11ヶ月前
035.2K
MindSearch:开源AI搜索引擎框架,部署您自己的 Perplexity 搜索引擎!

MindSearch: オープンソースのAI検索エンジンフレームワーク!

包括的な紹介 MindSearchは、上海人工知能研究所(SAL)が立ち上げたオープンソースのAI検索エンジン・フレームワークで、複雑な情報収集と統合のための人間の思考プロセスをシミュレートすることを目的としている。このツールは、大規模言語モデリング(LLM)とマルチインテリジェンス検索エンジンの高度な技術を組み合わせたものである。
11ヶ月前
035.2K
LivePortrait:静态图像、视频生成动态肖像动画工具

LivePortrait:静止画や動画からダイナミックなポートレートを生成するアニメーションツール

一般的な紹介 LivePortraitはRacer Technologyによって開発された先進的なAIダイナミックポートレートアニメーションツールです。革新的なAI技術を利用し、静止画像を鮮やかなビデオアニメーションに変換します。本物の写真でも、アニメーションスタイルでも、芸術的なポートレートでも、LivePo...
1年前
035.2K
MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音

MockingBird: 高速音声クローニングとモデルトレーニング、xtts v2に基づく音声合成

包括的な紹介 MockingBirdはオープンソースプロジェクトであり、AI技術を通じて、迅速な音声クローンと音声合成を実現することを目指している。ユーザーは5秒間の音声サンプルを提供するだけで、どのような音声コンテンツでも生成できる。このプロジェクトは様々な中国語データセットをサポートし、Windows ...
12ヶ月前
035.2K
PromptWizard:优化提示工程的开源框架,提升任务性能

PromptWizard: タスクパフォーマンスを向上させるプロンプトプロジェクト最適化のためのオープンソースフレームワーク

包括的な紹介 PromptWizardはMicrosoftによって開発されたオープンソースのフレームワークであり、モデルがプロンプトの単語を生成、評価、改善し、それ自身で例を生成し、継続的なフィードバックによってアウトプットの質を向上させる自己進化メカニズムを使用しています。プロンプトの単語を自律的に最適化し、適切な例文を生成・選択し、...
11ヶ月前
035.2K
Onlook:面向前端设计开源Cursor,在React应用中设计并发布代码

Onlook: フロントエンド設計のためのオープンソースCursor、Reactアプリケーションの設計とコードの公開

一般的な紹介 Onlookはデザイナーと開発者のために作られたオープンソースのデザインツールで、ユーザーは実行中のReactアプリケーションで直接デザインし、デザインの変更をコードに変換することができます。このツールは、Figma や Webf... に似た直感的なビジュアル編集体験を提供します。
10ヶ月前
035.2K
MangaNinjia:自动化线稿上色工具,为动漫黑白线稿快速填色

MangaNinjia:アニメのモノクロ線画に素早く色をつける自動線画着色ツール。

総合紹介 MangaNinjiaはAlibaba Tongyi Visual Intelligence Lab (Ali-Vilab)によって開発されたオープンソースプロジェクトで、線画のカラーリングの自動処理に焦点を当てています。このツールは、ディープラーニング技術によって参照画像の正確なカラーマッチングを実現し、線画の色付けを大幅に改善します。
10ヶ月前
035.2K

「常時稼働のDeepseek AIアシスタント:Deepseek-V3に基づくインテリジェントな音声対話システムの構築

総合紹介 Always-On AI Assistantは、Deepseek-V3、RealtimeSTT、Typerなどの先進技術を統合することで、強力で永続的なオンラインAIアシスタントシステムを構築する革新的なAIアシスタントプロジェクトです。
11ヶ月前
035.2K
OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

OmniGen:マルチモーダル入力を用いた統一的な画像生成モデルによる、文字の一貫性を保った画像生成

概論 OmniGenはVectorSpaceLabによって開発された「ユニバーサル」画像生成モデルであり、ユーザーは簡単なテキストプロンプトやマルチモーダル入力で、多様で文脈に富んだ視覚効果を作成することができる。OmniGenは、特に、...を認識する必要があるアプリケーションに適しています。
1年前
035.2K
自动爬取小说并生成多角色有声书的工具

小説を自動的にクロールし、多文字のオーディオブックを生成するツール

概論 Auto-Audio-BookはGitHubでホストされているオープンソースプロジェクトです。ウェブサイトから小説の内容を自動的にクロールし、複数のキャラクターの声を持つオーディオブックに変換します。開発者 zqq-nuli Python 3.1...
8ヶ月前
035.1K
Bilingual Book Maker:使用AI翻译制作双语电子书,全书自动化翻译工具

バイリンガルブックメーカー: AI翻訳を使用して、バイリンガルの電子書籍を作成します。

一般的な紹介 バイリンガルブックメーカーは、ユーザーがAI技術を使って多言語版の電子書籍を作成できるように設計されたオープンソースプロジェクトです。このツールは主に翻訳にChatGPTを使用し、epub、txt、srtを含む複数のファイル形式をサポートしています。
10ヶ月前
035.1K
infinite-zoom-stable-diffusion:生成无限缩放循环视频

infinite-zoom-stable-diffusion: 無限ズームのループビデオを生成する。

包括的な紹介 無限ズーム安定拡散(Infinite Zoom Stable Diffusion)は、安定拡散技術を使用して無限ズームビデオを作成するために設計されたオープンソースプロジェクトです。このプロジェクトは、使いやすいColabノートブックを提供し、ユーザは...
10ヶ月前
035.1K
TableGPT Agent:专为分析复杂表格数据设计的智能工具

TableGPTエージェント:複雑な表形式データを分析するために設計されたインテリジェントツール

包括的な紹介 TableGPTエージェントは、GitHubオープンソースプロジェクトに基づくインテリジェントなツールで、表形式データの処理と分析のために設計されています。TableGPT2 Big Language Model に依存し、自然言語インタラクションを使用して、ユーザが簡単にクエリ、操作...
9ヶ月前
035.1K
Text generation web UI:基于 Gradio 大语言模型聊天界面,支持多种后端服务

テキスト生成ウェブUI:複数のバックエンド・サービスをサポートするGradioベースの大規模言語モデル・チャット・インターフェース

概論 テキスト生成ウェブUIは、大規模言語モデル(LLM)のために設計されたGradioベースのウェブUIです。Transformers、llama.cp...を含む様々なテキスト生成バックエンドをサポートしています。
1年前
035.1K
OpenAI.fm:展示OpenAI语音API的交互式演示工具

OpenAI.fm:OpenAIの音声APIを紹介するインタラクティブなデモツール

概論 openai-fmはGitHubでホストされているオープンソースプロジェクトで、OpenAIのText-to-Speech (TTS) APIの機能をデモンストレーションすることを目的としています。このプロジェクトは、インタラクティブなウェブアプリケーションを通して動作します...
7ヶ月前
035.1K
Easy Voice Toolkit:本地部署的AI语音工具箱

Easy Voice Toolkit: 地域展開のためのAI音声ツールキット

包括的な紹介 Easy-Voice-ToolkitはOpen Source Speech Projectに基づく多機能なツールキットで、音声認識、音声トランスクリプション、音声変換、データセット作成、モデルトレーニングのための幅広い自動音声ツールを提供します。ユーザーは、必要に応じてこれらのツールを選択的に使用することができます...
1年前
035.1K
Moondream:批量反推图像提示词的开源轻量级视觉语言模型

Moondream:画像手がかり語のバッチバックプロパゲーションのためのオープンソースの軽量視覚言語モデル

包括的な紹介 Moondreamは、ディープラーニングとコンピュータビジョン技術による画像記述機能を実現するために設計された、オープンソースの軽量視覚言語モデルです。このモデルは、様々なプラットフォーム上で効率的に実行することができ、特にエッジデバイスに適しています。
11ヶ月前
035.1K
Memobase:为AI应用提供基于用户画像的长期记忆方案

メモベース:AIアプリケーションのためのユーザープロファイルに基づく長期記憶ソリューション

はじめに Memobaseは、生成的なAIアプリケーションのための長期的なユーザー記憶をサポートするように設計された、ユーザープロファイルに基づく記憶システムです。バーチャルコンパニオン、教育ツール、パーソナライズされたアシスタントなど、Memobaseは、AIが記憶し、理解し、成長するのを支援します。
9ヶ月前
035K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit:画像修復・編集のオールインワンツール、テンセントアークがリリース

総合紹介 BrushEditは、Tencent ARC Labsが開発したオールインワンの画像修復・編集ツールです。このツールは最新のAI技術に基づいており、画像の欠陥を自動的に識別して修復することができ、ユーザーによるインタラクティブな編集もサポートしています。
11ヶ月前
035K
LLM API Engine:通过自然语言快速生成和部署API

LLM API Engine: 自然言語によるAPIの迅速な生成とデプロイメント

一般的な紹介 LLM API Engineは、開発者がAIを搭載したAPIを迅速に構築し、デプロイできるように設計されたオープンソースプロジェクトです。このプロジェクトは、Large Language Model(LLM)とインテリジェントなウェブクローリング技術を活用し、ユーザーが自然言語記述によってカスタムAPIを作成できるようにします。
10ヶ月前
035K
light card:HTML5卡片生成工具,创建精美内容卡片的简洁工具

ライトカード:HTML5カードジェネレーターツール、シンプルなツールで美しいコンテンツカードを作る

概要 lightcard は、ユーザーが簡単に美しいコンテンツカードを作成できるように設計された、シンプルでエレガントなカード生成ツールです。このツールは、カスタムテキストコンテンツ、複数のテーマスタイル、QRコードに対応しており、作成がより簡単で楽しくなります。ユーザーは、タイトル、本文、作者を編集できます。
11ヶ月前
034.9K
GraphGen:利用知识图谱生成合成数据微调语言模型

GraphGen: 知識グラフを使って言語モデルを微調整し、合成データを生成する

包括的な紹介 GraphGenは、上海のAIラボであるOpenScienceLabによって開発されたオープンソースのフレームワークであり、GitHubでホストされている。GraphGenは、知識グラフを通して合成データ生成を導くことによって、大規模言語モデル(LLM)の教師ありファインチューニングを最適化することに焦点を当てている。LLMは...
7ヶ月前
034.9K
Srcbook:开源快速构建和迭代完整TypeScript项目的全栈AI工程师

Srcbook:TypeScriptの完全なプロジェクトを迅速に構築し、反復するオープンソースのフルスタックAIエンジニア

Srcbookの概要 SrcbookはTypeScriptを中心としたアプリケーション開発プラットフォームであり、AIアシスタントを用いてWebアプリケーションを迅速に作成し、繰り返し実行できるように設計されている。ネイティブランタイムをサポートし、インタラクティブなノートブックインターフェースを提供し、バックエンドのコードを書いて実行することができる。
1年前
034.9K
Step-Video-T2V:支持多语言输入和长视频生成的文生视频模型

Step-Video-T2V:多言語入力とロングビデオ生成をサポートするVincennesビデオモデル

総合紹介 Step-Video-T2VはStepFun AI (StepFun Star)による先進的なテキストから動画への変換モデルです。このモデルは30億のパラメータを持ち、最大204fpsの動画を生成することができます。深く圧縮された可変オートエンコーダ(VAE)により、このモデルは...
9ヶ月前
034.9K
ChatOllama:基于Nuxt 3和Ollama的本地实时聊天应用UI

ChatOllama: Nuxt 3とOllamaをベースにしたローカルリアルタイムチャットアプリケーションUI

包括的な紹介 ChatOllamaは、大規模言語モデル(LLM)に基づくオープンソースのオンラインチャットアプリケーションプロジェクトです。ユーザは、モデル管理(リスト表示、ダウンロード、削除)、モデルとのチャットやその他の機能のためにプラットフォームを使用することができます。このプロジェクトは...
1年前
034.9K
Proxy Lite:3B参数视觉模型驱动的网页自动化工具

Proxy Lite:3Bパラメトリック・ビジュアルモデル駆動型ウェブ自動化ツール

包括的な紹介 Proxy Liteは、Convergence AIによって開発されたオープンソースの軽量なWeb自動化ツールで、Proxyのミニバージョンとしてオープンウェイト設計になっています。3BパラメータのVisual Language Model (VLM)をベースにしており、自己...
9ヶ月前
034.9K
Charla:基于终端的极简AI聊天工具,本地集成Ollama后端

Charla: Ollamaバックエンドにネイティブに統合されたエンドポイントベースのミニマルなAIチャットツール

概要 Charlaはエンドポイントベースのチャットアプリケーションで、ネイティブ言語モデルとの対話ができるように設計されています。このアプリケーションはOllamaバックエンドと統合され、コンテキストを考慮した対話をサポートし、チャットセッションをMarkdownファイルとして保存します。ユーザーは単に...
10ヶ月前
034.9K
语析(Yuxi-Know):基于知识图谱的智能问答平台

Yuxi-Know:知識グラフベースのインテリジェントQ&Aプラットフォーム

Yuxi-Knowは、ナレッジグラフとRAG(Retrieval Augmented Generation)技術を組み合わせたオープンソースのインテリジェントなQ&Aプラットフォームで、ユーザーが素早く正確な回答を得られるように支援します。知識グラフを保存するためにNeo4jをベースにしており、FastAPIとVueJS構造を使っています。
8ヶ月前
034.9K
AIBot PRO:集成多种AI产品的商业化聚合平台

AIBot PRO:複数のAI製品を統合した商品化アグリゲーション・プラットフォーム

総合紹介 AIBot PROは、複数のAI製品を統合するための便利なプラットフォームをユーザーに提供するために設計された、.NET 6ベースのAIアグリゲーションクライアントです。このクライアントは、無感覚な切り替え対話をサポートし、ChatGPT、Gemini、Claude、Wenxin Yiyin...を統合します。
9ヶ月前
034.9K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: データクリーニング効率を向上させるセマンティックテキスト重複排除の高速実装

包括的な紹介 SemHashは、意味的類似性によってデータセットの重複を除去するための軽量で柔軟なツールです。Model2Vecの高速な埋め込み生成と、Vicinityの効率的なANN(近似最近傍)類似検索を組み合わせています。
10ヶ月前
034.9K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor:見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント

概論 Gemini Cursorは、GoogleのGemini 2.0 Flash(実験的)モデルをベースとしたデスクトップ知的アシスタントである。Gemini Cursorは、マルチモーダルAPIを通じて、視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延な利用を提供します。
10ヶ月前
034.9K
Ant Design X:快速构建AI聊天界面的工具包,支持模型集成和数据流管理。

Ant Design X: モデル統合とデータフロー管理をサポートし、AIチャットインターフェースを迅速に構築するためのツールキット。

包括的な紹介 Ant Design Xは、Ant Groupによってオープンソース化されたツールキットで、開発者がAI主導の対話インターフェースを素早く構築できるように設計されています。豊富なコンポーネントとテンプレートのセットを提供し、OpenAI標準と互換性のあるモデル統合をサポートし、インテリジェントなカスタマーサービス、AIアシスタント、その他のような様々なアプリケーションに適しています。
1年前
034.9K
Arrakis:为AI智能体提供安全沙盒环境的开源工具

Arrakis:AIインテリジェンスに安全なサンドボックス環境を提供するオープンソースツール

一般的な紹介 Arrakisは、安全でカスタマイズ可能な環境を提供するためにAI知能のために設計されたサンドボックス環境です。Abhishek Bhardwajによって開発され、GitHubでホストされており、AGPL v3ライセンスを使用しています。
8ヶ月前
034.8K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: Smart Spectrumのグラフィカル・インターフェース自動化のためのオープンソースのインテリジェント視覚言語モデル

包括的な紹介 CogAgentは清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースの視覚言語モデルであり、プラットフォーム間のグラフィカルユーザインタフェース(GUI)操作の自動化を目的としている。このモデルはCogVLM(GLM-4V-9B)をベースにしており、中国語と英語の二ヶ国語をサポートしている。
11ヶ月前
034.8K
Lux:几乎支持所有视频平台的命令行视频下载器

Lux: ほぼすべてのビデオプラットフォームをサポートするコマンドライン動画ダウンローダー

概要 Luxは、Goで書かれた高速でシンプルなビデオダウンロードライブラリとコマンドラインツールです。YouTube、Bilibili、Youkuなど、複数のウェブサイトからの動画ダウンロードをサポートしています。Luxは、マルチスレッドダウンロードなど、様々なダウンロードオプションと機能を提供します。
10ヶ月前
034.8K
Awesome LLM Apps:收集和探索优秀开源的LLM应用程序,一行命令快速部署

素晴らしいLLMアプリ:優れたオープンソースのLLMアプリを収集・探索し、コマンド1つで素早くデプロイできます!

概要 Awesome LLM Appsは、Shubham Sabooによって作成されたGitHubリポジトリで、素晴らしいLLM(大規模言語モデリング)アプリを幅広く集め、紹介することに特化しています。このリポジトリには、OpenAI、An...
1年前
034.8K
Second Me:本地训练拥有个人记忆和习惯的AI分身

セカンド・ミー:個人的な記憶と習慣を持つ、現地で訓練されたAIドッペルゲンガー

Second MeはMindverseチームによって開発されたオープンソースプロジェクトで、あなたのコンピューター上に「デジタル・ドッペルゲンガー」のような働きをするAIを作り、あなたの言葉や記憶を通してあなたの話し方や癖を学習し、あなたのことを理解する賢い人間になることができる。
8ヶ月前
034.8K
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek: git リポジトリのテキストファイルを読み込んで、大規模なモデルのために素早くチャンキングする。

一般的な紹介 Yekは、リポジトリやディレクトリからテキストファイルを読み込んでチャンキングし、大規模言語モデル(LLM)で使用するためにシリアライズするRustベースの高速ツールです。このツールはデフォルトで .gitignore ルールを使って不要なファイルをスキップし、...
10ヶ月前
034.8K
RLAMA:命令行操作的本地文档智能问答 RAG 系统

RLAMA: コマンドラインから操作するローカルドキュメントのインテリジェントなクイズのためのRAGシステム

一般的な紹介 RLAMAはDonTiziによってオープンソースで開発され、GitHubでホストされている文書インテリジェンスクイズRAG(Retrieval Augmentation Generation)システムである。ユーザは簡単なターミナルコマンドを使って、ローカルの...
9ヶ月前
034.7K
Text2Video-Zero:Picsart AI Research团队发布的文本到视频零样本生成器

Text2Video-Zero: Picsart AI研究チームによるテキストからビデオへのゼロサンプル生成ツールがリリースされました。

一般的な紹介 Text2Video-Zeroは、Picsart AI Researchチームによって開発されたGitHub用のサンプル数ゼロのテキストからビデオへのジェネレーターの公式実装です。このプロジェクトは、時間的一貫性と正しいテキストを生成するためにテキストキューを使用する方法を提供します。
1年前
034.7K
基于Cloudflare Worker的AI图片生成脚本

Cloudflare WorkerベースのAI画像生成スクリプト

概論 CloudFlare-AI-ImageはGitHubでホストされているオープンソースプロジェクトで、Cloudflare Workersプラットフォームを通じて無料のAI画像生成サービスを提供している。CloudFlare-AI-Imageは、CloudFlare Workersプラットフォームを通じて無料のAI画像生成サービスを提供するオープンソースプロジェクトです。
8ヶ月前
034.7K
DeepRant:实时翻译游戏聊天内容的开源客户端

DeepRant: ゲームチャットコンテンツのリアルタイム翻訳用オープンソースクライアント

概要 DeepRantは、国際サーバーにおける言語の障壁の問題を解決するために設計された、ゲーマー向けのオープンソース翻訳ツールです。ショートカットキーを使ってゲーム内のテキストを瞬時に翻訳することができ、複数の言語による相互翻訳をサポートし、プレイヤーがゲームを終了することなくチャットメッセージを素早く理解し、返信することを可能にします。
9ヶ月前
034.7K
UNO:支持单主体和多主体定制化图像生成工具(适合电商配图)

UNO:単一主題および複数主題のカスタマイズされた画像生成ツールのサポート(eコマース・グラフィックに最適)

UNOはByteDance Intelligent Creation Teamによって開発されたオープンソースの画像生成フレームワークです。FLUX.1モデルに基づいており、"less-to-more "汎化アプローチによる単一被写体および複数被写体のカスタム画像生成に重点を置いている。
7ヶ月前
034.6K
Quadratic:集成AI对话和代码执行的在线数据分析表格

Quadratic: AI対話とコード実行を統合したオンラインデータ分析フォーム

概要 Quadraticは、AI、コード、データ接続機能を組み合わせたオープンソースのスマート・スプレッドシート・ツールで、強力なデータ処理と分析機能をユーザーに提供するように設計されています。Python、SQL、Rustなどのプログラミング言語をサポートすることで、Quadratic...
9ヶ月前
034.6K
Model Context Provider CLI:任意大模型中使用MCP服务的命令行工具,不依赖Claude

Model Context Provider CLI: クロードに依存しない、あらゆる大規模モデルでMCPサービスを使用するためのコマンドラインツール。

包括的な紹介 モデルコンテキストプロバイダCLI(mcp-cli)は、モデルコンテキストプロバイダサーバと対話するためのプロトコルレベルのコマンドラインツールです。このツールによって、ユーザーはコマンドを送信したり、データを照会したり、サーバーが提供する様々なリソースと対話したりすることができます...
9ヶ月前
034.6K
EchoMimic:音频驱动人像照片生成说话视频(EchoMimicV2加速版安装包)

EchoMimic: 音声駆動ポートレートによるトーキングビデオ生成 (EchoMimicV2 アクセラレータ)

概要 EchoMimicは、音声によってリアルなポートレートアニメーションを生成するために設計されたオープンソースプロジェクトです。AntグループのTerminal Technologies部門によって開発されたこのプロジェクトは、編集可能なマーカーポイント条件を利用し、音声と顔のマーカーポイントを組み合わせて、ダイナミックなポートレート動画を生成します。
11ヶ月前
034.6K
Weebo:实时语音聊天机器人,提供自然语言对话体验

Weebo: 自然言語での対話体験を提供するリアルタイム音声チャットボット

はじめに Weeboは、音声認識にWhisper Small、自然言語生成にLlama 3.2、音声合成にKokoro-82Mを利用したオープンソースのリアルタイム音声チャットボットです。このプロジェクトはAman...によって開発されました。
10ヶ月前
034.6K
Llama Tutor:提供个性化辅导的AI工具,基于 Llama 3.1 构建的开源 AI 个人助教项目

Llama Tutor: パーソナライズされた個人指導を提供するAIツール, Llama 3.1で構築されたオープンソースのAI個人指導プロジェクト

一般的な紹介 Llama Tutorは、Llama 3.1上に構築されたオープンソースのAIパーソナル・チューター・プロジェクトで、パーソナライズされた学習体験をユーザーに提供するように設計されています。Together AI、Next.js、T...などの複数の技術スタックを統合することで、学習者のニーズに合わせた学習体験を提供します。
1年前
034.5K
MemFree:本地知识库与搜索信息混合的AI搜索引擎

MemFree:地域の知識ベースと検索情報を混合するAI検索エンジン

概要 MemFreeは、テキスト、画像、文書、ウェブページを検索し、質問することができる高度なハイブリッドAI検索エンジンです。テキスト、マインドマップ、画像、動画の検索結果にワンクリックでアクセスすることができます。MemFreeは、ユーザーの知識ベースから情報を抽出し、...
1年前
034.5K
Fragments:类似于 Anthropic 的 Claude Artifacts、Vercel v0 或 GPT Engineer 等应用程序的开源版本

フラグメント:AnthropicのClaude Artifacts、Vercel v0、GPT Engineerのようなアプリケーションのオープンソース版。

概論 Fragments by E2Bは、Next.jsをベースとした、AIのみで生成されるアプリケーションを構築するためのテンプレートを提供するオープンソースプロジェクトです。このプロジェクトは、AIアプリケーションの開発プロセスを簡素化し、高速化するためにE2Bによって開発されました。このプロジェクトには、さまざまな現在のAIが統合されています。
1年前
034.5K
R2R:多模态内容解析并结合知识图谱与混合搜索的先进AI检索(RAG)系统

R2R: マルチモーダルコンテンツを解析し、知識グラフとハイブリッド検索を組み合わせた高度AI検索(RAG)システム

包括的な紹介 R2R (RAG to Riches)は、RAG (Retrieval Augmented Generation)機能をサポートする先進的なAI検索システムで、本番環境ですぐに使える機能を備えています。コンテナ化されたRESTful API上に構築されたこのシステムは、マルチモーダルコンテンツの解析、ハイブリッド検索機能を提供します。
11ヶ月前
034.5K
Langui:开源的AI用户界面组件库

Langui: AIユーザーインターフェイスコンポーネントのオープンソースライブラリ

概要 LangbaseIncのLanguiは、生成AIや大規模言語モデリング(LLM)プロジェクトのために設計されたオープンソースのユーザーインターフェイスコンポーネントライブラリです。このライブラリはTailwind CSSをベースにしており、開発者が素早くUIを構築できるように、あらかじめビルドされたUIコンポーネントのコレクションを提供します。
10ヶ月前
034.5K
Devin.cursorrules:增强Cursor IDE开发体验,将Cursor/Windsurf打造成类Devin智能编程助手

Devin.cursorrules:カーソルIDE開発体験の向上、Cursor/WindsurfをDevinライクなインテリジェント・プログラミング・アシスタントに

概要 Devin.cursorrulesは、手頃な価格のCursorまたはWindsurf IDE(~20ドル)をDevinのような強力なAIプログラミング・アシスタントに変換するために設計された革新的なオープンソース・プロジェクトです。このプロジェクトは、CursorまたはWindsurf IDE(~20ドル)をDevinのような強力なAIプログラミング・アシスタントに変換するために設計されています。
11ヶ月前
034.5K
AppAgent:利用多模态智能体自动操作智能手机

AppAgent:マルチモーダルインテリジェンスによるスマートフォンの自動操作

包括的な紹介 AppAgentは、スマートフォンのアプリケーションを操作するために設計されたLarge Language Model(LLM)ベースのマルチモーダルエージェントフレームワークです。このフレームワークは、簡素化された操作空間を通じて、タップやスワイプといった人間のインタラクションを模倣する。そのため、システムのバックエンドにアクセスする必要がなく、さまざまなアプリケーションでの利用が可能である。
11ヶ月前
034.4K
HelloMeme:生成局部高保真表情动作一致的图像或视频,Runway Act one 开源平替

HelloMeme:ローカルの忠実度の高い表現アクション一貫性のある画像やビデオを生成、Runway Act oneオープンソースピンポン!

包括的な紹介 HelloMemeはHelloVisionによって開発されたオープンソースプロジェクトであり、空間編み目アテンションを統合することによって、拡散モデルに高レベルで忠実なストリップを埋め込むことを目的としている。
12ヶ月前
034.4K
VimLM:本地LLM驱动的Vim编程助手,安全离线的智能编程

VimLM: ネイティブLLM駆動のVimプログラミングアシスタント。

概要 VimLMは、ネイティブのLLM(Large Language Model)によって駆動されるコードアシスタントを提供するVimプラグインです。Vim コマンドを通してネイティブの LLM モデルと対話することで、コードのコンテキストを自動的に取得し、Vim でのコード編集を支援します。
9ヶ月前
034.4K
Devika:开源的AI软件工程师智能体,能够理解、拆分指令为子任务并编写代码

Devika:命令を理解し、サブタスクに分割してコードを書く、オープンソースのAIソフトウェアエンジニアの知能

一般的な紹介 Devikaは高度なAIソフトウェアエンジニアであり、人間の高度な指示を理解し、それをステップに分解し、関連する情報を研究し、与えられた目標を達成するためにコードを書く。大規模な言語モデル、計画・推論アルゴリズム、ウェブブラウジング機能を使って、インテリジェントにソフトウェアを開発する。
9ヶ月前
034.4K
TripoSG:单张图像生成高分辨率3D建模数字资产

TripoSG: 1枚の画像から高解像度の3Dモデリングデジタル資産を生成

概論 TripoSGはVAST AI研究チームによって開発されたオープンソースプロジェクトで、1枚の画像から高品質の3Dモデルを生成する。このプロジェクトでは、大規模な整流器フローコンバーター技術を用い、ハイブリッド教師あり学習と高品質なデータセットを組み合わせることで、生成された3Dモデルに...
8ヶ月前
034.3K
Gemini Search:Gemini 2.0 Flash构建的 Perplexity 风格 AI 搜索引擎

Gemini Search: Gemini 2.0 Flashで構築されたPerplexityスタイルのAI検索エンジン

包括的な紹介 Gemini-SearchはGoogle Gemini 2.0の技術に基づいたオープンソースのインテリジェント検索エンジンのプロジェクトである。このプロジェクトはTypeScriptを使用しており、Perplexity検索エンジンの複製に取り組んでいる。
11ヶ月前
034.3K
DragGAN:交互式图像编辑工具,点选和拖拽控制图像位置

DragGAN: インタラクティブな画像編集ツール、ポイント&クリックとドラッグ&ドロップによる画像位置のコントロール

概要 DragGANは、Generative Adversarial Networks(GAN)をベースとしたインタラクティブな画像編集ツールである。Xingang PanらによってSIGGRAPH 2023で発表され、ポイント・アンド・クリックやドラッグ・アンド・ドロップの簡単な操作で直感的に操作できることを目的としている...
12ヶ月前
034.3K
AutoGPT:工作流自动化与自主执行任务的智能体构建平台

AutoGPT:ワークフロー自動化と自律的タスク実行のためのインテリジェントな身体構築プラットフォーム

包括的な紹介 AutoGPTは、継続的に稼働するAIエージェントの作成、導入、管理を支援し、複雑なワークフローを自動化するために設計された強力なプラットフォームです。Significant Gravitas社によって開発されたこのプラットフォームは、幅広いツールと機能を提供し、ユーザがAIエージェントに集中できるようにします。
12ヶ月前
034.3K
ALog:便携AI语音日记应用,支持语音转文字。

ALog:音声読み上げ機能付きの携帯型AI音声日記アプリ。

一般的な紹介 ALogはAIベースの音声日記アプリケーションで、ユーザーが音声で日常生活を記録できるように設計されています。duxinsによって開発され、GitHubでオープンソース化されている。ユーザーは音声入力で日記を記録することができ、アプリは自動的に音声をテキストに変換します...
10ヶ月前
034.3K
深度搜索器:利用本地知识进行深度推理搜索的开源项目

Deep Finder: 局所的知識を利用した深層推論検索のためのオープンソースプロジェクト

包括的な紹介 Deep Searcherは、大規模言語モデル(LLM)とベクトルデータベースを組み合わせた強力なツールで、プライベートデータに基づいて検索、評価、推論を行い、精度の高い回答と包括的なレポートを提供するように設計されています。企業のナレッジマネジメントに適しています。
10ヶ月前
034.3K
VideoRAG:理解超长视频的RAG框架,支持多模态检索和知识图谱构建

VideoRAG:マルチモーダル検索と知識グラフ構築をサポートする超長尺動画理解のためのRAGフレームワーク

包括的な紹介 VideoRAGは、非常に長い文脈動画を処理し理解するために設計された、検索機能を強化した生成フレームワークです。このツールは、グラフ駆動のテキスト知識ベースと階層的なマルチモーダルコンテキストエンコーディングを組み合わせ、1つのNVIDIA RTX 3090 GPUで効率的に処理します...
10ヶ月前
034.3K
ColorFlow:漫画着色,黑白图像自动着色,提升图像色彩一致性和质量

ColorFlow:カートゥーンシェーディング、白黒画像の自動シェーディングによる画像の色の一貫性と品質の向上

包括的な紹介 ColorFlowは、Tencent ARCチームによって開発された画像シーケンスの自動カラーリングツールで、白黒画像シーケンスの自動カラーリングの問題を解決します。このツールは、検索で強化されたシェーディングパイプラインを使用して、キャラクターの髪の色やサービスなど、参照画像のプールを通して様々な要素の色を正確に生成します。
11ヶ月前
034.2K
AIEditor:创建AI驱动的富文本编辑器,支持多种前端框架

AIEditor: 複数のフロントエンドフレームワークをサポートするAI駆動型リッチテキストエディタの作成

包括的な紹介 AIEditorは、Webコンポーネント開発に基づいて、Vue、React、Angularおよび他のほとんどすべての主流のフロントエンドフレームワークをサポートしているAI駆動型の次世代リッチテキストエディタです。PCのWebと...
11ヶ月前
034.2K
Neural4D:生成高分辨率3D建模数字资产的AI平台

Neural4D:高解像度3Dモデリングデジタル資産を生成するAIプラットフォーム

概論 Neural4Dは、ユーザーが簡単なテキストや画像を入力するだけで、高品質な3Dモデルやアニメーションを素早く生成できるよう支援することに重点を置いた、AIベースの革新的なプラットフォームです。DreamTech社によって開発されたこのプラットフォームは、世界をリードするエンドツーエンドの大規模3Dモデル生成技術に依存しています。
9ヶ月前
034.2K
TPO-LLM-WebUI:输入问题即可实时训练模型输出结果的AI框架

TPO-LLM-WebUI:質問を入力してリアルタイムにモデルを学習し、結果を出力できるAIフレームワーク。

概論 TPO-LLM-WebUIは、AirmomoがGitHubでオープンソース化している革新的なプロジェクトで、直感的なWebインターフェースを通じて大規模言語モデル(LLM)のリアルタイム最適化を可能にします。TPO (Test-Time Pr...
9ヶ月前
034.2K
DevDocs:快速抓取并整理技术文档的MCP服务

DevDocs:技術文書を素早くクロールして整理するMCPサービス

概要 DevDocsは、CyberAGIチームによって開発され、GitHubでホストされている完全に無料のオープンソースツールです。プログラマーやソフトウェア開発者のために設計されたこのツールは、技術文書のURLから始まり、関連するページを自動的にクロールし、簡潔なMa...
8ヶ月前
034.2K
Dolphin:面向亚洲语言识别与语音转文本模型

ドルフィン:アジア言語認識とアジア言語のための音声テキストモデル

総合紹介 Dolphinは、DataoceanAIと清華大学によって開発された、アジア言語の音声認識と言語認識に特化したオープンソースモデルです。東アジア、南アジア、東南アジア、中東の40の言語と22の中国語方言をサポートしています。
8ヶ月前
034.2K