AIオープンソースプロジェクト

合計1020記事
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni:マルチモーダル入力とリアルタイム音声対話のためのエンド計測モデル

包括的な紹介 Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、リアルタイムでテキストや自然な音声による応答を生成することができる。このモデルは2025年の3 ...
7ヶ月前
025.4K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest:世界をリードする軽量・高性能エンドサイド・ビッグモデル

概要 ModelBestは、軽量かつ高性能な大型モデルの開発に注力する企業であり、先進的なAI技術をメインストリーム家電や日常生活のあらゆるエンドデバイスに応用することに専念している。同社のMiniCPMシリーズは、非常に高い演算能力とメモリ使用効率を備えたエンドサイドモデルです。
12ヶ月前
025.4K
CFG-Zero-star:提升图像和视频生成质量的开源工具

CFG-Zero-star:画像とビデオの生成品質を向上させるオープンソースツール

包括的な紹介 CFG-Zero-starは、Weichen Fanと南洋理工大学のS-Labチームによって開発されたオープンソースプロジェクトです。誘導戦略とゼロ初期値を最適化することで、ストリーム・マッチング・モデルにおけるクラシファイア・フリー・ガイダンス(CFG)技術を改善することに焦点を当てています。
7ヶ月前
025.4K
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块

MiniRAG:簡易検索拡張生成フレームワーク、エンティティグラフインデックスリコール関連テキストブロック

包括的な紹介 MiniRAGは、極めてシンプルなRAG(Retrieval Augmented Generation)フレームワークであり、ヘテロジニアスグラフインデキシングと軽量なトポロジー拡張検索によって、小さなモデルでも優れたRAG性能を実現することを目的としている。香港大学データサイエンス研究室(HKUDS)によって開発され、...
9ヶ月前
025.3K
Raycast-G4F:通过Raycast免费使用GPT-4、Llama-3等多种 AI 模型

Raycast-G4F: Raycastを通じてGPT-4、Llama-3、その他多くのAIモデルに無料でアクセスできます!

概論 Raycast-G4F(GPT4Free)は、GPT-4、Llama-3を含む幅広い先進的なAIモデルに無料でアクセスできる強力なRaycast拡張機能です。この拡張機能は、リアルタイムのダイアログストリーミングを提供するだけでなく...
9ヶ月前
025.3K
NodeRAG:基于异构图的精准信息检索与生成工具

NodeRAG:正確な情報検索と生成のための異種グラフベースのツール

包括的な紹介 NodeRAGはGitHubでホストされているオープンソースの検索拡張生成(RAG)システムであり、Terry-Xu-666によって開発された。異種グラフ構造によって情報検索と生成を最適化し、検索精度と文脈関連性を大幅に向上させます。
6ヶ月前
025.3K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型

Moshi: 複数言語とアクセントをサポートするリアルタイム音声対話フレームワーク。

はじめに Moshi Chatは、フランスの非営利AI研究所Kyutaiが開発したエンドツーエンドのリアルタイムAI音声アシスタントです。リアルタイムで話を聞くだけでなく、自然な会話を行い、見る、聞く、話すといったマルチモーダルなインタラクションをサポートします。
1年前
025.3K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

概要 Chunkrは、PDF、PPTX、DOCX、ExcelファイルをRAG(Retrieval Augmented Generation)やLLM(Large Language Modelling)で使用するのに適したデータに変換するためのセルフホストAPIです。このプロジェクトはLumina...によって開発されました。
10ヶ月前
025.3K
AutoGPT:工作流自动化与自主执行任务的智能体构建平台

AutoGPT:ワークフロー自動化と自律的タスク実行のためのインテリジェントな身体構築プラットフォーム

包括的な紹介 AutoGPTは、継続的に稼働するAIエージェントの作成、導入、管理を支援し、複雑なワークフローを自動化するために設計された強力なプラットフォームです。Significant Gravitas社によって開発されたこのプラットフォームは、幅広いツールと機能を提供し、ユーザがAIエージェントに集中できるようにします。
10ヶ月前
025.3K
Step-Video-T2V:支持多语言输入和长视频生成的文生视频模型

Step-Video-T2V:多言語入力とロングビデオ生成をサポートするVincennesビデオモデル

総合紹介 Step-Video-T2VはStepFun AI (StepFun Star)による先進的なテキストから動画への変換モデルです。このモデルは30億のパラメータを持ち、最大204fpsの動画を生成することができます。深く圧縮された可変オートエンコーダ(VAE)により、このモデルは...
8ヶ月前
025.3K
Prompt Optimizer:优化主流AI模型提示词的开源工具

プロンプト・オプティマイザー:主流AIモデルのプロンプト語を最適化するオープンソースツール

概論 Prompt Optimizerは、GitHubのlinshenkxによって開発された、プロンプト単語の最適化に焦点を当てたオープンソースツールです。インテリジェントなアルゴリズムによってAIモデルのプロンプトワードを最適化し、生成されるコンテンツの品質を向上させます。
8ヶ月前
025.3K
Moffee:将Markdown转为PPT幻灯片

Moffee:マークダウンをPPTスライドショーに変換する

一般的な紹介 Moffeeは、Markdownファイルを素早く、簡単かつ効率的にプロフェッショナルなスライドショーに変換するオープンソースツールです。ユーザはMarkdownコンテンツを書くだけで、Moffeeはレイアウト、ページ分割、スタイルを自動的に処理し、手作業でタイプセットする必要がなくなります。
7ヶ月前
025.2K
code2prompt:将代码库转换为大模型可理解的prompt文件

code2prompt: コードライブラリをビッグモデルで理解可能なプロンプトファイルに変換する

一般的な紹介 code2promptは、開発者Mufeed VHによって作成され、GitHub上でホストされているオープンソースのコマンドラインツールで、ユーザーがコードベース全体をLarge Language Model(LLM)に適したプロンプト(プロンプト...
7ヶ月前
025.2K
WeChatAI:Windows版微信群聊智能助手客户端

WeChatAI: Windows用WeChatグループチャットインテリジェントアシスタントクライアント

総合的な紹介 WeChatAIはPythonベースのWeChatグループチャットとパーソナルインテリジェントアシスタントで、様々な大規模言語モデル(DeepSeek、Gemini、Tongyi Thousand Questionsなど)をサポートし、インテリジェントな対話、自動返信、その他の機能を実現することができます。このプロジェクトでは、最新の...
8ヶ月前
025.2K
HelloMeme:生成局部高保真表情动作一致的图像或视频,Runway Act one 开源平替

HelloMeme:ローカルの忠実度の高い表現アクション一貫性のある画像やビデオを生成、Runway Act oneオープンソースピンポン!

包括的な紹介 HelloMemeはHelloVisionによって開発されたオープンソースプロジェクトであり、空間編み目アテンションを統合することによって、拡散モデルに高レベルで忠実なストリップを埋め込むことを目的としている。
10ヶ月前
025.2K
WhoDB:支持自然语言交互的轻量数据库可视化管理软件

WhoDB: 自然言語対話をサポートする軽量データベース可視化管理ソフトウェア

概要 WhoDBは、データベース管理タスクを簡素化するために設計された、軽量(~20MB)で強力かつユーザーフレンドリーなデータベース管理ツールです。Adminerのシンプルさと、ユーザーエクスペリエンスとパフォーマンスの向上を兼ね備えています。
11ヶ月前
025.2K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse:各タイプのドキュメントをLLMで利用可能なデータに解析し、表や写真などドキュメント内のすべての情報をそのまま保存する。

概論 MegaParseは、Large Language Model (LLM)のデータ処理を最適化するために設計された、パワフルで多機能な文書解析ツールです。MegaParseは、テキスト、PDF、PowerPointプレゼンテーション、Word文書など、どのような文書を扱う場合でも...
10ヶ月前
025.2K
LivePortrait:静态图像、视频生成动态肖像动画工具

LivePortrait:静止画や動画からダイナミックなポートレートを生成するアニメーションツール

一般的な紹介 LivePortraitはRacer Technologyによって開発された先進的なAIダイナミックポートレートアニメーションツールです。革新的なAI技術を利用し、静止画像を鮮やかなビデオアニメーションに変換します。本物の写真でも、アニメーションスタイルでも、芸術的なポートレートでも、LivePo...
11ヶ月前
025.2K
Genesis:开源生成式物理引擎,实现基于真实物理的4D动态世界模拟

Genesis: 実物理ベースの4Dダイナミックワールドシミュレーションのためのオープンソース生成物理エンジン

一般的な紹介 Genesisは、汎用ロボティクスと具現化AI学習のために設計された生成物理ワールドです。Genesisは、様々な材料や物理現象のシミュレーションをサポートする統一されたシミュレーション・プラットフォームを提供します。
10ヶ月前
025.2K
Sidekick CLI:一个开源的 Claude Code 替代工具

Sidekick CLI: オープンソースのクロードコード置き換えツール

概要 Sidekick CLIは、AIの支援により開発者のプロジェクト開発とデプロイプロセスを簡素化するために設計されたオープンソースのコマンドラインツールです。Claude Code、Copilot、Cursorにインスパイアされ、同様の機能を提供しています。
6ヶ月前
025.2K
ANP:实现智能代理间安全高效通信的开源协议

ANP: インテリジェントエージェント間の安全で効率的な通信のためのオープンソースプロトコル

概要 AgentNetworkProtocol(略してANP)は、GitHubでホストされているオープンソースのプロトコルプロジェクトで、インテリジェントエージェント(AIエージェント)に安全で効率的な通信ソリューションを提供することに焦点を当てている。このプロトコルは、アイデンティティと暗号化という3つのレイヤーから構成されています。
7ヶ月前
025.2K
GPT4Free:反编译AI对话网站接口,免费使用多种GPT模型

GPT4Free: 複数のGPTモデルを自由に使用するためのAI対話ウェブサイトのインターフェイスをデコンパイルします。

GPT4Freeの概要 GPT4Freeは、開発者のxtekkyがGitHubで公開したオープンソースプロジェクトで、GPT-3.5、GPT-4、Llama、Gemini-Pro、Bar...など、さまざまな強力な言語モデルを無料で提供することを目的としています。
12ヶ月前
025.2K
OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

OmniGen:マルチモーダル入力を用いた統一的な画像生成モデルによる、文字の一貫性を保った画像生成

概論 OmniGenはVectorSpaceLabによって開発された「ユニバーサル」画像生成モデルであり、ユーザーは簡単なテキストプロンプトやマルチモーダル入力で、多様で文脈に富んだ視覚効果を作成することができる。OmniGenは、特に、...を認識する必要があるアプリケーションに適しています。
11ヶ月前
025.2K
Agentic Security:开源的LLM漏洞扫描工具,提供全面的模糊测试和攻击技术

Agentic Security: オープンソースのLLM脆弱性スキャンツール。

概要 Agentic Securityは、開発者やセキュリティ専門家に包括的なファズテストと攻撃技術を提供するために設計されたオープンソースのLLM(Large Language Model)脆弱性スキャンツールです。このツールは、カスタムルールセットやエージェントベースの攻撃をサポートし、LLM APを統合することができます。
8ヶ月前
025.2K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: ビデオから任意の移動物体を自動的にセグメント化するオープンソースツール

概要 SegAnyMoは、カリフォルニア大学バークレー校と北京大学の研究者チームによって開発されたオープンソースプロジェクトで、Nan Huangなどのメンバーが参加している。このツールはビデオ処理に重点を置いており、ビデオ内の任意の動く物体、例えば人、動物、...を自動的に識別し、セグメント化することができる。
7ヶ月前
025.2K
TreeGPT:可视化树状对话的AI聊天界面

TreeGPT: ツリーベースの会話を可視化するAIチャットインターフェース

概要 TreeGPTは、Next.jsをベースとしたオープンソースのチャットアプリケーションです。大規模な言語モデル(LLM、GPTなど)の会話を、ツリーグラフ構造(有向非循環グラフ、DAG)を通して可視化することに重点を置き、従来の直線的なチャット手法に取って代わることで、スピードと...
8ヶ月前
025.2K
LlamaEdge:本地运行和微调LLM的最快捷方式

LlamaEdge:LLMをローカルで実行し、微調整する最も迅速な方法!

概要 LlamaEdgeは、ローカルデバイスやエッジデバイス上で大規模な言語モデル(LLM)を実行し、微調整するプロセスを簡素化するために設計されたオープンソースプロジェクトです。このプロジェクトはLlama2ファミリーのモデルをサポートし、OpenAI互換のAPIサービスを提供します。
9ヶ月前
025.2K
AnkiAIUtils:メモリーカードを自動的に最適化する知的アシスタント、Ankiフラッシュカード学習AIツールセット

AnkiAIUtils:メモリーカードを自動的に最適化する知的アシスタント、Ankiフラッシュカード学習AIツールセット

概要説明 AnkiAIUtilsは、フラッシュカード学習システムAnkiのために設計されたAI強化ツールのセットです。医学生によって開発されたこのツールは、AI技術により、学習中にユーザーが苦手とするカードを自動的に改善するように設計されています。ユーザーにパーソナライズされた学習をインテリジェントに提供します。
10ヶ月前
025.2K
Comp AI:自动化SOC 2、ISO 27001和GDPR合规的开源平台

Comp AI: SOC 2、ISO 27001、GDPR コンプライアンスを自動化するオープンソースプラットフォーム

概要 Comp AIは、米国サンフランシスコに本社を置くComp AI社によって開発されたオープンソースのプラットフォームです。自動化されたツールにより、SOC 2、ISO 27001、GDPRなどのコンプライアンス要件を迅速に完了することができます。
6ヶ月前
025.1K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

MarkItDown:Microsoftドキュメントインテリジェント変換ツール、様々なファイルをMarkdown形式に変換

一般的な紹介 MarkItDownはMicrosoftによって開発されたPythonツールで、様々なファイルやオフィス文書をMarkdown形式に変換するように設計されています。このツールは、PDF、PowerPoint、Word、Excel、ダイアグラム...など、幅広い種類のファイルをサポートしています。
10ヶ月前
025.1K
ALog:便携AI语音日记应用,支持语音转文字。

ALog:音声読み上げ機能付きの携帯型AI音声日記アプリ。

一般的な紹介 ALogはAIベースの音声日記アプリケーションで、ユーザーが音声で日常生活を記録できるように設計されています。duxinsによって開発され、GitHubでオープンソース化されている。ユーザーは音声入力で日記を記録することができ、アプリは自動的に音声をテキストに変換します...
9ヶ月前
025.1K
推荐Github优秀开源下载工具

推奨されるGithubの優れたオープンソース・ダウンロードツール

今日のインターネットの急速な発展において、ユーザーが情報やリソースを入手するための重要な手段として、ダウンロードツールは欠かすことのできない役割を果たしている。この記事では、5つのオープンソース・ダウンロードツールを系統的に分析する:AB Download Manager、XDM(Xtreme Download ...
1年前
025.1K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit:画像修復・編集のオールインワンツール、テンセントアークがリリース

総合紹介 BrushEditは、Tencent ARC Labsが開発したオールインワンの画像修復・編集ツールです。このツールは最新のAI技術に基づいており、画像の欠陥を自動的に識別して修復することができ、ユーザーによるインタラクティブな編集もサポートしています。
10ヶ月前
025.1K
BrowserTools MCP:实时监控浏览器活动的MCP服务

BrowserTools MCP: ブラウザの動作をリアルタイムで監視するMCPサービス

概要 BrowserTools MCPは、AgentDeskAIチームによって開発されたオープンソースプロジェクトです。AIがChromeエクステンションとNode.jsサービスを通じて、ログ、ネットワークリクエスト、ブラウザアクティビティをリアルタイムで監視することを可能にします。
7ヶ月前
025.1K
Flow(Laminar):构建智能体的轻量级任务引擎,简化并灵活管理任务

Flow(Laminar):タスクを簡素化し、柔軟に管理するインテリジェンス構築のための軽量タスクエンジン

包括的な紹介 Flowは、シンプルさと柔軟性に重点を置いてAIエージェントを構築するために設計された軽量タスクエンジンです。従来のノードベースやエッジベースのワークフローとは異なり、Flowは並列実行、動的スケジューリング、インテリジェントな依存関係管理をサポートする動的タスクキューシステムを使用する。その中核となるコンセプトは...
10ヶ月前
025.1K
Onlook:面向前端设计开源Cursor,在React应用中设计并发布代码

Onlook: フロントエンド設計のためのオープンソースCursor、Reactアプリケーションの設計とコードの公開

一般的な紹介 Onlookはデザイナーと開発者のために作られたオープンソースのデザインツールで、ユーザーは実行中のReactアプリケーションで直接デザインし、デザインの変更をコードに変換することができます。このツールは、Figma や Webf... に似た直感的なビジュアル編集体験を提供します。
9ヶ月前
025.1K
Open Codex:将自然语言转换为Shell命令的开源AI工具

Open Codex: 自然言語をシェルコマンドに変換するオープンソースAIツール

概論 Open CodexはオープンソースのコマンドラインAIツールで、開発者が自然言語命令を正確なシェルコマンドに変換できるように設計されている。ネイティブ言語モデル(例:phi-4-mini)を使用し、ネットワークやAPIキーを必要とせず、すべての操作を...
6ヶ月前
025.1K
MediaCrawler:多社交媒体平台内容、视频评论爬虫工具

MediaCrawler: マルチソーシャルメディアプラットフォームコンテンツ、ビデオコメントクローラーツール

概要 MediaCrawlerは、開発者向けに設計されたソーシャルメディアコンテンツのクローラーツールです。強力なクローラー機能を提供することで、Xiaohongshu、Shake、Shutter、B、Weiboなどのソーシャルプラットフォームから動画、画像、コメント、いいね、リツイートなどのデータを素早く取得することができます。
1年前
025.1K
Leffa:高保真模特虚拟试穿与人物姿势调整,Meta开源的可控人物图像生成模型

Leffa:高忠実度モデルのバーチャル試着とキャラクターポーズ調整、メタ・オープンソース制御キャラクター画像生成モデル

包括的な紹介 Leffaは、制御可能なキャラクター画像を生成するための統一されたフレームワークであり、キャラクターの外見(バーチャルフィッティングなど)やポーズ(ポーズ転送など)の精密な操作を可能にする。このフレームワークは、ターゲットクエリをアテンション層の正しい参照キーにフォーカスさせることで、細かいディテールの歪みを大幅に低減する。
10ヶ月前
025.1K
Clone Voice:支持多语言的少样本声音克隆工具,基于xtts_v2提供Windows一键安装包

クローンボイス:Windows用のxtts_v2をベースにした多言語、サンプルレス音声クローンツール。

一般的な説明 Clone Voiceはオープンソースのサウンドクローニングツールで、ウェブベースのインターフェイスを提供し、ユーザーが任意のサウンドや個人的な声の録音を使用して声のクローンを作成することができます。このツールは、NVIDIA GPUがなくても簡単に使用でき、コンパイル済みのアプリで使用できます。
1年前
025.1K
Devin.cursorrules:增强Cursor IDE开发体验,将Cursor/Windsurf打造成类Devin智能编程助手

Devin.cursorrules:カーソルIDE開発体験の向上、Cursor/WindsurfをDevinライクなインテリジェント・プログラミング・アシスタントに

概要 Devin.cursorrulesは、手頃な価格のCursorまたはWindsurf IDE(~20ドル)をDevinのような強力なAIプログラミング・アシスタントに変換するために設計された革新的なオープンソース・プロジェクトです。このプロジェクトは、CursorまたはWindsurf IDE(~20ドル)をDevinのような強力なAIプログラミング・アシスタントに変換するために設計されています。
9ヶ月前
025K
VBDeepSeek:使用DeepSeek生成四级单词学习资料的开源工具

VBDeepSeek:DeepSeekを使用して4年生の単語学習教材を作成するためのオープンソースツール

総合紹介 "Vocabulary Book by DeepSeek "はDeepSeekのビッグモデルに基づいて開発されたオープンソースプロジェクトで、英語学習者が大学英語レベル4(CET-4)の語彙を効率的に習得することを目的としています。プロジェクトはGitHubでホストされています...
8ヶ月前
025K
DragGAN:交互式图像编辑工具,点选和拖拽控制图像位置

DragGAN: インタラクティブな画像編集ツール、ポイント&クリックとドラッグ&ドロップによる画像位置のコントロール

概要 DragGANは、Generative Adversarial Networks(GAN)をベースとしたインタラクティブな画像編集ツールである。Xingang PanらによってSIGGRAPH 2023で発表され、ポイント・アンド・クリックやドラッグ・アンド・ドロップの簡単な操作で直感的に操作できることを目的としている...
10ヶ月前
025K
FoleyCrafter:为无声视频添加生动同步的音效

FoleyCrafter: 無音ビデオに鮮やかな同期サウンドを追加する

一般的な紹介 FoleyCrafterは、OpenMMLabによって開発されたオープンソースプロジェクトで、無音ビデオのための鮮明で同期された効果音を生成します。このプロジェクトでは、高度な人工知能技術を用いて、ビデオの内容を分析することにより、意味的に関連性のある、時間的に同期した効果音を生成します...
10ヶ月前
025K
PhotoDoodle:文字指令为照片添加艺术涂鸦的AI工具

PhotoDoodle: テキストコマンドで写真にアーティスティックな落書きができるAIツール

概要 PhotoDoodleは、ShowLabによって開発されたオープンソースの画像編集ツールで、人工知能技術による写真の芸術的な編集に焦点を当てています。ユーザーは、簡単なテキストプロンプトを入力するだけで、実際の写真に漫画スタイル、3D効果、光を追加することができます...
7ヶ月前
025K
混元文生视频:生成写实镜头感的高质量视频,腾讯开源视频生成大模型

ハイブリッドVincennesビデオ:高品質のビデオのリアルな映像を生成し、テンセントは、大規模なモデルのオープンソースのビデオ生成

総合紹介 テンセント混元テキスト生成動画(Yuanbao APPで利用可能)は、テンセントが開始したAI技術に基づく動画生成プラットフォームです。このプラットフォームは、強力な分野横断的知識と自然言語理解力を備えた騰訊混合元ビッグモデルを活用し、ユーザーのテキスト記述に基づいて高品質の動画を生成する。
9ヶ月前
025K
Devika:开源的AI软件工程师智能体,能够理解、拆分指令为子任务并编写代码

Devika:命令を理解し、サブタスクに分割してコードを書く、オープンソースのAIソフトウェアエンジニアの知能

一般的な紹介 Devikaは高度なAIソフトウェアエンジニアであり、人間の高度な指示を理解し、それをステップに分解し、関連する情報を研究し、与えられた目標を達成するためにコードを書く。大規模な言語モデル、計画・推論アルゴリズム、ウェブブラウジング機能を使って、インテリジェントにソフトウェアを開発する。
7ヶ月前
025K
Orama:高性能全文本和向量搜索引擎

Orama:高性能な書籍・ベクトル全文検索エンジン

概説 Oramaはオープンソースの高性能検索エンジンで、すべてTypeScriptで記述されており、全文検索、ベクトル検索、ハイブリッド検索をサポートしている。OramaはあらゆるJavaScript実行環境で動作するように設計されており、高速で信頼性の高い検索を提供する。
9ヶ月前
025K
Fay数字人框架:集成语言模型与3D数字角色,支持多种应用场景

Fayデジタルヒューマンフレームワーク:言語モデルと3Dデジタルキャラクターを統合し、様々なアプリケーションシナリオをサポート。

包括的な紹介 Fayはオープンソースの3Dバーチャルデジタルヒューマンフレームワークであり、バーチャルショッピングガイド、バーチャルキャスター、アシスタント、ウェイター、教師、音声またはテキストベースのモバイルアシスタントなど、様々なアプリケーションシナリオのための言語モデルとデジタルキャラクタを統合しています。
9ヶ月前
025K
Proxy Lite:3B参数视觉模型驱动的网页自动化工具

Proxy Lite:3Bパラメトリック・ビジュアルモデル駆動型ウェブ自動化ツール

包括的な紹介 Proxy Liteは、Convergence AIによって開発されたオープンソースの軽量なWeb自動化ツールで、Proxyのミニバージョンとしてオープンウェイト設計になっています。3BパラメータのVisual Language Model (VLM)をベースにしており、自己...
7ヶ月前
025K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: データクリーニング効率を向上させるセマンティックテキスト重複排除の高速実装

包括的な紹介 SemHashは、意味的類似性によってデータセットの重複を除去するための軽量で柔軟なツールです。Model2Vecの高速な埋め込み生成と、Vicinityの効率的なANN(近似最近傍)類似検索を組み合わせています。
9ヶ月前
024.9K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX:マルチモーダル・マクロモデルを用いた胸部X線写真解析のためのインテリジェントボディ

包括的な紹介 MedRAXは、胸部X線(CXR)解析用に設計された最先端のAIインテリジェンスです。最先端のCXR解析ツールとマルチモーダル大規模言語モデルを統合し、追加トレーニングなしで複雑な医療クエリを動的に処理します。
7ヶ月前
024.9K
MiMo:高效数学推理与代码生成的小型开源模型

MiMo: 効率的な数学的推論とコード生成のための小さなオープンソースモデル

一般的な紹介 MiMoはXiaomiによって開発されたオープンソースの大規模言語モデリングプロジェクトであり、数学的推論とコード生成に焦点を当てている。コアプロダクトはMiMo-7Bファミリーのモデルで、ベースモデル(Base)、教師あり微調整モデル(SFT)、ベースモデルから学習された強力な化学モデル(Strong Chemical)を含んでいます。
5ヶ月前
024.9K
AI ContentCraft:生成短故事、对话脚本、配音、配图的多功能AI内容创作工具

AI ContentCraft:ショートストーリー、ダイアログスクリプト、ナレーション、グラフィックを生成するための多機能AIコンテンツ作成ツール

概要 AI ContentCraftは、テキスト生成、音声合成、画像生成などを統合した多機能なコンテンツ作成ツールです。ストーリー、ポッドキャストスクリプト、付随するオーディオやビデオコンテンツを素早く生成することができます。このツールは複数の言語変換をサポートし、バッチ処理も可能です。
9ヶ月前
024.9K
LocalGPT:在本地设备上与多文档对话,确保数据隐私

LocalGPT:ローカルデバイス上の複数のドキュメントと対話することで、データプライバシーを確保する

一般的な紹介 LocalGPTはオープンソースプロジェクトで、ユーザーがローカルデバイス上のドキュメントと会話できるように設計されており、データのプライバシーを保証します。様々なオープンソースモデルを使用することで、LocalGPTはデータをクラウドにアップロードすることなく、ドキュメントコンテンツを処理し理解することができます。このプロジェクトは、様々なアプリケーションをサポートしています。
10ヶ月前
024.9K
PPTX2MD:将PPTX文件转换为Markdown的专用工具

PPTX2MD: PPTXファイルをMarkdownに変換する特別なツール

概要 PPTX2MDは、PowerPointのPPTXファイルをMarkdown形式に変換するために設計されたオープンソースツールです。GitHubユーザーのssine氏によって開発されたこのツールは、見出し、リスト、テキストフォーマット(例:太字、斜体、色、スーパー...)を保持することをサポートしています。
8ヶ月前
024.9K
Search-R1:强化学习训练大模型搜索与推理的工具

Search-R1: 検索と推論のための大規模モデルを学習する強化学習

概要 Search-R1はPeterGriffinJinによってGitHub上で開発されたオープンソースプロジェクトであり、veRLフレームワーク上に構築されている。強化学習(RL)技術によって大規模言語モデル(LLM)を学習し、モデルが自律的に学習することを可能にします...
7ヶ月前
024.9K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: Smart Spectrumのグラフィカル・インターフェース自動化のためのオープンソースのインテリジェント視覚言語モデル

包括的な紹介 CogAgentは清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースの視覚言語モデルであり、プラットフォーム間のグラフィカルユーザインタフェース(GUI)操作の自動化を目的としている。このモデルはCogVLM(GLM-4V-9B)をベースにしており、中国語と英語の二ヶ国語をサポートしている。
10ヶ月前
024.9K
Data Formulator:AI驱动的数据可视化工具

Data Formulator:AIによるデータ可視化ツール

概論 Data Formulator は Microsoft Research によって開発されたオープンソースのAI駆動型データ可視化ツールである。このツールは、グラフィカル・ユーザー・インターフェース (GUI) と自然言語入力 (NL) を組み合わせたもので、ユーザーは簡単なインタラクションやコマンドによって、素早くデータを作成し、反復することができます。
8ヶ月前
024.9K
AI Chatbot:Vercel 构建和部署智能聊天机器人

AIチャットボット:ヴェルセル、インテリジェントなチャットボットを構築・展開

概要 AI ChatbotはVercelによって開発されたオープンソースプロジェクトで、開発者がインテリジェントなチャットボットを素早く構築し、デプロイすることを支援します。このプロジェクトはNext.jsフレームワークに基づいており、OpenAI...などの様々なAIモデルプロバイダと統合されています。
10ヶ月前
024.8K
EchoMimic:音频驱动人像照片生成说话视频(EchoMimicV2加速版安装包)

EchoMimic: 音声駆動ポートレートによるトーキングビデオ生成 (EchoMimicV2 アクセラレータ)

概要 EchoMimicは、音声によってリアルなポートレートアニメーションを生成するために設計されたオープンソースプロジェクトです。AntグループのTerminal Technologies部門によって開発されたこのプロジェクトは、編集可能なマーカーポイント条件を利用し、音声と顔のマーカーポイントを組み合わせて、ダイナミックなポートレート動画を生成します。
9ヶ月前
024.8K
Deep Recall:为大模型提供企业级记忆框架的开源工具

Deep Recall:大規模モデルのためのエンタープライズクラスのメモリフレームワークを提供するオープンソースツール

包括的な紹介 Deep Recallは、大規模言語モデル(LLM)のために設計されたオープンソースのエンタープライズクラスのメモリフレームワークです。効率的な文脈検索と統合により、超パーソナライズされた応答性を提供します。このフレームワークは、メモリサービス、推論サービス、コーディネータを含む3層アーキテクチャを採用しており、...
5ヶ月前
024.8K
AnimeGamer:用语言指令生成动漫视频和角色互动的开源工具

AnimeGamer: 言語コマンドでアニメ動画とキャラクターのインタラクションを生成するオープンソースツール

AnimeGamerはテンセントのARC Labが開発したオープンソースツール。ユーザーは、「宗介が紫の車でドライブする」といった簡単な言語コマンドでアニメ動画を生成したり、「魔法少女の冒険」のキキや「スカイシティ」...といった異なるアニメキャラクターを相互作用させたりすることができる。
6ヶ月前
024.8K
AgenticSeek:完全本地运行的任务自动化AI助手

AgenticSeek:完全にローカルで動作するタスク自動化のためのAIアシスタント

概要 AgenticSeekは、完全にローカルで動作するオープンソースのAIアシスタントで、Deepseek R1モデルに基づいています。クラウドAPIを必要とせず、数百ドルの月額費用もかかりません。映画の「ジャービス」のような知的アシスタントを目指しています。
7ヶ月前
024.8K
Harbor:一键部署本地LLM开发环境,轻松管理和运行AI服务的容器化工具集

Harbor: ローカルのLLM開発環境をワンクリックでデプロイし、AIサービスを簡単に管理・実行するためのコンテナ化されたツールセット。

概論 Harborは、ローカルのAI開発環境のデプロイと管理を簡素化することに焦点を当てた、画期的なコンテナ化LLMツールセットです。クリーンなコマンドラインインターフェイス(CLI)とコンパニオンアプリケーションにより、ワンクリックでLLMバックエンド、APIインターフェイス、フロント...
9ヶ月前
024.8K
opensource_notebooklm:基于Deepseek-V3和PlayHT TTS的NotebookLM开源实现

opensource_notebooklm: Deepseek-V3とPlayHT TTSに基づくNotebookLMのオープンソース実装

概論 オープンソースNotebookLMは、Deepseek-V3の言語理解能力とPlayHTの音声合成技術を組み合わせた革新的な人工知能プロジェクトであり、インテリジェントなノート作成対話システムを目指しています。このプロジェクトは、Build Fast社によって開発されました。
9ヶ月前
024.8K
Emigo:在Emacs中使用AI完成复杂编程任务的助手

Emigo:EmacsのAIを使った複雑なプログラミング作業のアシスタント

概論 EmigoはEmacs用に設計されたオープンソースのAIプログラミング・アシスタントで、MatthewZMDによってGitHub上で開発されています。大規模言語モデル(LLM)を統合することで、プログラマがEmacs上でコード解析を完了するのを支援します...
7ヶ月前
024.8K
Ai2 OLMoE:基于 OLMoE 模型离线运行的开源iOS AI应用

Ai2 OLMoE:オフラインで動作するOLMoEモデルに基づくオープンソースのiOS AIアプリ

概要 Ai2 OLMoEは、Allen Institute for AI (Ai2, Allen Institute for Artificial Intelligence)によって開発されたオープンソースのiOSアプリで、デバイス上で動作するAIモデルを提供します。このアプリは、Ai2のオープンソースOLMoEを活用しています。
8ヶ月前
024.8K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: オープンソース ゼロサンプル音声クローニング・音声合成ツール

包括的な紹介 VoiceCraftは、ニューラルコーデック言語モデルに基づいたオープンソースの音声編集およびゼロサンプル音声合成ツールです。革新的な符号化シーケンス生成方法を採用しており、既存の音声シーケンスに対して挿入、削除、置換操作を行うことで、自然で首尾一貫した編集音声を生成することができます。
1年前
024.8K
BetterWhisperX:自动语音识别与说话人分离,提供高精度单词级时间戳

BetterWhisperX:話者から切り離された自動音声認識により、高精度の単語レベルのタイムスタンプを提供

はじめに BetterWhisperXは、効率的で正確な自動音声認識(ASR)サービスを提供することに重点を置いたWhisperXプロジェクトの最適化バージョンです。WhisperXの改良版として、このプロジェクトはFederico ...
10ヶ月前
024.8K
Morphic:AI驱动的开源搜索引擎,提供智能问答、视频搜索、生成UI代码

Morphic:AIを搭載したオープンソース検索エンジン、スマートなQ&A、動画検索、UIコードの生成を提供

一般的な紹介 MorphicはAI技術に基づいた検索エンジンで、インテリジェントなQ&Aと効率的な検索体験を提供するように設計された生成的なユーザーインターフェースを持つ。ユーザーはMorphicでテキスト、動画など様々な検索を行うことができ、検索履歴の保存や検索結果の共有が可能です。
11ヶ月前
024.8K
Gemini Teacher:英语口语发音纠正助手

ジェミニ・ティーチャー:英語スピーキング発音矯正アシスタント

概要 Gemini Teacherは、Google Gemini AIに基づいた英語スピーキング練習アシスタントです。ユーザーの英語の発音をリアルタイムで認識し、即座にフィードバックと修正案を提供します。このツールは、ユーザーが英語のスピーキングスキルを向上させるために設計されています...
8ヶ月前
024.8K
Paper2Code:将机器学习论文自动转化为可运行代码

Paper2Code: 機械学習論文を実行可能なコードに自動変換する

一般的な紹介 Paper2Codeは、機械学習論文のコード実装が不足しているという問題を解決することを目的としたオープンソースプロジェクトである。マルチエージェントの大規模言語モデリング(LLM)システムPaperCoderによって、科学論文を実行可能なコードリポジトリに自動的に変換する。このシステムは、計画言語モデリング...
5ヶ月前
024.8K
AnyText:生成和编辑多语言图像文本,高可控在图像中生成多行中文

AnyText:多言語の画像テキストを生成・編集し、画像内に複数行の中国語を生成することができます。

総合紹介 AnyTextは、拡散モデルに基づいて開発された画期的な多言語ビジュアルテキスト生成・編集ツールです。画像の中に自然で高品質な多言語テキストを生成し、柔軟なテキスト編集機能をサポートします。研究チームによって開発され、ICLR 2024で発表されました。
10ヶ月前
024.7K
Cog-ComfyUI:使用API运行ComfyUI工作流

Cog-ComfyUI:APIを使ったComfyUIワークフローの実行

一般的な紹介 Cog-ComfyUIは、APIを介してComfyUIワークフローを実行するために設計されたオープンソースプロジェクトです。GitHubユーザーのfofrによって作成されたこのプロジェクトは、ComfyUIワークフローを統合して実行する効率的な方法を提供します。
9ヶ月前
024.7K
E2B Open Computer Use:E2B沙盒中安全的运行AI操作系统

E2Bオープンコンピュータの使用:E2BサンドボックスでAIオペレーティングシステムを安全に実行する

概要 E2B Open Computer Useは、E2B Desktop Sandboxを通じて、安全なクラウドベースのLinuxコンピュータ利用体験を提供することを目的としたオープンソースプロジェクトです。E2B Sandboxは、ユーザが任意の大規模コンピュータに接続できるデスクトップグラフィカル環境を提供します。
9ヶ月前
024.7K
OASIS:多智能体模拟数百万用户社交媒体互动,研究复杂社会现象

OASIS: 複雑な社会現象を研究するための、数百万人のユーザーによるソーシャルメディア・インタラクションのマルチインテリジェンス・シミュレーション

概論 OASIS(Open Agent Social Interaction Simulations)は、最大100万人のユーザーの行動をシミュレートできるオープンソースのソーシャルメディア・シミュレータである。このプラットフォームは、大規模言語モデルとルールベース...
7ヶ月前
024.7K
Sana:快速生成高分辨率图像,0.6B超小尺寸模型,低配笔记本GPU运行

サナ:高解像度画像の高速生成、0.6Bの超小型モデル、薄型ラップトップGPU動作

概要 Sanaは、NVIDIA Labsによって開発された効率的な高解像度画像生成フレームワークであり、最大4096×4096の解像度の画像を数秒で生成することができる。Sanaは、線形拡散変換器と深層圧縮自己エンコーダ技術を採用し、大幅に...
11ヶ月前
024.7K
ACE++:用文本指令精准对图像局部编辑的多功能开源工具

ACE++: テキストコマンドによる画像の正確なローカル編集を可能にする多機能なオープンソースツール

包括的な紹介 ACE++は、Alibaba Tongyi Lab (Tongyi Lab)のali-vilabチームによって開発されたオープンソースプロジェクトです。FLUX.1-Fill-devモデルに基づいており、簡単なテキストコマンドで画像生成とコンパイルを実現することを目指しています...
7ヶ月前
024.7K
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser:マウスアクションをAI経由でSelenium Pythonスクリプトに変換するブラウザ自動化コードの生成

概要 AutoMouserは、ユーザーのインタラクションをインテリジェントに追跡し、OpenAIのGPTモデルを使用してSeleniumテストコードを自動的に生成するChrome拡張機能です。ユーザーのブラウザ操作を記録し、それを変換することでテストコードを生成します。
9ヶ月前
024.7K
NextChat:兼容多平台的本地化AI聊天助手

NextChat:複数のプラットフォームに対応するローカライズされたAIチャットアシスタント

概要 NextChatは、GPT-3、GPT-4、GPT-4.5、Gemini Proなどのクラス最高の言語モデルでチャットサービスを展開できる画期的なAIチャットサービスです。エレガントなユーザーインターフェース、コラボレーション機能、統合機能、テンプレート、...
8ヶ月前
024.7K
SVFR:实现视频人脸修复的统一框架,修复黑白、模糊的人像老视频

SVFR:ビデオ顔修復を実装する統一フレームワーク、白黒、ぼやけたポートレート古いビデオの修復

包括的な紹介 SVFR(Stable Video Face Restoration)は、基本顔復元(Basic Face Restoration: BFR)、色付け、修復、およびそれらの組み合わせタスクをサポートする、ビデオ顔復元のための統一フレームワークである。このフレームワークは、生成的プリオールと運動学的プリオールを利用し...
9ヶ月前
024.6K
LangGraph Supervisor:利用监督智能体来管理多智能体协作的工具

LangGraphスーパーバイザー:スーパーバイジングインテリジェンスを用いたマルチインテリジェンスコラボレーション管理ツール

概要 LangGraph SupervisorはLangGraphフレームワークをベースとしたPythonライブラリで、マルチインテリジェントな身体システムの作成と管理のために設計されています。このライブラリは、中央の監督エージェントを通して複数の専門化されたエージェントの作業を調整し、通信の流れやタスクの分割を確実にします...
8ヶ月前
024.6K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor:見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント

概論 Gemini Cursorは、GoogleのGemini 2.0 Flash(実験的)モデルをベースとしたデスクトップ知的アシスタントである。Gemini Cursorは、マルチモーダルAPIを通じて、視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延な利用を提供します。
8ヶ月前
024.6K
STORM:基于Topic搜索网络数据,生成带引用的论文、长文报告

STORM:トピックに基づくウェブデータの検索、引用文献を含む論文の生成、長い論文レポート

概論 STORMはスタンフォード大学のOvalチームによって開発された知識統合・記事生成システムである。ウィキペディアのような網羅的な記事(体系的な論文)をゼロから生成することに重点を置いている。このシステムは、トピックの調査、概要の作成、実際の相互接続のシミュレーションのために大規模な言語モデルを使用する。
7ヶ月前
024.6K
Gemini-OpenAI:反代Gemini地址绕过区域限制并转换为OpenAI兼容API

Gemini-OpenAI:リージョン制限を回避し、OpenAI互換APIに変換する逆世代Geminiアドレス

一般的な紹介 Gemini OpenAI API Agentは、無料でサーバーのメンテナンスが不要なOpenAI準拠のエンドポイントです。ユーザは、Vercel、Netlify、Cloudflareなどのプラットフォームに、個人で簡単にデプロイすることができます。プロジェクト ...
9ヶ月前
024.6K
OAK:可视化构建智能体应用的开源项目

OAK: インテリジェント・ボディ・アプリケーションを視覚的に構築するためのオープンソース・プロジェクト

概論 OAK(Open Agent Kit)は、開発者がAIインテリジェンスを迅速に構築、カスタマイズ、デプロイするためのオープンソースツールです。OpenAI、Google、Anthropic...などの大規模言語モデル(LLM)を接続することができます。
7ヶ月前
024.6K
infinite-zoom-stable-diffusion:生成无限缩放循环视频

infinite-zoom-stable-diffusion: 無限ズームのループビデオを生成する。

包括的な紹介 無限ズーム安定拡散(Infinite Zoom Stable Diffusion)は、安定拡散技術を使用して無限ズームビデオを作成するために設計されたオープンソースプロジェクトです。このプロジェクトは、使いやすいColabノートブックを提供し、ユーザは...
9ヶ月前
024.6K
StarVector:从图像和文字生成SVG矢量图的基础模型

StarVector: 画像とテキストからSVGベクターグラフィックスを生成するための基本モデル

一般的な紹介 StarVectorは、画像やテキストをScalable Vector Graphics(SVG)に変換するために、Juan A. Rodriguezなどの開発者によって作成されたオープンソースプロジェクトです。このツールは、画像コンテンツとテキストを理解できるように視覚言語モデルを使用しています...
7ヶ月前
024.6K