AIオープンソースプロジェクト

合計1020記事
Agent S:像人类一样操作电脑的开源智能体框架

エージェントS:人間のようにコンピュータを操作する知的体のためのオープンソース・フレームワーク

一般的な紹介 エージェントSは、Simular AI社によって開発されたオープンソースのフレームワークであり、グラフィカル・ユーザー・インターフェース(GUI)を通じて人間のようにコンピュータを操作することができる。マルチモーダル大規模言語モデルと経験的学習技術を使用して、ウェブの閲覧、文書の編集、ソフトウェアの使用などのタスクを実行する。
4ヶ月前
01.1K
Text2Voice:基于硅基流动API的文本转语音图形界面

Text2Voice:シリコンベースのフローAPIに基づく音声合成グラフィカルインターフェース

一般的な紹介 Text2Voiceは、シリコンベースのモビリティAPIに基づいた音声合成機能を提供するオープンソースツールで、クリーンなグラフィカル・ユーザー・インターフェース(GUI)が最大の特徴である。開発者のシェルドン・リーがGitHubで作成したもので、...
4ヶ月前
01.1K
FreeAI:基于Pollinations封装的的免费AI工具

FreeAI: PollinationsパッケージをベースにしたフリーのAIツール。

概要 FreeAIは、Pollinations.AI APIをベースとしたオープンソースのAIアプリケーションプラットフォームで、無料で無制限のAIチャットアシスタント、画像生成、音声合成サービスを提供している。このプロジェクトは、開発者のAzad-slによってG...
4ヶ月前
0986
OpenAvatarChat:模块化设计的数字人对话工具

OpenAvatarChat:モジュール設計されたデジタル人間対話ツール

概論 OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタル人間対話ツールで、1台のPCで動作させることができます...
4ヶ月前
01K
Serena:语义检索和编辑代码的免费MCP工具

Serena: 意味検索とコード編集のためのフリーMCPツール

概要 Serenaは、Oraios AIチームによって開発され、GitHubでホストされているフリーでオープンソースのプログラミングツールです。コードベースで直接動作する強力なコードアシスタントで、開発者のコードの分析、編集、実行を支援します。
4ヶ月前
01.7K
EasyControl:将人像转为吉卜力风格图像的免费工具

EasyControl:ポートレートをジブリ風に変身させる無料ツール

概要 EasyControlはオープンソースプロジェクトであり、効率的で柔軟な画像生成制御を提供する拡散変換器(DiT)アーキテクチャに基づいています。その中でも、ジブリ・コントロールLoRAは特別な機能の一つで、たった100個のサブ...
4ヶ月前
01.4K
YOLOE:实时视频检测和分割物体的开源工具

YOLOE: リアルタイムのビデオ検出と物体分割のためのオープンソースツール

YOLOEは清華大学ソフトウェア学院のマルチメディア・インテリジェンス・グループ(THU-MIG)が開発したオープンソースプロジェクトで、正式名称は「You Only Look Once Eye」。PyTorchフレームワークをベースにしており、YOLOシリーズの拡張機能に属している。
4ヶ月前
01.1K
集成多种先进语音合成服务的开源运营项目

複数の高度な音声合成サービスを統合したオープンソース運用プロジェクト

概要 Open-VoiceCanvasは、ItusiAIチームによって開発されたオープンソースの音声合成プラットフォームです。50以上の言語をサポートし、テキストを自然な音声に変換したり、音声をアップロードすることでパーソナライズされた音声をクローンすることができます。このプロジェクトはOpe...
4ヶ月前
01.3K
VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind:タイムスタンプによるビデオ位置決めコンテンツとQ&Aオープンソースプロジェクト

概論 VideoMindは、長い動画の推論、Q&A、要約生成に焦点を当てたオープンソースのマルチモーダルAIツールである。香港理工大学のYe Liuとシンガポール国立大学のShow Labのチームによって開発された。このツールは人間の動画理解を模倣している。
2ヶ月前
01.2K
SuperCoder:命令行终端运行的智能代码助手

SuperCoder: コマンドライン・ターミナル実行のためのインテリジェント・コード・アシスタント

一般的な紹介 SuperCoderはターミナルで動作するインテリジェントなツールで、プログラマーのために設計されています。AI技術を使って、ユーザーがコードを検索したり、プロジェクトの構造を見たり、ファイルを編集したり、バグを修正したりするのを手助けします。このプロジェクトはGitHubのhuytdによってオープンソース化されており、...
4ヶ月前
0959
Emigo:在Emacs中使用AI完成复杂编程任务的助手

Emigo:EmacsのAIを使った複雑なプログラミング作業のアシスタント

概論 EmigoはEmacs用に設計されたオープンソースのAIプログラミング・アシスタントで、MatthewZMDによってGitHub上で開発されています。大規模言語モデル(LLM)を統合することで、プログラマがEmacs上でコード解析を完了するのを支援します...
4ヶ月前
0968
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: ビデオから任意の移動物体を自動的にセグメント化するオープンソースツール

概要 SegAnyMoは、カリフォルニア大学バークレー校と北京大学の研究者チームによって開発されたオープンソースプロジェクトで、Nan Huangなどのメンバーが参加している。このツールはビデオ処理に重点を置いており、ビデオ内の任意の動く物体、例えば人、動物、...を自動的に識別し、セグメント化することができる。
4ヶ月前
01K
GenXD:生成任意3D和4D场景视频的开源框架

GenXD: 任意の3Dおよび4Dシーンのビデオを生成するためのオープンソースフレームワーク

一般的な紹介 GenXDは、シンガポール国立大学(NUS)とMicrosoftチームによって開発されたオープンソースプロジェクトです。GenXDは、任意の3Dおよび4Dシーンを生成することに重点を置き、データ不足やモデル設計の複雑さによる現実世界の3Dおよび4D生成の問題を解決する。このプロジェクトは、...
4ヶ月前
01.1K
ChatAnyone:从照片生成半身数字人肖像视频的工具

ChatAnyone:写真から半身のデジタル人物ビデオを生成するツール

はじめに ChatAnyoneはHumanAIGCチームによって開発された革新的なプロジェクトです。人工知能技術を用いて、1枚の写真と音声入力から、上半身の動きを含むデジタル人物ビデオを生成する。このプロジェクトは、頭の動きを生成する階層的な動き拡散モデルに基づいています...
4ヶ月前
01.1K
Search-R1:强化学习训练大模型搜索与推理的工具

Search-R1: 検索と推論のための大規模モデルを学習する強化学習

概要 Search-R1はPeterGriffinJinによってGitHub上で開発されたオープンソースプロジェクトであり、veRLフレームワーク上に構築されている。強化学習(RL)技術によって大規模言語モデル(LLM)を学習し、モデルが自律的に学習することを可能にします...
4ヶ月前
01.2K
DeepGemini:多模型编排任务并封装为API接口

DeepGemini: タスクのマルチモデルオーケストレーションとAPIインターフェースへのカプセル化

概論 DeepGeminiは、開発者Thomas Sligterによって作成されたオープンソースプロジェクトである。マルチモデルオーケストレーションをサポートするAI管理ツールであり、様々なAIモデルを柔軟に組み合わせることができるのが主な特徴である。
2ヶ月前
01.1K
Optexity:用人类演示训练AI执行网页操作的开源项目

Optexity:人間の実演を見ながらウェブ操作を行うAIを訓練するオープンソースプロジェクト

概論 OptexityはGitHub上のオープンソースプロジェクトで、Optexityチームによって開発されている。このプロジェクトの核心は、人間のデモ・データを使って、コンピュータ・タスク、特にウェブ・ページ操作をこなすAIを訓練することである。このプロジェクトには3つのコードライブラリが含まれている。
4ヶ月前
01.3K
Paper to Podcast:把学术论文转换为多人对话播客

論文からポッドキャストへ:学術論文を多人数会話のポッドキャストに変換する

一般的な紹介 Paper to Podcastは、学術研究論文を生き生きとした楽しいポッドキャストに変換することに特化したオープンソースのツールです。人工知能技術を使ってPDF形式の論文を3人の登場人物(ホスト、学習者、専門家)の対話に変え、複雑な...
4ヶ月前
0934
LatentSync:用音频直接生成唇形同步视频的开源工具

LatentSync: 音声から直接リップシンクされたビデオを生成するオープンソースツール

概要 LatentSyncはByteDanceによって開発され、GitHubでホストされているオープンソースツールです。動画内のキャラクターの唇の動きを音声を通して直接駆動し、口の形が音声と正確に一致するようにします。このプロジェクトは、Stable Di...
2ヶ月前
02.4K
Morphik Core:处理多模态数据的开源 RAG 平台

Morphik Core:マルチモーダルデータ処理のためのオープンソースRAGプラットフォーム

一般的な紹介 Morphik Coreはmorphik-orgチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。以前はDataBridge Coreと呼ばれていましたが、現在はMorphik Coreに改名されています。
4ヶ月前
01.4K
VirtualWife:支持B站直播和语音互动的二次元数字人

バーチャル・ワイフ:Bステーションのライブ・ストリーミングと音声インタラクションをサポートする第二のデジタル・パーソン

VirtualWifeは、開発者yakami129によって作成されたオープンソースのバーチャルデジタルパーソンプロジェクトです。現在、インキュベーション段階にあり、ゴールは「魂」を持ったバーチャルキャラクターを作ることで、ユーザーは友達のように交流することができる。このプロジェクトはB Station Liveによってサポートされています。
4ヶ月前
01.3K
GPT-Crawler:自动爬取网站内容生成知识库文件

GPT-Crawler: ウェブサイトコンテンツを自動的にクロールして知識ベースドキュメントを生成

一般的な紹介 GPT-Crawlerは、BuilderIOチームによって開発され、GitHubでホストされているオープンソースツールです。1つ以上のウェブサイトのURLを入力することでページのコンテンツをクロールし、構造化ナレッジファイル(output.jso...
2ヶ月前
02.1K
MegaTTS3:合成中英文语音的轻量模型

MegaTTS3:中国語音声と英語音声を合成する軽量モデル

包括的な紹介 MegaTTS3は、ByteDanceが浙江大学と共同で開発したオープンソースの音声合成ツールで、高品質な中国語と英語の音声を生成することに重点を置いています。MegaTTS3のコアモデルは、わずか0.45Bパラメータで、軽量かつ効率的です。このプロジェクトは ...
4ヶ月前
01.3K
KBLaM:为大模型嵌入外部知识的开源增强工具

KBLaM:大規模モデルに外部知識を埋め込むためのオープンソース拡張ツール

KBLaMはマイクロソフトによって開発されたオープンソースプロジェクトで、正式名称は「知識ベース拡張言語モデル」(Knowledge Base Augmented Language Model)である。これは、外部の知識をベクトルに変換し、大規模なモデルに埋め込むことで、...
4ヶ月前
01.3K
BrowserTools MCP:实时监控浏览器活动的MCP服务

BrowserTools MCP: ブラウザの動作をリアルタイムで監視するMCPサービス

概要 BrowserTools MCPは、AgentDeskAIチームによって開発されたオープンソースプロジェクトです。AIがChromeエクステンションとNode.jsサービスを通じて、ログ、ネットワークリクエスト、ブラウザアクティビティをリアルタイムで監視することを可能にします。
4ヶ月前
01.9K
AgentLaboratory:利用智能代理完成科研全流程的开源工具

AgentLaboratory: 知的エージェントによる科学研究の全プロセスを完了するオープンソースツール

一般的な紹介 AgentLaboratoryはGitHubでホストされているオープンソースツールで、Samuel Schmidgallによって開発されました。大規模言語モデル(LLM)によって駆動されるインテリジェントエージェントを使用し、研究者の科学的...
4ヶ月前
0995
Kilo Code:具有简洁使用体验的Roo Code分支

キロ・コード:クリーンなユーザー・エクスペリエンスを備えたルー・コードのブランチ

一般的な紹介 キロコードは、Visual Studio Code(略してVS Code)のオープンソース拡張プラグインです。人工知能技術を使って、ユーザーがより効率的にコードを書けるようにする。このプロジェクトはKilo-Orgチームによって開発された。
4ヶ月前
01.2K
AgentIQ:灵活连接和管理AI智能体的开源工具

AgentIQ: AIインテリジェンスの柔軟な接続と管理のためのオープンソースツール

概要 AgentIQは、開発者がAIインテリジェンスを効率的に接続・管理できるように設計されたNVIDIAのオープンソースツールです。異なるフレームワークのインテリジェンスがシームレスに連携し、企業データとツールを接続し、関数を呼び出すようなワークフローを構築することを可能にします。このツールの最大の特徴は...
4ヶ月前
0913
MIDI-3D:从单张图片快速生成多物体3D场景的开源工具

MIDI-3D: 1枚の画像からマルチオブジェクトの3Dシーンを高速生成するオープンソースツール

一般的な紹介 MIDI-3DはVAST-AI-Researchチームによって開発されたオープンソースプロジェクトで、開発者、研究者、クリエイターのために1つの画像から複数のオブジェクトを含む3Dシーンを素早く生成します。このツールはマルチインスタンス拡散モデリング技術に基づいています。
4ヶ月前
01.3K
TripoSF:快速生成高分辨率3D模型的实用工具

TripoSF:高解像度3Dモデルを迅速に生成する実用的なツール

概論 TripoSFはVAST-AI-Researchチームによって構築されたオープンソースプロジェクトで、特に1枚の画像から高解像度の3Dモデルを素早く生成するように設計されています。SparseFlexと呼ばれる技術を使用しており、処理効率が高く、一般的な...
4ヶ月前
01.1K
TripoSG:单张图像生成高分辨率3D建模数字资产

TripoSG: 1枚の画像から高解像度の3Dモデリングデジタル資産を生成

概論 TripoSGはVAST AI研究チームによって開発されたオープンソースプロジェクトで、1枚の画像から高品質の3Dモデルを生成する。このプロジェクトでは、大規模な整流器フローコンバーター技術を用い、ハイブリッド教師あり学習と高品質なデータセットを組み合わせることで、生成された3Dモデルに...
4ヶ月前
01.2K
MoshiVis:实时语音对话和图像理解的开源模型

MoshiVis: リアルタイムの音声対話と画像理解のためのオープンソースモデル

一般的な紹介 MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi speech-to-text model (7Bパラメータ)をベースにしており、約2億600万個の新しい適応パラメータと凍結されたPal...
4ヶ月前
01.1K
WritingBench:测试大模型写作能力的基准评估工具

WritingBench:大規模モデルのライティング能力をテストするベンチマーク評価ツール

概要 WritingBenchはX-PLUGチームによって開発され、GitHubでホストされているオープンソースプロジェクトである。大規模なモデルのライティング能力をテストするために設計されたツールで、1239の実世界のライティングタスクを提供する。これらのタスクは...
4ヶ月前
01.1K
Free-Search:免费获取实时谷歌搜索结果的API工具

Free-Search: リアルタイムのグーグル検索結果に無料でアクセスできるAPIツール

概要 Free-SearchはHanzla Javaidによって開発され、GitHubでホストされているオープンソースのAPIツールである。主な機能は、カスタム検索エンジンを通してリアルタイムのGoogle検索結果を提供し、ウェブコンテンツをクロールして結果を返すことである。
4ヶ月前
0931
AI-ClothingTryOn:基于 Gemini 的虚拟服装试穿工具

AI-ClothingTryOn:ジェミニベースのバーチャル試着ツール

概論 AI-ClothingTryOnは、開発者のspeedTDによって作成され、GitHubでホストされているPythonベースのオープンソースデスクトップアプリケーションです。このアプリケーションは、Google Geminiの人工知能技術を使用しています。
4ヶ月前
01.3K
OpenDeepSearch:支持智能推理的开源搜索工具

OpenDeepSearch: 知的推論をサポートするオープンソース検索ツール

概要 OpenDeepSearchは、sentient-agiチームによって開発されたオープンソースの検索ツールです。大規模言語モデリング(LLM)と知的推論エージェントを組み合わせ、ユーザがウェブページから情報を検索し、簡単な方法で正確な答えを得ることを可能にします。この ...
4ヶ月前
01.2K
Vibe Draw:将手绘草图转化为3D模型的创意工具

Vibe Draw: 手描きスケッチを3Dモデルに変換するクリエイティブツール

概要 Vibe Drawは、Martin Sitによって開発されたオープンソースプロジェクトで、手描きのスケッチを美しい3Dモデルに変換することができます。このツールの目的はシンプルで、高度な芸術的スキルやリハーサルがなくても、誰でも簡単に3Dモデリングができるようにすることです。
4ヶ月前
01.3K
OAK:可视化构建智能体应用的开源项目

OAK: インテリジェント・ボディ・アプリケーションを視覚的に構築するためのオープンソース・プロジェクト

概論 OAK(Open Agent Kit)は、開発者がAIインテリジェンスを迅速に構築、カスタマイズ、デプロイするためのオープンソースツールです。OpenAI、Google、Anthropic...などの大規模言語モデル(LLM)を接続することができます。
4ヶ月前
01.1K
LangGraph CUA:基于 LangGraph 控制电脑操作的AI智能体

LangGraph CUA:コンピュータ操作を制御するLangGraphベースのAIインテリジェンス

LangGraph CUAはLangChainチームによって開発されたオープンソースプロジェクトである。LangGraphフレームワークをベースにしており、開発者はPythonを使ってコンピュータを直接操作できるAIインテリジェンスを構築することができる。このツールのコアは...
5ヶ月前
01.4K
FlowGram.AI:快速创建节点式工作流的开源引擎

FlowGram.AI:ノードワークフローを迅速に作成するオープンソースエンジン

包括的な紹介 Flowgram.aiは、ByteDanceによって開発されたオープンソースのプロセス構築エンジンです。ノード編集をベースとしており、開発者がワークフローを素早く作成できるよう、固定レイアウトとフリーリンクの2つのモードをサポートしている。プロジェクトはTypeScriptで書かれている。
5ヶ月前
01.5K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni:マルチモーダル入力とリアルタイム音声対話のためのエンド計測モデル

包括的な紹介 Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、リアルタイムでテキストや自然な音声による応答を生成することができる。このモデルは2025年の3 ...
5ヶ月前
01.9K
Dify-Plus:为Dify开发的企业内部管理后台

Dify-Plus:Difyのオンプレミス管理バックエンド

包括的な紹介 Dify-Plusは、Difyオープンソースプロジェクトの二次開発をベースにしたAIアプリケーション開発プラットフォームです。Dify-Plusは、Difyをベースに新しい管理センターを追加し、エンタープライズシナリオ向けに機能を最適化しています。このプロジェクトは、当初は企業の内部利用を目的としていましたが、後にコミュニティにも同様のニーズがあることがわかり、Dify-Plusを開発しました。
5ヶ月前
01.1K
Rankify:支持信息检索与重排序的Python工具包

Rankify: 情報検索と並び替えをサポートするPythonツールキット

一般的な紹介 Rankifyは、オーストリアのインスブルック大学のデータサイエンスグループによって開発されたオープンソースのPythonツールキットである。情報検索、並べ替え、検索拡張生成(RAG)に焦点を当て、統一されたフレームワークを提供している。このツールキットには40の検索済みベンチマークが組み込まれている。
5ヶ月前
01.2K
CFG-Zero-star:提升图像和视频生成质量的开源工具

CFG-Zero-star:画像とビデオの生成品質を向上させるオープンソースツール

包括的な紹介 CFG-Zero-starは、Weichen Fanと南洋理工大学のS-Labチームによって開発されたオープンソースプロジェクトです。誘導戦略とゼロ初期値を最適化することで、ストリーム・マッチング・モデルにおけるクラシファイア・フリー・ガイダンス(CFG)技術を改善することに焦点を当てています。
5ヶ月前
01.5K
Motia:用代码快速构建智能体的开发框架

Motia: コードでインテリジェンスを迅速に構築するための開発フレームワーク

一般的な紹介 Motiaは、GitHubでホストされ、MotiaDevチームによって開発された、ソフトウェアエンジニアのためのオープンソースのAIエージェントフレームワークです。開発者は使い慣れたプログラミング言語(例:Python、TypeScript、Rub...
5ヶ月前
01.1K
DiffSynth-Engine:低现存部署FLUX、Wan2.1的开源引擎

DiffSynth-Engine:オープンソースエンジン、FLUXの低既存デプロイメント用、Wan 2.1

一般的な紹介 DiffSynth-EngineはModelScopeによって立ち上げられたオープンソースプロジェクトで、GitHubでホストされています。拡散モデリング技術に基づいており、画像や動画を効率的に生成することに重点を置き、開発者が本番環境でAIモデルを展開するのに適しています...
5ヶ月前
01.2K
RF-DETR:实时视觉对象检测开源模型

RF-DETR:リアルタイム視覚物体検出のためのオープンソースモデル

包括的な紹介 RF-DETRはRoboflowチームによって開発されたオープンソースの物体検出モデルです。RF-DETRはTransformerアーキテクチャをベースにしており、リアルタイム性を特徴としています。このモデルはMicrosoft COCOデータセット上で初めて60APs以上のリアルタイム性を達成した。
5ヶ月前
01.4K
Aana SDK:简易部署多模态AI模型的开源工具

Aana SDK: マルチモーダルAIモデルを簡単に導入できるオープンソースツール

概論 Aana SDKはMobius Labsが開発したオープンソースのフレームワークで、マラヤーラム語のആന(象)にちなんで名付けられた。開発者がマルチモーダルAIモデルを迅速にデプロイ、管理できるように支援し、テキスト、画像、音声、動画、その他のデータの処理をサポートします。
5ヶ月前
01.2K
PiT:用图像零件拼出完整图像的工具(未开放)

PiT:画像パーツから完全な画像をつなぎ合わせるツール(未開封)

概論 PiT(Piece it Together)はGitHubでホストされているオープンソースツールで、テルアビブ大学のエラッド・リチャードソンなどの研究者によって開発された。羽のような断片化された画像パーツを入力することができる。
5ヶ月前
01.2K
Agent TARS:使用视觉和命令操作电脑的开源智能体

エージェントTARS:視覚とコマンドを使ってコンピュータを操作するオープンソースのインテリジェンス

総合紹介エージェントTARSは、ByteDance社がオープンソース化したマルチモーダルAIインテリジェンスで、ウェブコンテンツを視覚的に理解し、コマンドラインとファイルシステム操作を組み合わせることで、ユーザーが複雑なコンピュータタスクを完了するのを支援するコア機能を備えています。従来のツールのような手動操作を必要とせず、自己...
5ヶ月前
01.3K
Qlib:微软开发的AI量化投资研究工具

Qlib:マイクロソフトが開発したAI定量投資調査ツール

Qlibはマイクロソフトが開発したオープンソースのプラットフォームであり、AI技術を活用してクオンツ投資のリサーチを支援することに主眼を置いている。Qlibは、最も基本的なデータ処理からスタートし、ユーザーが投資アイデアを探求し、使える戦略に変えることをサポートする。このプラットフォームはシンプルで使いやすく、機械学習を使って投資リサーチを改善したい人に適している。
5ヶ月前
01.6K
自动爬取小说并生成多角色有声书的工具

小説を自動的にクロールし、多文字のオーディオブックを生成するツール

概論 Auto-Audio-BookはGitHubでホストされているオープンソースプロジェクトです。ウェブサイトから小説の内容を自動的にクロールし、複数のキャラクターの声を持つオーディオブックに変換します。開発者 zqq-nuli Python 3.1...
5ヶ月前
01.1K
Oliva:语音控制的多智能体产品搜索助手

Oliva:音声制御のマルチインテリジェンス製品検索アシスタント

概要 OlivaはDeluxerがGitHubで開発したオープンソースのマルチインテリジェンスアシスタントツールです。複数のAIインテリジェンスの連携により、Qdrantデータベースの商品情報検索を支援します。主な特徴は、音声操作に対応していることです...
5ヶ月前
0923
Playwright MCP:微软推出的浏览器自动化MCP服务

Playwright MCP:マイクロソフトのブラウザ自動化MCPサービス

一般的な紹介 Playwright MCPはMicrosoftによって開発され、GitHubでホストされているオープンソースツールである。モデルコンテキストプロトコル(MCP)プロトコルを介して、人工知能モデルがブラウザを直接制御できるようにする。
5ヶ月前
01.6K
PDF Craft:PDF扫描文件转Markdown的开源工具

PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツール

一般的な紹介 PDF Craftは、書籍のPDFをスキャンしてMarkdown形式に変換するために設計されたオープンソースツールです。このツールはoomol-labによって開発され、電子書籍を整理したいユーザのためにGitHubでホストされています。このツールは、以下の方法で動作します。
5ヶ月前
01.3K
InfiniteYou:保留人脸特征的照片生成与编辑工具

InfiniteYou:顔の特徴を保持する写真生成・編集ツール

概要 InfiniteYouは、ByteDance Intelligent Creationチームによって開発されたオープンソースプロジェクトです。拡散トランスフォーマー(DiTs)技術に基づき、FLUX.1-devモデルを使用しています。主な機能は、ユーザーが写真をアップロードし、テキストの説明を入力することで、写真を生成することです。
5ヶ月前
01.3K
Grok-Mirror:一键部署可盈利的Grok镜像站

Grok-Mirror:収益性の高いGrokミラーサイトのワンクリック展開

包括的な紹介 Grok-Mirrorは、操作可能なGrokミラーステーションの構築に基づいた、サーバーレスで迅速なデプロイが可能なGrok3国内ミラーステーションです。Docker経由でワンクリックでローカルのGrokキオスクをデプロイすることができます。GrokはxAIの人工知能です。
5ヶ月前
01.4K
Second Me:本地训练拥有个人记忆和习惯的AI分身

セカンド・ミー:個人的な記憶と習慣を持つ、現地で訓練されたAIドッペルゲンガー

Second MeはMindverseチームによって開発されたオープンソースプロジェクトで、あなたのコンピューター上に「デジタル・ドッペルゲンガー」のような働きをするAIを作り、あなたの言葉や記憶を通してあなたの話し方や癖を学習し、あなたのことを理解する賢い人間になることができる。
5ヶ月前
02K
StarVector:从图像和文字生成SVG矢量图的基础模型

StarVector: 画像とテキストからSVGベクターグラフィックスを生成するための基本モデル

一般的な紹介 StarVectorは、画像やテキストをScalable Vector Graphics(SVG)に変換するために、Juan A. Rodriguezなどの開発者によって作成されたオープンソースプロジェクトです。このツールは、画像コンテンツとテキストを理解できるように視覚言語モデルを使用しています...
5ヶ月前
01.4K
MarkPDFDown:基于多模态模型将PDF转为Markdown文件

MarkPDFDown: マルチモーダルモデルに基づくPDFからMarkdownへの変換

概要 MarkPDFDownはオープンソースのツールです。Multimodal Big Language Modelを使ってPDFファイルをMarkdown形式に変換します。開発者はGitHubユーザーのjorbenです。このツールの目的はシンプルです:PDFドキュメントを...
5ヶ月前
01.4K
Easy Dataset:创建大模型微调数据集的简易工具

Easy Dataset: 大規模モデルの微調整データセットを作成するシンプルなツール

包括的な紹介 Easy Datasetは、大規模モデル(LLM)を微調整するために特別に設計されたオープンソースツールで、GitHubでホストされています。ファイルのアップロード、コンテンツの自動セグメント化、質問と回答の生成、そして最終的に適切なLLMの出力を可能にする、使いやすいインターフェースを提供します。
5ヶ月前
01.3K
无服务器快速部署Grok3国内镜像站

サーバーレス高速デプロイ Grok3国内ミラーサイト

概要 Grok Playgroundは、"Technical Crawling Shrimp "のチームによって開発されたオープンソースプロジェクトである。このツールの主な機能は、ユーザーがGrok3の国内ミラーサイトを10秒でデプロイできるようにすることです。 Grok3はxAIによって導入された人工知能モデルで、...
5ヶ月前
01.3K
Skywork-R1V:昆仑万文开源的图文混合多模态推理模型

Skywork-R1V: グラフィカルハイブリッドマルチモーダル推論モデル オープンソース by Kunlun Wanwen

一般的な紹介 Skywork-R1Vは、SkyworkAI(Kunlun Wanwei)チームによって開発され、GitHubで公開されているオープンソースのマルチモーダル推論モデルです。画像とテキストを同時に処理することができ、多段階の論理的推論を実行し、特に複雑な画像問題の分析に優れています。この...
5ヶ月前
01.2K
AI Logo:AI快速生成定制化品牌Logo

AIロゴ:AIがカスタマイズされたブランドロゴを素早く生成

概論 AI LogoはオープンソースのAIアプリケーション・プロジェクトであり、人工知能によってパーソナライズされたブランドロゴを素早く生成することを目的としている。Stable DiffusionやDeepAIといった強力なAI技術を組み合わせ、ユーザーが簡単なブランドロゴを入力できるようにしています。
5ヶ月前
01.1K
Docs:开源的协作笔记和文档管理工具

Docs: オープンソースの共同ノート・文書管理ツール

概要 Docs は、suitenumerique チームによって開発されたオープンソースの共同ノート作成および文書管理プラットフォームです。DjangoとReactの技術を使って構築されており、ユーザーがメモを取ったり、ドキュメントを管理したりするのに役立つ使いやすいツールを提供することを目標としています。
5ヶ月前
01.4K
SmartRead:自动标注技术PDF文档并提供相关引用源

SmartRead: PDF技術文書に自動的に注釈を付け、関連する引用を提供

包括的な紹介 SmartReadは、技術文書向けに設計されたAIベースのオープンソースツールです。PDFファイルを自動的に分析し、重要な用語、タイトル、核となるアイデアなどの重要なコンテンツをマークし、ユーザーが複雑な文書を素早く理解できるようにします。同時に、主な内容を提供し、文書化することもできます。
5ヶ月前
01.3K
Hunyuan3D-2:腾讯开源的高分辨率3D模型生成工具

Hunyuan3D-2: テンセントのオープンソース高解像度3Dモデル生成ツール

概論 Hunyuan3D-2はTencentによって開発されたオープンソースプロジェクトで、テキストや画像から高解像度の3Dモデルを生成する。形状生成モデル(Hunyuan3D-DiT)とテクスチャ生成モデル(Hunyuan3D...)の2つのコアコンポーネントで構成されています。
5ヶ月前
01.1K
LangManus:支持多智能体协作的开源AI自动化框架

LangManus: マルチインテリジェンス・コラボレーションをサポートするオープンソースのAI自動化フレームワーク

概要 LangManusは、GitHubでホストされているオープンソースのAI自動化フレームワークです。元同僚のグループが余暇を利用して開発したもので、言語モデルとウェブ検索、データクローリング、コード実行のための専門ツールを組み合わせることを目的とした学術的なプロジェクトである。
5ヶ月前
01.2K
闲鱼卖家全天自动值守的AI客服机器人

アイドル・フィッシュの販売員が24時間体制で自動対応するAIカスタマーサービスボット

包括的な紹介 XianyuAutoAgentは、GitHubで開発者shaxiuによってオープンソース化されたIdlefishプラットフォーム用に設計されたインテリジェントな顧客サービスロボットシステムです。AI技術を利用し、7×24時間の自動勤務を実現し、アイドルフィッシュ販売者の返信を支援する。
5ヶ月前
01.1K
Seed-VC:支持少样本实时转换语音和歌声

Seed-VC:少ないサンプル数で音声と歌のリアルタイム変換に対応

概要 Seed-VCはPlachtaaによって開発されたGitHub上のオープンソースプロジェクトです。Seed-VCは、1秒から30秒のリファレンスオーディオを使用することができます。このプロジェクトは、リアルタイムの音声変換、ディレイ変換、音声合成をサポートしています。
5ヶ月前
01.4K
PilottAI:构建企业级多智能体应用的开源项目

PilottAI: エンタープライズグレードのマルチインテリジェンス・アプリケーションを構築するオープンソース・プロジェクト

一般的な紹介 PilottAIはGitHubでホストされているオープンソースのPythonフレームワークで、開発者のanuj0456によって作成されました。PilottAIは、エンタープライズクラスのマルチインテリジェントな身体システムの構築を支援することに重点を置いており、大規模言語モデル(LLM)の統合をサポートし、あらゆる...
5ヶ月前
01K
HumanOmni:分析人类视频情感和动作的多模态大模型

HumanOmni:人間のビデオ感情や行動を分析するためのマルチモーダル・マクロモデル

一般的な紹介 HumanOmniは、HumanMLLMチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルビッグモデルです。HumanOmniは人間の動画を分析することに特化しており、画像と音声の両方を処理することで、感情や行動、対話の内容を理解するのに役立ちます。このプロジェクトでは2...
5ヶ月前
01.1K
TxAgent:帮医生分析药物作用和治疗方案的AI工具

TxAgent:医師が薬効や治療法を分析するためのAIツール

包括的な紹介 TxAgentは、ハーバード大学の医学・科学人工知能チーム(MIMS)によって開発されたオープンソースのAIツールで、医師が薬物相互作用を分析し、パーソナライズされた治療計画を立てるのを支援する。TxAgentは、多段階の推論と生物医学的知識のリアルタイム検索により、患者固有の状況を組み合わせ...
5ヶ月前
01.1K
Moffee:将Markdown转为PPT幻灯片

Moffee:マークダウンをPPTスライドショーに変換する

一般的な紹介 Moffeeは、Markdownファイルを素早く、簡単かつ効率的にプロフェッショナルなスライドショーに変換するオープンソースツールです。ユーザはMarkdownコンテンツを書くだけで、Moffeeはレイアウト、ページ分割、スタイルを自動的に処理し、手作業でタイプセットする必要がなくなります。
4ヶ月前
01.1K