AIオープンソースプロジェクト

合計1020記事
CoolCline:又一个增强版Cline智能编码助手,结合ClineRoo Cline和Bao Cline的优点

クールクライン:クラインのインテリジェント・コーディング・アシスタントの改良版で、クラインルー・クラインとバオ・クラインの利点を組み合わせたもの。

一般的な説明 CoolClineは、Cline、Roo Cline、Bao Clineの最高の機能を組み合わせた強力なコーディングアシスタントです。コマンドラインインターフェイス(CLI)やエディタとシームレスに動作し、最もパワフルな...
1年前
069.6K
PandasAI:数据分析对话平台,用自然语言完成数据查询与图表生成

PandasAI: 自然言語によるデータクエリとグラフ生成のためのデータ分析対話プラットフォーム

はじめに PandasAI は Python ベースのオープンソースプラットフォームであり、自然言語処理技術によってデータ分析プロセスを簡素化するように設計されています。データベース(SQL、CSV、pandas、polars、mongodb、n...など)との対話を可能にします。
2年前
069.5K
Deep Recall:为大模型提供企业级记忆框架的开源工具

Deep Recall:大規模モデルのためのエンタープライズクラスのメモリフレームワークを提供するオープンソースツール

包括的な紹介 Deep Recallは、大規模言語モデル(LLM)のために設計されたオープンソースのエンタープライズクラスのメモリフレームワークです。効率的な文脈検索と統合により、超パーソナライズされた応答性を提供します。このフレームワークは、メモリサービス、推論サービス、コーディネータを含む3層アーキテクチャを採用しており、...
1年前
069.5K
ConsisID:一张人像参考图,生成人物一致的视频,多终端快速集成

ConsisID:キャラクタ一貫性のある映像を生成するポートレート参照マップ、迅速な多端末統合

包括的な紹介 ConsisIDは、北京大学のYuan Rong氏のグループによって開発されたオープンソースプロジェクトであり、周波数分解技術によって、同一性のあるテキストからビデオへの生成(IPT2V)を実現することを目的としている。プロジェクトの中核は、DiT(Diffusion Transfor...
2年前
069.5K
TableGPT Agent:专为分析复杂表格数据设计的智能工具

TableGPTエージェント:複雑な表形式データを分析するために設計されたインテリジェントツール

包括的な紹介 TableGPTエージェントは、GitHubオープンソースプロジェクトに基づくインテリジェントなツールで、表形式データの処理と分析のために設計されています。TableGPT2 Big Language Model に依存し、自然言語インタラクションを使用して、ユーザが簡単にクエリ、操作...
1年前
069.4K
SmartRead:自动标注技术PDF文档并提供相关引用源

SmartRead: PDF技術文書に自動的に注釈を付け、関連する引用を提供

包括的な紹介 SmartReadは、技術文書向けに設計されたAIベースのオープンソースツールです。PDFファイルを自動的に分析し、重要な用語、タイトル、核となるアイデアなどの重要なコンテンツをマークし、ユーザーが複雑な文書を素早く理解できるようにします。同時に、主な内容を提供し、文書化することもできます。
1年前
069.4K
AI Chatbot:Vercel 构建和部署智能聊天机器人

AIチャットボット:ヴェルセル、インテリジェントなチャットボットを構築・展開

概要 AI ChatbotはVercelによって開発されたオープンソースプロジェクトで、開発者がインテリジェントなチャットボットを素早く構築し、デプロイすることを支援します。このプロジェクトはNext.jsフレームワークに基づいており、OpenAI...などの様々なAIモデルプロバイダと統合されています。
2年前
069.4K
StarVector:从图像和文字生成SVG矢量图的基础模型

StarVector: 画像とテキストからSVGベクターグラフィックスを生成するための基本モデル

一般的な紹介 StarVectorは、画像やテキストをScalable Vector Graphics(SVG)に変換するために、Juan A. Rodriguezなどの開発者によって作成されたオープンソースプロジェクトです。このツールは、画像コンテンツとテキストを理解できるように視覚言語モデルを使用しています...
1年前
069.4K
MindSearch:开源AI搜索引擎框架,部署您自己的 Perplexity 搜索引擎!

MindSearch: オープンソースのAI検索エンジンフレームワーク!

包括的な紹介 MindSearchは、上海人工知能研究所(SAL)が立ち上げたオープンソースのAI検索エンジン・フレームワークで、複雑な情報収集と統合のための人間の思考プロセスをシミュレートすることを目的としている。このツールは、大規模言語モデリング(LLM)とマルチインテリジェンス検索エンジンの高度な技術を組み合わせたものである。
1年前
069.3K
AnimeGamer:用语言指令生成动漫视频和角色互动的开源工具

AnimeGamer: 言語コマンドでアニメ動画とキャラクターのインタラクションを生成するオープンソースツール

AnimeGamerはテンセントのARC Labが開発したオープンソースツール。ユーザーは、「宗介が紫の車でドライブする」といった簡単な言語コマンドでアニメ動画を生成したり、「魔法少女の冒険」のキキや「スカイシティ」...といった異なるアニメキャラクターを相互作用させたりすることができる。
1年前
069.3K
Audiblez:生成有声书,使用Kokoro将电子书转换为有声读物

Audiblez: ココロでオーディオブックを作成、電子書籍をオーディオブックに変換

概要 Audiblezは、電子書籍(.epub形式など)をオーディオブック(.m4b形式など)に変換するためのオープンソースプロジェクトです。Kokoroの高品質音声合成技術を利用し、多言語・多音声をサポートしています。ユーザーは単純に...
1年前
069.2K
Paper2Code:将机器学习论文自动转化为可运行代码

Paper2Code: 機械学習論文を実行可能なコードに自動変換する

一般的な紹介 Paper2Codeは、機械学習論文のコード実装が不足しているという問題を解決することを目的としたオープンソースプロジェクトである。マルチエージェントの大規模言語モデリング(LLM)システムPaperCoderによって、科学論文を実行可能なコードリポジトリに自動的に変換する。このシステムは、計画言語モデリング...
1年前
069.2K
Langui:开源的AI用户界面组件库

Langui: AIユーザーインターフェイスコンポーネントのオープンソースライブラリ

概要 LangbaseIncのLanguiは、生成AIや大規模言語モデリング(LLM)プロジェクトのために設計されたオープンソースのユーザーインターフェイスコンポーネントライブラリです。このライブラリはTailwind CSSをベースにしており、開発者が素早くUIを構築できるように、あらかじめビルドされたUIコンポーネントのコレクションを提供します。
1年前
069.2K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NVインジェスト:複雑なフォーマットのドキュメントを解析し、マルチモーダルデータをメタデータとテキストに抽出する。

包括的な紹介 NV Ingest (NVIDIA Ingest)は、何十万もの複雑で厄介な非構造化PDFやその他の企業ドキュメントを解析するために設計された、早期アクセス可能なマイクロサービス群です。これらのドキュメントをメタデータとテキストに変換し、検索に埋め込むことができます...
1年前
069.1K
WritingBench:测试大模型写作能力的基准评估工具

WritingBench:大規模モデルのライティング能力をテストするベンチマーク評価ツール

概要 WritingBenchはX-PLUGチームによって開発され、GitHubでホストされているオープンソースプロジェクトである。大規模なモデルのライティング能力をテストするために設計されたツールで、1239の実世界のライティングタスクを提供する。これらのタスクは...
1年前
069.1K
XRAG:优化检索增强生成系统的可视化评估工具

XRAG:検索機能拡張生成システムの最適化のための視覚的評価ツール

包括的な紹介 XRAG(eXamining the Core)は、高度な検索機能拡張生成(RAG)システムの基本コンポーネントを評価するために設計されたベンチマークフレームワークです。各コアモジュールのプロファイリングと分析により、XRAGは、異なる構成やコンポーネントがRAGにどのような影響を与えるかについての情報を提供します。
1年前
069.1K
OpenAI Agents SDK:搭建多智能体协作工作流的Python框架

OpenAIエージェントSDK:協調的マルチインテリジェンスワークフロー構築のためのPythonフレームワーク

概論 OpenAI Agents SDKは、マルチインテリジェントワークフローを構築するために設計された、OpenAIの軽量な開発ツールです。Pythonをベースとしており、使いやすく、開発者はAgentを設定し、タスクをカットすることができます。
1年前
069.1K
Easy Voice Toolkit:本地部署的AI语音工具箱

Easy Voice Toolkit: 地域展開のためのAI音声ツールキット

包括的な紹介 Easy-Voice-ToolkitはOpen Source Speech Projectに基づく多機能なツールキットで、音声認識、音声トランスクリプション、音声変換、データセット作成、モデルトレーニングのための幅広い自動音声ツールを提供します。ユーザーは、必要に応じてこれらのツールを選択的に使用することができます...
2年前
069.1K
DeepClaude:融合DeepSeek R1链式推理与Claude创造力的聊天界面

DeepClaude:DeepSeekのR1チェーン推論とClaudeの創造性を融合したチャットインターフェース

包括的な紹介 DeepClaudeは、DeepSeek R1の連鎖推論(CoT)機能とAnthropic Claudeモデルの創造性とコード生成を統合した、高性能な大規模言語モデル(LLM)推論APIとチャット・インターフェースです...
1年前
069K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse:各タイプのドキュメントをLLMで利用可能なデータに解析し、表や写真などドキュメント内のすべての情報をそのまま保存する。

概論 MegaParseは、Large Language Model (LLM)のデータ処理を最適化するために設計された、パワフルで多機能な文書解析ツールです。MegaParseは、テキスト、PDF、PowerPointプレゼンテーション、Word文書など、どのような文書を扱う場合でも...
2年前
069K
opensource_notebooklm:基于Deepseek-V3和PlayHT TTS的NotebookLM开源实现

opensource_notebooklm: Deepseek-V3とPlayHT TTSに基づくNotebookLMのオープンソース実装

概論 オープンソースNotebookLMは、Deepseek-V3の言語理解能力とPlayHTの音声合成技術を組み合わせた革新的な人工知能プロジェクトであり、インテリジェントなノート作成対話システムを目指しています。このプロジェクトは、Build Fast社によって開発されました。
1年前
068.9K
WebPilot:智能网页信息处理工具,网页内容抓取免费API

WebPilot:インテリジェントなウェブ情報処理ツール、ウェブコンテンツ取得のための無料API

WebPilot 概要 Webpilotはフリーでオープンソースの "ウェブアシスタント "です。ページを切り替えたり、コピー&ペーストする必要はなく、テキストを選択したり、コマンドを入力するだけで、ウェブパイロット...
2年前
068.9K
RLAMA:命令行操作的本地文档智能问答 RAG 系统

RLAMA: コマンドラインから操作するローカルドキュメントのインテリジェントなクイズのためのRAGシステム

一般的な紹介 RLAMAはDonTiziによってオープンソースで開発され、GitHubでホストされている文書インテリジェンスクイズRAG(Retrieval Augmentation Generation)システムである。ユーザは簡単なターミナルコマンドを使って、ローカルの...
1年前
068.9K
AIBot PRO:集成多种AI产品的商业化聚合平台

AIBot PRO:複数のAI製品を統合した商品化アグリゲーション・プラットフォーム

総合紹介 AIBot PROは、複数のAI製品を統合するための便利なプラットフォームをユーザーに提供するために設計された、.NET 6ベースのAIアグリゲーションクライアントです。このクライアントは、無感覚な切り替え対話をサポートし、ChatGPT、Gemini、Claude、Wenxin Yiyin...を統合します。
1年前
068.8K
Ai2 OLMoE:基于 OLMoE 模型离线运行的开源iOS AI应用

Ai2 OLMoE:オフラインで動作するOLMoEモデルに基づくオープンソースのiOS AIアプリ

概要 Ai2 OLMoEは、Allen Institute for AI (Ai2, Allen Institute for Artificial Intelligence)によって開発されたオープンソースのiOSアプリで、デバイス上で動作するAIモデルを提供します。このアプリは、Ai2のオープンソースOLMoEを活用しています。
1年前
068.8K
ANP:实现智能代理间安全高效通信的开源协议

ANP: インテリジェントエージェント間の安全で効率的な通信のためのオープンソースプロトコル

概要 AgentNetworkProtocol(略してANP)は、GitHubでホストされているオープンソースのプロトコルプロジェクトで、インテリジェントエージェント(AIエージェント)に安全で効率的な通信ソリューションを提供することに焦点を当てている。このプロトコルは、アイデンティティと暗号化という3つのレイヤーから構成されています。
1年前
068.8K
Devika:开源的AI软件工程师智能体,能够理解、拆分指令为子任务并编写代码

Devika:命令を理解し、サブタスクに分割してコードを書く、オープンソースのAIソフトウェアエンジニアの知能

一般的な紹介 Devikaは高度なAIソフトウェアエンジニアであり、人間の高度な指示を理解し、それをステップに分解し、関連する情報を研究し、与えられた目標を達成するためにコードを書く。大規模な言語モデル、計画・推論アルゴリズム、ウェブブラウジング機能を使って、インテリジェントにソフトウェアを開発する。
1年前
068.7K
Sketch-Gen:生成高质量线稿和草图,反推图像提示词,一键安装包

Sketch-Gen: 高品質の線画とスケッチを生成、イメージキューワードをバックプロパゲート、ワンクリックパッケージインストール

概要 Sketch-Genは、アーティストやデザイナーが高品質な線画やスケッチを素早く生成できるように設計された、AI技術ベースの線画・スケッチ生成ツールです。Paints-UNDOプロジェクトから生まれたこのツールは、高度な機械学習モデルを使用しています。
2年前
068.7K
Raycast-G4F:通过Raycast免费使用GPT-4、Llama-3等多种 AI 模型

Raycast-G4F: Raycastを通じてGPT-4、Llama-3、その他多くのAIモデルに無料でアクセスできます!

概論 Raycast-G4F(GPT4Free)は、GPT-4、Llama-3を含む幅広い先進的なAIモデルに無料でアクセスできる強力なRaycast拡張機能です。この拡張機能は、リアルタイムのダイアログストリーミングを提供するだけでなく...
1年前
068.6K
Omni-RGPT:图像和视频区域级理解多模态大模型,提升视觉内容分析能力

Omni-RGPT:画像・映像の領域レベル理解のためのマルチモーダルグランドモデルによるビジュアルコンテンツ分析の強化

包括的な紹介 Omni-RGPTは、画像や動画の領域レベルでの理解を可能にするために設計されたマルチモーダルな大規模言語モデルである。トークンマークテクニックを導入することで、Omni-RGPTは、視覚特徴空間内のターゲット領域を領域キュー(例えば、ボックスや...
1年前
068.6K
MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音

MockingBird: 高速音声クローニングとモデルトレーニング、xtts v2に基づく音声合成

包括的な紹介 MockingBirdはオープンソースプロジェクトであり、AI技術を通じて、迅速な音声クローンと音声合成を実現することを目指している。ユーザーは5秒間の音声サンプルを提供するだけで、どのような音声コンテンツでも生成できる。このプロジェクトは様々な中国語データセットをサポートし、Windows ...
2年前
068.5K
Flashcard:基于Dify构建的单词闪卡外语学习工具,替代多邻国(Duolingo)

フラッシュカード:Duolingoに代わってDify上に構築された単語フラッシュカード外国語学習ツール

概要 Flashcardは、Duolingoに代わるオープンソースの言語学習ツールです。Steven Lynn (GitHub username: stvlynn) によって開発されたこのプロジェクトは、モダンなユーザーインターフェイスと多言語を特徴としています。
1年前
068.5K
Text generation web UI:基于 Gradio 大语言模型聊天界面,支持多种后端服务

テキスト生成ウェブUI:複数のバックエンド・サービスをサポートするGradioベースの大規模言語モデル・チャット・インターフェース

概論 テキスト生成ウェブUIは、大規模言語モデル(LLM)のために設計されたGradioベースのウェブUIです。Transformers、llama.cp...を含む様々なテキスト生成バックエンドをサポートしています。
2年前
068.5K
Paper Reviewer:自动生成arXiv论文的综合评审并转化为博客文章

Paper Reviewer: arXiv論文の包括的なレビューを自動生成し、ブログ記事に変換する。

一般的な紹介 Paper Reviewerは、arXivの論文から包括的なレビューを生成し、ブログ記事にするために設計されたオープンソースプロジェクトです。このプロジェクトはHugging FaceのDaily Papersウェブサイトを動かしており、自動的に...
2年前
068.5K
sensitive-word:敏感词过滤工具,高效DFA算法实现

sensitive-word: センシティブワードフィルタリングツール、効率的なDFAアルゴリズムの実装

包括的な紹介 Sensitive Wordフィルタリングツール(Sensitive Word)は、DFAアルゴリズムフレームワークの実装に基づいた高性能なJavaのセンシティブワードフィルタリングツールです。このツールは、センシティブワードを効率的に検出してフィルタリングすることができ、様々なフォーマット変換やカスタム置換ストラテジーをサポートします。このツールの設計目標は、...
2年前
068.4K
深度搜索器:利用本地知识进行深度推理搜索的开源项目

Deep Finder: 局所的知識を利用した深層推論検索のためのオープンソースプロジェクト

包括的な紹介 Deep Searcherは、大規模言語モデル(LLM)とベクトルデータベースを組み合わせた強力なツールで、プライベートデータに基づいて検索、評価、推論を行い、精度の高い回答と包括的なレポートを提供するように設計されています。企業のナレッジマネジメントに適しています。
1年前
068.4K
Zed:Rust开发的高性能多人协作代码编辑器

Zed: Rustによって開発された高性能なマルチプレイヤー共同コードエディタ

一般的な紹介 Zedは、AtomとTree-sitterのクリエイターによって開発された、高性能なマルチユーザー共同コードエディターです。Rust言語で書かれたZedは、高速で流動的なコーディング体験を提供するように設計されています。主な機能として、マルチプレイヤー...
2年前
068.4K
Open Deep Research:生成基于网络搜索内容的AI研究报告

オープン・ディープ・リサーチ:ウェブ検索コンテンツに基づくAI研究の生成

概論 Open Deep Researchは、Google Geminiのディープリサーチ機能に代わるオープンソースのAI駆動型リサーチレポート作成ツールである。プロジェクトはTypeScriptで開発されており、Next.js 1...をベースにしています。
1年前
068.3K
Deep Research Web UI:支持多语言深度研究的AI助手

ディープリサーチWeb UI:多言語でのディープリサーチをサポートするAIアシスタント

包括的な紹介 Deep Research Web UIは、AI技術に基づいたオープンソースのリサーチアシスタントツールであり、ユーザーがあらゆるトピックについて深い反復研究を行うことを支援するように設計されています。直感的なウェブインターフェースを通じて、検索エンジン、ウェブクローリング、大規模言語モデリングのパワーを組み合わせています...
1年前
068.3K
Agent Inbox:与AI智能体进行人机交互的管理界面

エージェント・インボックス:AIインテリジェンスとのヒューマンコンピュータインタラクションのための管理インターフェース

概論 Agent InboxはLangChainチームによって開発されたオープンソースプロジェクトで、AIインテリジェンスと対話するための新しいユーザー体験を提供します。このプロジェクトにより、ユーザーは一元化されたインターフェイスを通して、複数のAIインテリジェンスとのインタラクションを管理し、最適化することができます。
1年前
068.2K
OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

OmniGen:マルチモーダル入力を用いた統一的な画像生成モデルによる、文字の一貫性を保った画像生成

概論 OmniGenはVectorSpaceLabによって開発された「ユニバーサル」画像生成モデルであり、ユーザーは簡単なテキストプロンプトやマルチモーダル入力で、多様で文脈に富んだ視覚効果を作成することができる。OmniGenは、特に、...を認識する必要があるアプリケーションに適しています。
2年前
068.2K
Feeds.Fun:自动标记和筛选新闻的RSS订阅工具

Feeds.Fun:自動的にタグ付けとフィルタリングを行うRSSフィード

一般的な紹介 Feeds.Funは、ユーザーが効率的にニュースを読むためのツールであり、自動的にニュースにタグを付けたり、ユーザーの好みに基づいてコンテンツをフィルタリングするなどのコア機能を備えています。開発者のAliaksei Yaletski(スクリーンネームTiendil)によって作成され、...
1年前
068.2K
SVFR:实现视频人脸修复的统一框架,修复黑白、模糊的人像老视频

SVFR:ビデオ顔修復を実装する統一フレームワーク、白黒、ぼやけたポートレート古いビデオの修復

包括的な紹介 SVFR(Stable Video Face Restoration)は、基本顔復元(Basic Face Restoration: BFR)、色付け、修復、およびそれらの組み合わせタスクをサポートする、ビデオ顔復元のための統一フレームワークである。このフレームワークは、生成的プリオールと運動学的プリオールを利用し...
1年前
068.1K
Leffa:高保真模特虚拟试穿与人物姿势调整,Meta开源的可控人物图像生成模型

Leffa:高忠実度モデルのバーチャル試着とキャラクターポーズ調整、メタ・オープンソース制御キャラクター画像生成モデル

包括的な紹介 Leffaは、制御可能なキャラクター画像を生成するための統一されたフレームワークであり、キャラクターの外見(バーチャルフィッティングなど)やポーズ(ポーズ転送など)の精密な操作を可能にする。このフレームワークは、ターゲットクエリをアテンション層の正しい参照キーにフォーカスさせることで、細かいディテールの歪みを大幅に低減する。
1年前
068K
simple-one-api:一键集成多种免费大模型API,统一对外提供 OpenAI 接口

simple-one-api:様々な無料の大規模モデルAPIをワンクリックで統合、統一された外部OpenAIインターフェース

総合紹介 simple-one-apiは、複数のビッグモデルAPIの統合を簡素化するために設計されたオープンソースプロジェクトです。Thousand Sails Big Model Platform、Xunfei Starfire Big Model、Tencent Mixed Element、MiniMax、Deep-Seek...などのOpenAI互換APIをサポートしています。
2年前
068K
MiniMind-V:1小时训练26M参数视觉语言模型

MiniMind-V:26Mパラメトリック視覚言語モデルの1時間トレーニング

概要 MiniMind-Vは、GitHubでホストされているオープンソースプロジェクトで、わずか2600万個のパラメータを持つ軽量な視覚言語モデル(VLM)を1時間以内に学習できるように設計されています。MiniMind 言語モデルをベースに、新しいビジュアル...
1年前
068K
Klavis AI:面向AI应用的模型上下文协议(MCP)集成工具

Klavis AI: AIアプリケーションのためのモデルコンテキストプロトコル(MCP)統合ツール

概論 Klavis AIは、AIアプリケーションが外部のツールやデータソースと動的に接続することを可能にするオープンスタンダードであるモデルコンテキストプロトコル(MCP)の使用と統合を簡素化することに焦点を当てたオープンソースプラットフォームです。
1年前
068K
Quick Prompt:快速管理和使用提示词的浏览器扩展

Quick Prompt: プロンプトを素早く管理・使用するためのブラウザ拡張機能

General Quick Promptはプロンプトの管理と高速入力に特化したオープンソースのブラウザ拡張機能です。ユーザーはプロンプトのライブラリを作成、整理、保存し、プリセットされたプロンプトコンテンツをウェブページの入力ボックスに素早く挿入することができます。このツールは特に...
1年前
067.8K
KBLaM:为大模型嵌入外部知识的开源增强工具

KBLaM:大規模モデルに外部知識を埋め込むためのオープンソース拡張ツール

KBLaMはマイクロソフトによって開発されたオープンソースプロジェクトで、正式名称は「知識ベース拡張言語モデル」(Knowledge Base Augmented Language Model)である。これは、外部の知識をベクトルに変換し、大規模なモデルに埋め込むことで、...
1年前
067.8K
Optexity:用人类演示训练AI执行网页操作的开源项目

Optexity:人間の実演を見ながらウェブ操作を行うAIを訓練するオープンソースプロジェクト

概論 OptexityはGitHub上のオープンソースプロジェクトで、Optexityチームによって開発されている。このプロジェクトの核心は、人間のデモ・データを使って、コンピュータ・タスク、特にウェブ・ページ操作をこなすAIを訓練することである。このプロジェクトには3つのコードライブラリが含まれている。
1年前
067.8K
Agentic Security:开源的LLM漏洞扫描工具,提供全面的模糊测试和攻击技术

Agentic Security: オープンソースのLLM脆弱性スキャンツール。

概要 Agentic Securityは、開発者やセキュリティ専門家に包括的なファズテストと攻撃技術を提供するために設計されたオープンソースのLLM(Large Language Model)脆弱性スキャンツールです。このツールは、カスタムルールセットやエージェントベースの攻撃をサポートし、LLM APを統合することができます。
1年前
067.7K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun:ウェブデータを自動的にクロールし、APIやスプレッドシートに変換するオープンソースのコード不要プラットフォーム

包括的な紹介 Maxunはオープンソースのコード不要のウェブデータ抽出プラットフォームで、ウェブデータを自動的にクロールしてAPIやスプレッドシートに変換するロボットを数分で訓練することができます。このプラットフォームは、ページングとスクロールをサポートし、ウェブサイトのレイアウトの変更に適応し、強力なデータクローリングを提供します。
1年前
067.7K
PicMenu:文字菜单转换为美观的图文菜单

PicMenu:テキストメニューを美しいグラフィックメニューに変換する

総合紹介 PicMenuは、簡単な写真操作で従来の紙メニューを鮮やかで直感的な画像メニューに変換する革新的なAIツールです。各料理の高画質画像を自動生成するだけでなく、料理に関する豊富な情報を提供し、外食産業のデジタル変革に貢献します...
2年前
067.6K
Aggregator:一站式代理爬取与聚合平台,免费代理池(请合规使用)

アグリゲーター:エージェントのクロールとアグリゲーションのワンストッププラットフォーム。

包括的な紹介 Aggregatorは、利用可能なプロキシノードの様々なクロールすることができます無料のプロキシプールを作成することを目的としたオープンソースのプロジェクトです。このプラットフォームは、柔軟なプラグインシステムを持って、ユーザーが特定の機能を実現するためにプラグインを介して、ターゲットサイトの特別なニーズに応じてすることができます。プロジェクトは、主にクロールすることを学ぶために使用されている...
2年前
067.6K
Story-Adapter:根据长篇故事生成连续且风格一致的图像插画

Story-Adapter:長いストーリーに基づき、連続的で一貫性のあるグラフィック・イラストレーションを生成します。

概論 Story-Adapterは、テキストストーリーを首尾一貫した画像シーケンスに変換する革新的なストーリー視覚化フレームワークである。研究者によって開発されたこのプロジェクトは、高品質のストーリーイラストを生成するためのトレーニングが不要な反復アプローチを採用している。このフレームワークの特徴は、長いストーリーを扱えることである。
1年前
067.6K
Memora:构建人性化AI记忆模块,保存并更新与人类的互动信息

Memora:人間との相互作用に関する情報を保存・更新するための、人間化されたAIメモリモジュールの構築

概要 Memoraは、パーソナライズされたAIに人間の記憶を複製するように設計されたエージェントである。タイムスタンプ付きの記憶、感情マーカー、マルチモーダル記憶などの機能により、AIが人間のように過去の交流、感情、共有された経験の詳細を記憶することを支援する。
1年前
067.6K
Dolphin:面向亚洲语言识别与语音转文本模型

ドルフィン:アジア言語認識とアジア言語のための音声テキストモデル

総合紹介 Dolphinは、DataoceanAIと清華大学によって開発された、アジア言語の音声認識と言語認識に特化したオープンソースモデルです。東アジア、南アジア、東南アジア、中東の40の言語と22の中国語方言をサポートしています。
1年前
067.5K
E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一

E2M: 複数のファイル形式をMarkdownに変換し、簡単に統一されたドキュメントフォーマットを実現する

概要 E2M (Everything to Markdown)は、様々なファイルフォーマットをMarkdownフォーマットに変換するために設計されたオープンソースのPythonライブラリです。このツールは、doc、docx、epub、html、htm、u...などのフォーマットをサポートしています。
2年前
067.5K
AppAgent:利用多模态智能体自动操作智能手机

AppAgent:マルチモーダルインテリジェンスによるスマートフォンの自動操作

包括的な紹介 AppAgentは、スマートフォンのアプリケーションを操作するために設計されたLarge Language Model(LLM)ベースのマルチモーダルエージェントフレームワークです。このフレームワークは、簡素化された操作空間を通じて、タップやスワイプといった人間のインタラクションを模倣する。そのため、システムのバックエンドにアクセスする必要がなく、さまざまなアプリケーションでの利用が可能である。
1年前
067.5K
Coding Agent:基于Langgraph构建的简单编程助手

コーディング・エージェント:Langgraph上に構築されたシンプルなプログラミング・アシスタント

概要 Coding AgentはAbhinavTheDevによって開発されたインテリジェントなプログラミングアシスタントで、開発者のプログラミング効率を向上させるために設計されています。このツールは、人工知能技術を使用して、コードを自動的に生成し、プログラミングの提案を行い、さまざまなコーディングで開発者を支援します。
1年前
067.4K
MeetingMind:依赖OpenAI Whisper的开源智能会议记录与总结工具

MeetingMind: OpenAI Whisperを利用したオープンソースのインテリジェント会議記録・要約ツール

はじめに MeetingMindは、ビジネスミーティングの記録と要約の効率を改善するために設計された高度なAIアプリケーションです。このアプリは、OpenAIのWhisperテクノロジーを統合して正確な音声テキスト化を実現し、IBM Watso...
2年前
067.4K
Kreuzberg:从任何文档中提取文本的开源工具

Kreuzberg: あらゆる文書からテキストを抽出するオープンソースツール

一般的な紹介 Kreuzbergは、PDFファイルからのテキスト抽出を簡素化するためのライブラリで、シンプルで手間のかからないテキスト抽出ソリューションを提供するように設計されています。このライブラリは、特にRAG(Retrieval-Augmented Generatio...
1年前
067.4K
AnimatedDrawings:儿童手绘涂鸦转换动画,自动化儿童绘画动画生成工具

AnimatedDrawings:子供の手描きの落書きをアニメーションに変換、子供のお絵かきアニメーション自動生成ツール

概論 AnimatedDrawingsはFacebook Researchによって開発されたオープンソースプロジェクトで、自動化技術によって子供の絵をアニメーションのキャラクターに変換する。このプロジェクトは、「A Method for A...
1年前
067.4K
Step-Video-T2V:支持多语言输入和长视频生成的文生视频模型

Step-Video-T2V:多言語入力とロングビデオ生成をサポートするVincennesビデオモデル

総合紹介 Step-Video-T2VはStepFun AI (StepFun Star)による先進的なテキストから動画への変換モデルです。このモデルは30億のパラメータを持ち、最大204fpsの動画を生成することができます。深く圧縮された可変オートエンコーダ(VAE)により、このモデルは...
1年前
067.4K
EchoMimic:音频驱动人像照片生成说话视频(EchoMimicV2加速版安装包)

EchoMimic: 音声駆動ポートレートによるトーキングビデオ生成 (EchoMimicV2 アクセラレータ)

概要 EchoMimicは、音声によってリアルなポートレートアニメーションを生成するために設計されたオープンソースプロジェクトです。AntグループのTerminal Technologies部門によって開発されたこのプロジェクトは、編集可能なマーカーポイント条件を利用し、音声と顔のマーカーポイントを組み合わせて、ダイナミックなポートレート動画を生成します。
1年前
067.3K
Novel:模仿Notion AI的开源写作编辑器

小説:Notion AIを模倣したオープンソースのライティング・エディター

包括的な紹介 これは、Steven Teyによって開発されたオープンソースプロジェクトで、Novelと呼ばれ、NotionスタイルのWYSIWYGテキストエディタであり、ユーザーがテキスト入力の効率を向上させることができる統合されたAIの自動補完機能です。このプロジェクトは、詳細なドキュメントとインストール手順を提供します。
2年前
067.3K
VideoSeal:先进的开源视频隐藏水印嵌入与提取工具,保护视频版权

VideoSeal: ビデオ著作権を保護する高度なオープンソースビデオ隠し透かし埋め込み・抽出ツール

一般的な紹介 VideoSealはFacebook Researchによって開発されたオープンソースのビデオ透かしツールであり、効率的なビデオ透かしの埋め込みと抽出を提供するように設計されている。このツールは、最新のオープンソースモデルをサポートし、事前学習済みモデル、学習コード、推論コード、評価ツールを含んでいます。
1年前
067.3K
Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

Ichigo (llama3-s): ローカルリアルタイム音声AIアシスタント、オープンソース版Siri

はじめに Ichigoはオープンソースのリアルタイム音声AIプロジェクトで、テキストベースの言語モデルをネイティブな「聞き取り」機能で拡張することを目的としています。このプロジェクトでは、MetaのChameleon論文にインスパイアされた初期のフュージョン技術を使用している。
1年前
067.3K
Search o1:赋予推理模型主动搜索能力,让大模型边思考边搜索外部知识

検索 o1: 推論モデルに能動的な検索機能を与え、大規模モデルが思考しながら外部の知識を検索できるようにする。

包括的な紹介 Search-o1は、高度な検索メカニズムを統合することで、大規模推論モデル(LRM)のパフォーマンスを向上させることを目的としたオープンソースプロジェクトである。コアとなるアイデアは、動的な検索と知識の統合を通じて、推論プロセスで遭遇する知識不足の問題を解決することです。プロジェクトのスポンサーはsunn...
1年前
067.2K
FoleyCrafter:为无声视频添加生动同步的音效

FoleyCrafter: 無音ビデオに鮮やかな同期サウンドを追加する

一般的な紹介 FoleyCrafterは、OpenMMLabによって開発されたオープンソースプロジェクトで、無音ビデオのための鮮明で同期された効果音を生成します。このプロジェクトでは、高度な人工知能技術を用いて、ビデオの内容を分析することにより、意味的に関連性のある、時間的に同期した効果音を生成します...
1年前
067.2K
ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程

ExtractThinker: ドキュメントを構造化データに抽出・分類し、ドキュメント処理プロセスを最適化します。

包括的な紹介 ExtractThinkerは、大規模言語モデル(LLM)を使用してドキュメントから構造化データを抽出・分類し、シームレスなORMライクなドキュメント処理ワークフローを提供する、柔軟なドキュメントインテリジェンスツールです。LLMを含む様々なドキュメントローダーをサポートしています。
1年前
067.1K
Coding-Tutor:提供个性化编程指导的智能教学助手

Coding-Tutor: 個別のプログラミング指導を提供するインテリジェントなティーチング・アシスタント

一般的な紹介 Coding-Tutorは、GitHubでホストされているオープンソースプロジェクトで、開発者のiwangjianによって作成され、学習者にパーソナライズされたプログラミング教育の経験を提供します。会話型AI技術を使用し、ユーザーの知識背景と...
1年前
067.1K
Cosmos:世界基础模型,构建物理世界的人工智能基础模型平台

Cosmos:ワールド・ベース・モデル、物理世界のAIベース・モデルを構築するためのプラットフォーム

包括的な紹介 NVIDIA Cosmosは開発者向けのワールドベースのモデリング・プラットフォームであり、物理AI開発者がより良く、より速く物理AIシステムを構築できるように特別に設計されています。このプラットフォームは、拡散モデルや自己回帰モデルなど、さまざまな訓練済みモデルを提供します。
1年前
067.1K
Plandex:支持超长上下文的开源AI编码助手

Plandex:超ロングコンテクストをサポートするオープンソースのAIコーディングアシスタント

概要 Plandexは、大規模で複雑なソフトウェアプロジェクトのために設計されたオープンソースのエンドツーエンドのAIコーディングアシスタントです。複数ステップのタスクを計画・実行し、最大200万トークンのコンテキストを処理し、30以上のプログラミング言語をサポートします。
1年前
067.1K
ChatAnyone:从照片生成半身数字人肖像视频的工具

ChatAnyone:写真から半身のデジタル人物ビデオを生成するツール

はじめに ChatAnyoneはHumanAIGCチームによって開発された革新的なプロジェクトです。人工知能技術を用いて、1枚の写真と音声入力から、上半身の動きを含むデジタル人物ビデオを生成する。このプロジェクトは、頭の動きを生成する階層的な動き拡散モデルに基づいています...
1年前
067.1K
Clevrr Computer:使用 PyAutoGUI 库实现自动化桌面操作智能体

Clevrr Computer: PyAutoGUIライブラリでデスクトップ操作のインテリジェンスを自動化する

一般的な紹介 Clevrr Computerは、PyAutoGUIライブラリを使用してシステム操作を自動化することを目的としたオープンソースプロジェクトです。このプロジェクトはAnthropicにインスパイアされ、PyAutoGUIライブラリを使用して正確かつ効率的に操作を実行できる自動化エージェントを設計しました。
1年前
067K
VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

VideoChat:カスタムイメージとトーンクローニングによるリアルタイムの音声対話型デジタルパーソンは、エンドツーエンドの音声ソリューションとカスケードソリューションをサポートします。

概要 VideoChatは、オープンソース技術に基づくリアルタイム音声対話デジタルパーソンプロジェクトで、エンドツーエンドの音声スキーム(GLM-4-Voice - THG)とカスケードスキーム(ASR-LLM-TTS-THG)の両方をサポートしています。このプロジェクトでは、ユーザーがデジタルパーソンをカスタマイズすることができます。
2年前
067K
pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版

pdf2htmlEX: テキストフォーマットを維持したまま、PDFをHTMLにロスレス変換。

包括的な紹介 pdf2htmlEXは、PDFファイルをHTML形式に変換するために設計されたオープンソースのツールであり、PDFファイルの内容を分析し、HTML + CSSを使用して正確にその視覚効果を復元することにより、PDF文書は、ブラウザに変換されます。
2年前
066.9K
ell:轻量级函数式提示词工程框架

エル:軽量機能的キュー・ワード工学フレームワーク

一般的な紹介 ellは、元OpenAIの研究者であるウィリアム・ガスによって開発された軽量な関数型言語モデル・プログラミング・ライブラリである。ellは、キューを単なる文字列としてではなく、プログラムとして扱うことを念頭に設計されている。
1年前
066.9K
DeepSeek-RAG-Chatbot:本地运行的 DeepSeek RAG 聊天机器人

DeepSeek-RAG-Chatbot: ローカルで動作する DeepSeek RAG チャットボット

一般的な紹介 DeepSeek-RAG-Chatbotは、GitHubでホストされているDeepSeek R1モデルに基づいて構築されたオープンソースのチャットボットプロジェクトで、開発者のSaiAkhil066によって作成されました。DeepSeek-RAG-Chatbotは、拡張された生成...
1年前
066.9K
Agenta:集成到AI应用的提示词与模型效果评估工具

Agenta:AIアプリケーションに統合されたキューワードとモデルの効果を評価するツール

包括的な紹介 AgentaはオープンソースのAIモデル管理ツールで、ユーザが簡単にキューワードを使って実験したり、モデルの効果をテストしたり、実行をモニターしたりできるように設計されています。AIアプリケーションを素早く開発したい人に適しており、操作が簡単なプラットフォームを提供します。様々なキューワードの効果を試すことができます。
1年前
066.9K