AIオープンソースプロジェクト

合計1020記事
Vision Parse: 視覚言語モデルを用いたPDFドキュメントのMarkdownフォーマットへのインテリジェント変換

Vision Parse: 視覚言語モデルを用いたPDFドキュメントのMarkdownフォーマットへのインテリジェント変換

包括的な紹介 Vision Parseは画期的な文書処理ツールで、最先端の視覚言語モデル(Vision Language Models)技術と、PDF文書を高品質のMarkdown形式にインテリジェントに変換する機能を巧みに組み合わせています...
1年前
056.7K
dsRAG:用于处理非结构化数据和复杂查询的检索引擎

dsRAG: 非構造化データと複雑なクエリのための検索エンジン

概要 dsRAGは、非構造化データに対する複雑なクエリを処理するために設計された高性能検索エンジンである。dsRAGは、財務報告書、法律文書、学術論文など、高密度なテキストに含まれる難易度の高いクエリに対して特に優れた性能を発揮する。dsRAGは性能を向上させるために3つの主要なアプローチを採用している。
1年前
056.6K
Supermemory:导入书签和网页内容构建个人知识库

スーパーメモリー:ブックマークやウェブコンテンツをインポートして個人の知識ベースを構築する

概論 Supermemoryは、ユーザーが「第二の脳」を構築することを支援するために設計されたオープンソースプロジェクトである。強力なChrome拡張機能とAI技術により、ユーザーはウェブページやTwitterのブックマークから簡単にデータを保存、整理、取得することができます。
1年前
056.6K
Claude生成深度研究报告的MCP服务

詳細な調査レポートを作成するクロードのMCPサービス

一般的な紹介 MCP Server Deep Researchは、人工知能とウェブ検索によって複雑な問題の構造化された調査レポートを自動的に生成するオープンソースツールです。ユーザーがリサーチクエスチョンを入力すると、ツールはそのクエスチョンを分解し、権威ある情報を検索し、ソースの信頼性を評価します。
11ヶ月前
056.6K
Model Context Provider CLI:任意大模型中使用MCP服务的命令行工具,不依赖Claude

Model Context Provider CLI: クロードに依存しない、あらゆる大規模モデルでMCPサービスを使用するためのコマンドラインツール。

包括的な紹介 モデルコンテキストプロバイダCLI(mcp-cli)は、モデルコンテキストプロバイダサーバと対話するためのプロトコルレベルのコマンドラインツールです。このツールによって、ユーザーはコマンドを送信したり、データを照会したり、サーバーが提供する様々なリソースと対話したりすることができます...
1年前
056.5K
ComfyUI Portrait Master 中文版:优化肖像生成的提示词工具

ComfyUI ポートレートマスター中国語版:似顔絵生成を最適化するキューワードツール

はじめに ComfyUI Portrait Master 中国語版は、AI画像クリエイターのために設計された似顔絵キューワード生成ツールです。このツールは、ユーザーがキューワードを最適化することによって、高品質の似顔絵を生成するのに役立ちます。ユーザーは、要求に応じて異なるレンズを選択することができます...
2年前
056.4K
Memobase:为AI应用提供基于用户画像的长期记忆方案

メモベース:AIアプリケーションのためのユーザープロファイルに基づく長期記憶ソリューション

はじめに Memobaseは、生成的なAIアプリケーションのための長期的なユーザー記憶をサポートするように設計された、ユーザープロファイルに基づく記憶システムです。バーチャルコンパニオン、教育ツール、パーソナライズされたアシスタントなど、Memobaseは、AIが記憶し、理解し、成長するのを支援します。
1年前
056.4K
GPT Academic:最佳Arxiv学术论文翻译、纠错与代码解释

GPTアカデミック:Arxiv学術論文翻訳、エラー訂正、コード解釈の最優秀賞

一般的な紹介 GPT Academicは、学術研究に最適化された大規模言語モデルのためのインタラクティブプラットフォームです。GPT/GLMのような大規模言語モデルへの実用的なインタラクティブインターフェースのためのツールを提供し、特に論文翻訳、論文読解、推敲、執筆の経験に最適化されています。モジュール設計を採用しています。
1年前
056.4K
OpenDeepResearcher:自动化深度研究工具,撰写完整的研究报告

OpenDeepResearcher:完全な調査レポートを書くための自動詳細調査ツール

概要 OpenDeepResearcherは、人工知能技術によって研究効率を向上させるために設計されたオープンソースの自動ディープリサーチツールです。プロジェクトはmshumerによって開発され、GitHubでホストされています。OpenDeepResear...
1年前
056.4K
Markdown To Poster:将Markdown转换为社交媒体/小红书海报,支持在线编辑和一键部署。

Markdown To Poster: オンライン編集とワンクリック配備サポートで、Markdownをソーシャルメディアや小赤字ポスターに変換します。

概要 Markdown to Imageは、Markdownテキストを視覚的に魅力的なソーシャルメディア画像にレンダリングするためのReactコンポーネントです。このプロジェクトには、オンラインのMarkdown to posterエディタとして使用できる組み込みのWebエディタも含まれています...
1年前
056.4K
Agent-Wiz:分析AI智能体工作流程和安全风险

Agent-Wiz:AIインテリジェンシアのワークフローとセキュリティリスクの分析

概要 Agent-Wizは、開発者、研究者、セキュリティチーム向けに設計されたオープンソースのPythonコマンドラインツールです。LangGraph、CrewAI、AutoGenなどの主要なAIインテリジェンスフレームワークから複雑なワークフローを抽出し、...
1年前
056.4K
MultiPost-Extension:将AI生成内容一键同步到自媒体平台的浏览器扩展

MultiPost-Extension:AIが生成したコンテンツをワンクリックでセルフパブリッシング・プラットフォームに同期するブラウザ拡張機能

概要 MultiPost-Extensionは、ユーザーがワンクリックで複数のソーシャルメディアプラットフォームにコンテンツを公開できるように設計された強力なブラウザ拡張機能です。この拡張機能は、Zhihu、Weibo、Xiaohongshu、TikTok ... を含む10以上の主要プラットフォームへの同時投稿をサポートしています。
1年前
056.2K
Pyramid Flow:快手推出的开源版

Pyramid Flow:Racerが発表した "Kringle "のオープンソース版で、SD3をベースとし、8GB未満のGPUで動作する(ワンクリックデプロイメント版)。

総合紹介 ピラミッドフローは、フローマッチング技術に基づく効率的な自己回帰的映像生成手法である。この手法は、異なる解像度とノイズレベルの間を補間することで、映像コンテンツの生成と伸長において高い計算効率を達成する...
1年前
056.2K
HiveChat:适合公司内部快速部署的AI聊天机器人

HiveChat:企業内で迅速に展開できるAIチャットボット

概要 HiveChatは中小規模のチーム向けのAIチャットボットで、管理者は複数のAIモデル(Deepseek、OpenAI、Claude、Geminiなど)を一度に設定し、チームメンバーが簡単に使用できるようにすることができます。このチャットボットは ...
1年前
056.2K
DeepResearcher:基于强化学习驱动AI研究复杂问题

DeepResearcher:複雑な問題を研究する強化学習ベースのドライビングAI

包括的な紹介 DeepResearcherは、上海交通大学のGAIR-NLPチームによって開発されたオープンソースプロジェクトです。強化学習(RL)によって実際のウェブ環境でエンドツーエンドで学習された大規模言語モデル(LLM)に基づくインテリジェントな研究ツールです。プロジェクト...
1年前
056.2K
Dynamiq:智能体编排框架,支持RAG和LLM代理,简化AI应用开发

Dynamiq:AIアプリケーション開発を簡素化するRAGとLLMエージェントをサポートするインテリジェント・ボディ・オーケストレーション・フレームワーク

包括的な紹介 Dynamiqは、エージェントAIと大規模言語モデリング(LLM)アプリケーションのために設計されたオープンソースのAIオーケストレーションフレームワークです。Dynamiqは、特にRAG(Retrieval Augmented Generation)とLLMエージェントのオーケストレーションの分野において、AI駆動型アプリケーションの開発を簡素化することを目的としています。
1年前
056.2K
SciToolAgent:整合500+科研工具,自动化研究科研任务的智能体

SciToolAgent: 500以上の研究ツールを統合し、研究と科学的タスクを自動化するインテリジェンス

包括的な紹介 SciToolAgentは、杭州にある浙江大学のイノベーションセンター(HICAI-ZJU)によって開発されたオープンソースのツールプラットフォームです。ナレッジグラフ(SciToolKG)とビッグランゲージモデリング技術を通じて500以上の科学ツールを統合し、研究者が...
1年前
056.1K
mac assistant:macOS设备自动执行桌面操作的AI智能体

mac assistant: macOSデバイスのデスクトップ操作を自動化するAIインテリジェンス

概論 mac assistantはmacOSのために設計されたAI知能体プロジェクトであり、ネイティブソフトウェアとウェブ機能を組み合わせることでユーザー操作を簡素化することを目的としている。このプロジェクトは現在OpenAIとGEMINIのAPIをサポートしており、将来的には...
1年前
056.1K
self.so:一键生成精美的个人简历网页

self.so: ワンクリックで美しい履歴書ページを作成!

概要 self.soは、履歴書やLinkedInのプロフィールを素早く個人のウェブサイトに変換するために設計されたオープンソースのツールです。ユーザーはPDFの履歴書をアップロードするか、LinkedInのリンクを入力するだけで、システムがAI技術(Tog...をベース)を使って個人ウェブサイトに変換します。
1年前
056.1K
Text2Video-Zero:Picsart AI Research团队发布的文本到视频零样本生成器

Text2Video-Zero: Picsart AI研究チームによるテキストからビデオへのゼロサンプル生成ツールがリリースされました。

一般的な紹介 Text2Video-Zeroは、Picsart AI Researchチームによって開発されたGitHub用のサンプル数ゼロのテキストからビデオへのジェネレーターの公式実装です。このプロジェクトは、時間的一貫性と正しいテキストを生成するためにテキストキューを使用する方法を提供します。
2年前
056K
MemFree:本地知识库与搜索信息混合的AI搜索引擎

MemFree:地域の知識ベースと検索情報を混合するAI検索エンジン

概要 MemFreeは、テキスト、画像、文書、ウェブページを検索し、質問することができる高度なハイブリッドAI検索エンジンです。テキスト、マインドマップ、画像、動画の検索結果にワンクリックでアクセスすることができます。MemFreeは、ユーザーの知識ベースから情報を抽出し、...
1年前
056K
agents.json:智能体通过自然语言与API交互的开源规范

agents.json: 自然言語を介してAPIと対話するインテリジェンスのためのオープンソース仕様

一般的な紹介 agents.jsonは、Wildcard AIチームによって開発されたオープンソースの仕様で、OpenAPI標準に基づき、インテリジェンスが自然言語を通じてAPIと効率的に通信できるように設計されています。構造化されたJSONファイルを使用して、インテリジェントな...
1年前
056K
AI Web Operator:浏览器自动化操作,OpenAI Operator的开源实现

AI Web Operator: ブラウザ自動化、OpenAI Operatorのオープンソース実装

概要 AI Web Operatorは、複数のAI技術とSDKを統合することで、ブラウザでのユーザー体験を簡素化するために設計されたオープンソースのAIブラウザ・オペレーター・ツールです。このツールは、BrowserbaseとVercel...をベースにしています。
1年前
055.9K
XiaoYuanKouSuan_Auto:小猿口算自动答题工具,高效解决口算题目

XiaoYuanKouSuan_Auto:XiaoYuanKouSuan自動質疑応答ツール、効率的に口頭算数の問題を解く

包括的な紹介 Ape Mouth Calculator Automatic Question Answer Toolは、OCR認識と自動化スクリプトによってApe Mouth Calculatorアプリケーションの問題を効率的に解くために設計されたPythonベースのオープンソースプロジェクトです。このツールはOpenCVやTesseractなどの技術を利用し、画面上の問題をリアルタイムで識別することができます...
2年前
055.9K
Rankify:支持信息检索与重排序的Python工具包

Rankify: 情報検索と並び替えをサポートするPythonツールキット

一般的な紹介 Rankifyは、オーストリアのインスブルック大学のデータサイエンスグループによって開発されたオープンソースのPythonツールキットである。情報検索、並べ替え、検索拡張生成(RAG)に焦点を当て、統一されたフレームワークを提供している。このツールキットには40の検索済みベンチマークが組み込まれている。
1年前
055.8K
AgentIQ:灵活连接和管理AI智能体的开源工具

AgentIQ: AIインテリジェンスの柔軟な接続と管理のためのオープンソースツール

概要 AgentIQは、開発者がAIインテリジェンスを効率的に接続・管理できるように設計されたNVIDIAのオープンソースツールです。異なるフレームワークのインテリジェンスがシームレスに連携し、企業データとツールを接続し、関数を呼び出すようなワークフローを構築することを可能にします。このツールの最大の特徴は...
1年前
055.8K
SFT-data-builder:利用免费大模型API生成AI训练数据,0成本大模型训练数据生成

SFT-data-builder:無料のビッグモデルAPIを使用してAIのトレーニングデータを生成。

包括的な紹介 SFT-data-builderは、無料のBig Model APIとユーザーのプライベートドメインデータを組み合わせて、高品質のSFTトレーニングデータを生成するために設計されたオープンソースプロジェクトです。このツールは、複数のAIモデル形式をサポートし、ワンクリック生成、バッチ生成、柔軟な編集、ローカル...
1年前
055.8K
MegaPairs:BGE新推出的多模态向量嵌入模型

メガペア:BGEによる新しいマルチモーダルベクトル埋め込みモデル

包括的な紹介 MegaPairsはVectorSpaceLabチームによるGitHub上のオープンソースプロジェクトであり、大規模なデータ合成技術によって画像-テキスト-画像検索タスクのためのマルチモーダル埋め込みモデルを生成する。このプロジェクトは、2,600万以上の異種...
1年前
055.8K
R1-Onevision:支持多模态推理的开源视觉语言模型

R1-Onevision:マルチモーダル推論をサポートするオープンソースの視覚言語モデル

包括的な紹介 R1-Onevisionは、Fancy-MLLMチームによって開発されたオープンソースのマルチモーダル・マクロ言語モデルです。視覚と言語の深い組み合わせに焦点を当て、画像やテキストなどのマルチモーダル入力を処理し、視覚的推論、画像理解、数学的解決などの分野で活躍することができます。
1年前
055.7K
EasyControl:将人像转为吉卜力风格图像的免费工具

EasyControl:ポートレートをジブリ風に変身させる無料ツール

概要 EasyControlはオープンソースプロジェクトであり、効率的で柔軟な画像生成制御を提供する拡散変換器(DiT)アーキテクチャに基づいています。その中でも、ジブリ・コントロールLoRAは特別な機能の一つで、たった100個のサブ...
1年前
055.6K
Tap4 AI WebUI:开源轻量级AI工具导航项目

Tap4 AI WebUI:オープンソースの軽量AIツール・ナビゲーション・プロジェクト

包括的な紹介 Tap4 AI WebUIは、オープンソースの軽量AIツールナビゲーションウェブサイトプロジェクトです。このプロジェクトは、Next.jsとSupabaseテクノロジースタックを使用し、多言語SEO最適化をサポートし、AIツールカタログを提供します。
1年前
055.6K
ChainForge:测试和评估大型语言模型提示效果的开源可视化编程环境

ChainForge:大規模言語モデルヒントの有効性をテスト・評価するオープンソースのビジュアルプログラミング環境

概要 ChainForgeは、大規模言語モデル(LLM)のキューの有効性をテスト・評価するために設計されたオープンソースのビジュアルプログラミング環境です。データフローキューイングエンジニアリング環境を提供し、LLM応答における様々なキューの品質を素早く探索・分析することができます。
1年前
055.6K
Kheish:多角色智能体,审查、验证和格式化输出以生成高质量结果

Kheish: 高品質な結果を出すために、出力をレビュー、検証、フォーマットするマルチロールインテリジェンス

包括的な紹介 Kheishは、構造化されたステップバイステップのコラボレーションを必要とする大規模言語モデリング(LLM)タスクのために設計されたオープンソースのマルチロールエージェントです。Kheishは単なるコーディネータではなく、それ自体がインテリジェントなエージェントであり、要求に応じてモジュールを要求し、ユーザーの反転を統合します。
1年前
055.5K
OneFileLLM:整合多种数据源为单一文本文件

OneFileLLM: 複数のデータソースを単一のテキストファイルに統合

包括的な紹介 OneFileLLMは、大規模言語モデル(LLM)に簡単に入力できるように、複数のデータソースを単一のテキストファイルに統合するために設計されたオープンソースのコマンドラインツールです。GitHubリポジトリ、ArXiv論文、YouTube動画トランスクリプション、Web...
12ヶ月前
055.5K
CSM Voice Cloning:利用CSM-1B快速克隆声音

CSMボイスクローニング:CSM-1Bによる高速ボイスクローニング

概要 CSM Voice Cloningは、Isaiah Bjorkによって開発され、GitHubでホストされているオープンソースプロジェクトです。このプロジェクトはSesame CSM-1Bモデルに基づいており、ユーザは音声サンプルを提供するだけでクローンを作成することができます。
1年前
055.5K
Story-Flicks:输入主题自动生成儿童短故事视频

Story-Flicks:トピックを入力することで、子供向けのショートストーリービデオが自動生成される。

包括的な紹介 Story-Flicksは、ユーザーがHDストーリービデオを素早く生成することに焦点を当てたオープンソースのAIツールです。ユーザーはストーリーのトピックを入力するだけで、システムは大規模な言語モデルを通してストーリーの内容を生成し、AIが生成した画像、音声、字幕を組み合わせて完全なビデオを出力します。
1年前
055.5K
ai-gradio:轻松集成多种AI模型,基于Gradio构建多模态应用

ai-gradio: 複数のAIモデルを簡単に統合し、Gradioに基づいたマルチモーダル・アプリケーションを構築する

概論 ai-gradioはオープンソースのPythonツールキットで、開発者が複数のAIモデルを簡単に統合して使用できるように設計されています。Gradio上に構築されたこのプロジェクトは、複数のAIモデルとサービスをサポートするための統一されたインターフェースを提供します。テキスト、音声、動画のいずれでも...
1年前
055.4K
llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

llms.txt Generator: Webサイトのコンテンツを素早くキャプチャし、LLMトレーニング用テキストデータセットを生成します。

包括的な紹介 llmstxt-generatorは、大規模言語モデリング(LLM)の訓練と推論のための高品質のテキストデータセットを準備するための専門的なウェブコンテンツ抽出と統合ツールです。このツールはMendable AIによって開発され、@firec...
1年前
055.4K
Instructor:简化大语言模型结构化输出工作流的Python库

講師:大規模言語モデルの構造化出力ワークフローを簡素化するPythonライブラリ

概要 Instructorは、大規模言語モデル(LLM)からの構造化出力を処理するために設計された人気のあるPythonライブラリです。Pydanticをベースに構築されており、データを管理するためのシンプルで透過的、かつユーザーフレンドリーなAPIを提供します。
1年前
055.4K
VideoReTalking:音频驱动的嘴唇同步和视频编辑系统

VideoReTalking:音声駆動型リップシンクロ・ビデオ編集システム

一般的な紹介 VideoReTalkingは、ユーザーが入力音声に基づいてリップシンクロナイズされた顔のビデオを生成し、異なる感情であっても高品質でリップシンクロナイズされた出力ビデオを生成できる革新的なシステムです。このシステムは、この目標を3つの連続したタスクに分割します。
1年前
055.4K
AI Video Starter Kit:在浏览器中全流程创作并编辑AI视频

AIビデオ・スターター・キット: ブラウザ上でAIビデオの作成と編集がフルフローで可能

概論 ビデオ・スターター・キット(Video Starter Kit)は、fal-ai-communityによって公開されたオープンソースプロジェクトで、ブラウザでのビデオ制作にAIモデルを使用する方法を示すものです。画像を動画に変換するためのツールを提供しています。
1年前
055.3K
MuseGAN:生成多轨音乐/配乐的开源模型,轻松创作多种乐器的音乐片段

MuseGAN: マルチトラック音楽/サウンドトラックを生成し、複数の楽器の音楽クリップを簡単に作成するためのオープンソースモデル

一般的な紹介 MuseGANはGenerative Adversarial Networks (GAN)に基づいた音楽生成プロジェクトで、マルチトラック(マルチ楽器)の音楽を生成するように設計されています。MuseGANはLakh Pianorを使用しています。
1年前
055.3K
DualPipe:双向流水线并行算法,提升大规模AI模型训练效率(DeepSeek 开源周第四天)

DualPipe:大規模AIモデルの学習効率を向上させる双方向パイプライン並列アルゴリズム(DeepSeek Open Source Week Day 4)

概要 DualPipeは、DeepSeek-AIチームによって開発されたオープンソース技術で、大規模なAIモデルトレーニングの効率向上に焦点を当てています。主にDeepSeek-V3とR1で使用されている革新的な双方向パイプライン並列アルゴリズムです。
1年前
055.3K
Qwen4Mac:在Mac菜单栏中使用千问(Qwen)大模型随时对话

Qwen4Mac: MacのメニューバーにあるQwenの大きなモデルを使って、いつでも会話ができます!

概要 Qwen4MacはQwen Large Language Model (LLM)をMacのメニューバーに統合し、ユーザーがいつでも簡単に呼び出して使えるようにするために設計されたオープンソースプロジェクトです。このプロジェクトは、andreaturchetによって開発・保守されており、ユーザが簡単にQwenを...
1年前
055.2K
VirtualWife:支持B站直播和语音互动的二次元数字人

バーチャル・ワイフ:Bステーションのライブ・ストリーミングと音声インタラクションをサポートする第二のデジタル・パーソン

VirtualWifeは、開発者yakami129によって作成されたオープンソースのバーチャルデジタルパーソンプロジェクトです。現在、インキュベーション段階にあり、ゴールは「魂」を持ったバーチャルキャラクターを作ることで、ユーザーは友達のように交流することができる。このプロジェクトはB Station Liveによってサポートされています。
1年前
055.2K
Deep Searcher:企业私有文档高效检索与智能问答

ディープサーチャー:企業の私文書の効率的な検索とインテリジェントなQ&A

概要 Deep Searcherは、強力なビッグ言語モデル(DeepSeekやOpenAIなど)と、プライベートデータに基づいて検索、評価、推論を行うように設計されたベクトルデータベース(Milvusなど)を組み合わせたツールで、精度の高い回答を提供する...
1年前
055.1K
TPO-LLM-WebUI:输入问题即可实时训练模型输出结果的AI框架

TPO-LLM-WebUI:質問を入力してリアルタイムにモデルを学習し、結果を出力できるAIフレームワーク。

概論 TPO-LLM-WebUIは、AirmomoがGitHubでオープンソース化している革新的なプロジェクトで、直感的なWebインターフェースを通じて大規模言語モデル(LLM)のリアルタイム最適化を可能にします。TPO (Test-Time Pr...
1年前
055.1K
DisPose:生成人体姿态精准控制的视频,创作跳舞的小姐姐

ディスポーズ:人間の姿勢を精密に制御してビデオを生成し、踊る女性を作り出す

一般的な紹介 DisPoseは、制御されたキャラクター画像アニメーション生成に焦点を当てた革新的なオープンソースの人工知能プロジェクトです。研究者チームによって開発され、GitHubでオープンソース化されたこのプロジェクトは、高度なディープラーニング技術を用いて、骨格のポーズ情報を分解することで正確なキャラクターアニメーションの制御を実現しています。
1年前
055.1K
Go-Proxy:Docker集成的高性能反向代理服务器

Go-Proxy:Docker統合のための高性能リバースプロキシサーバー

包括的な紹介 Go-ProxyはGo言語を使って開発された高性能なプロキシサーバーで、主にさまざまなネットワーク環境でプロキシサービスを提供するために使用されます。HTTP、HTTPS、SOCKS5、WebSocket、TCP、UDPを含む様々なプロトコルをサポートし、プロキシサーバーとして使用することができます。
1年前
055K
Marco-o1:基于Qwen2-7B-Instruct微调的开源版OpenAI o1模型,探索开放式推理模型,解决复杂问题

Maro-o1:Qwen2-7Bに基づくOpenAI o1モデルのオープンソース版-複雑な問題を解決するためのオープンな推論モデルを探求するための微調整を指示する。

総合紹介 Marco-o1は、アリババ国際デジタル商務グループ(AIDC-AI)によって開発された、複雑な実世界の問題を解決するためのオープンな推論モデルです。このモデルは、思考の連鎖(CoT)微調整、モンテカルロ木探索(MCTS)、および革新的な推論戦略を組み合わせています...
1年前
055K
TextDistiller:一键总结一整本书,高效提炼书籍内容,快速掌握核心思想

TextDistiller:ワンクリックで本全体を要約し、本の内容を効率的に抽出し、核となるアイデアを素早く把握する。

包括的な紹介 TextDistillerは、章ごとに、または全体として本を要約し、簡潔でありながら包括的な概要を提供するように設計された高度なAI駆動型ツールです。TextDistillerを使うことで、ユーザーはどんな本でも、核心となるアイデアや重要なポイントを素早く把握することができます...
1年前
054.9K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

概要 Chunkrは、PDF、PPTX、DOCX、ExcelファイルをRAG(Retrieval Augmented Generation)やLLM(Large Language Modelling)で使用するのに適したデータに変換するためのセルフホストAPIです。このプロジェクトはLumina...によって開発されました。
1年前
054.9K
SHMT:自监督分层化妆转移模型,虚拟化妆,将妆容迁移到新的人像中

SHMT: Self-Supervised Hierarchical Makeup Transfer Model, バーチャルメイク, 新しいポートレートへのメイクの移行

包括的な紹介 SHMT(Self-supervised Hierarchical Makeup Transfer)は、潜在拡散モデルに基づく自己教師ありの階層的メイクアップ移行プロジェクトであり、教師なし学習方法によってメイクアップ効果の高品質を実現することを目的としている...
1年前
054.9K
FastAPI DocGPT:基于FastAPI的PDF文档处理和问答系统

FastAPI DocGPT: FastAPIベースのPDF文書処理とQ&Aシステム

一般的な紹介 FastAPI DocGPTは、FastAPIベースのドキュメントクイズシステムで、ユーザがPDFファイルをアップロードし、ドキュメントの内容に基づいてクイズを受けることができます。このシステムは、OpenAIのエンベッディング技術を利用して、ドキュメントのコンテンツをベクターデータベースのQ...
1年前
054.9K
SongGen:自动生成歌曲的单阶段自回归Transformer

SongGen: 曲の自動生成のための単段自己回帰変換器

包括的な紹介 SongGenは、テキストから曲への生成タスクのために設計された、オープンソースの単一ステージ自己回帰変換モデルである。このモデルは、テキスト入力からボーカルとバッキングトラックを含む楽曲を生成することができます。SongGenは、幅広い音楽属性をきめ細かく制御することができます...
1年前
054.9K
StickerBaker:用AI制作个性贴纸图片

ステッカーベイカー:AIでパーソナライズされたステッカー画像を作る

概要 stickerbakerは、人工知能技術を使って様々な面白いステッカーを作成するオープンソースのステッカーメーカーです。シンプルな猫のステッカーが欲しい人も、多様なステッカーをシリーズで作りたい人も、stickerbakerはあなたのニーズに応えます...
2年前
054.8K
magic-html:从HTML网址中提取主体数据,输出纯文本/markdown

magic-html: HTML URLから本文データを抽出し、プレーンテキスト/マークダウンを出力する。

概要 magic-htmlは、HTMLから本文領域のコンテンツを抽出するプロセスを簡素化するために設計されたPythonライブラリです。複雑なHTML構造を扱う場合でも、単純なウェブページを扱う場合でも、このライブラリはユーザーに便利で効率的なインターフェースを提供することを目的としています。マルチモーダルな抽出をサポートしています。
2年前
054.8K
Hoarder:开源 AI 书签管理工具,支持多种格式文件,智能标签分类、全文检索

Hoarder: オープンソースのAIブックマーク管理ツール、複数フォーマット対応、インテリジェントタグ分類、全文検索

概要説明 Hoarderは、リンク、メモ、PDF、画像の保存をサポートするセルフホストブックマーク管理ツールです。自動タグ付けにAI技術を使用し、全文検索機能を提供します。ユーザーはChromeプラグインとFirefoxプラグインを使用することができます...
1年前
054.7K
Quanta Quest:端侧大模型与面向个人数据的本地化AI搜索平台(预览版)

クアンタ・クエスト:エンドサイドのビッグモデルと個人データのためのローカライズされたAI検索プラットフォーム(プレビュー)

はじめに Quanta Questは、「エンド側ビッグモデル+C側データローカリゼーション」をコア進化の方向とする世界初の製品です。Gmail、Notion、Dropboxなどのデータをローカルに保存し、ベクターデータベースで処理することで、...
1年前
054.7K
LangWatch:基于DSPy 框架监控与优化LLM流程的可视化工具

LangWatch:DSPyフレームワークに基づくLLMプロセスのモニタリングと最適化のための可視化ツール

包括的な紹介 LangWatchは、大規模言語モデル(LLM)運用のために設計された包括的なプラットフォームで、監視、分析、評価、データセット管理、キューの最適化を提供します。このプラットフォームは、スタンフォード大学のDSPyフレームワークをベースにしており、ユーザがより良い管理と最適化を行えるように設計されています。
1年前
054.7K
Azure TTS Importer:将语音合成服务集成到阅读软件中

Azure TTS Importer:音声合成サービスを読み上げソフトウェアに統合する

包括的な紹介 TTS Importerは、Azure TTS(Text-to-Speech)音声合成サービスを様々な読み上げソフトに簡単にインポートできるように設計されたオープンソースプロジェクトです。このツールは、Read(legado...)を含むいくつかの一般的な読み上げソフトウェアをサポートしています。
1年前
054.7K
Groq AppGen:使用Groq API展示Llama 3.3 70B HTML代码生成能力的实验项目

Groq AppGen: Groq APIを使用したLlama 3.3 70B HTMLコード生成機能の実証実験プロジェクト

一般的な紹介 Groq AppGenは、Groq Inc.によって開発され、オープンソース化された革新的なインタラクティブ・ウェブ・アプリケーション・ジェネレーターです。このプロジェクトは、HTMLコード生成のためのLlama 3.3 70Bモデルのパワーを実証しています。Groq...
1年前
054.7K
LuminaBrush:使用智能绘画工具为图像添加照明打光效果

LuminaBrush:スマートペイントツールで画像にイルミネーションを加える

はじめに LuminaBrushは、人工知能技術を搭載した、照明効果のための革新的なインタラクティブ画像編集ツールです。このプロジェクトでは、2段階のフレームワークを使用して画像を処理します。第1段階では、入力画像を「均一な照明」ルックに変換し、第2段階では、...
1年前
054.7K
STORM:基于Topic搜索网络数据,生成带引用的论文、长文报告

STORM:トピックに基づくウェブデータの検索、引用文献を含む論文の生成、長い論文レポート

概論 STORMはスタンフォード大学のOvalチームによって開発された知識統合・記事生成システムである。ウィキペディアのような網羅的な記事(体系的な論文)をゼロから生成することに重点を置いている。このシステムは、トピックの調査、概要の作成、実際の相互接続のシミュレーションのために大規模な言語モデルを使用する。
1年前
054.6K
muAgent:由 LLM 和 EKG(行业知识)驱动的全新Agent编排框架

muAgent:LLMとEKG(業界知識)によって駆動される新しいエージェントオーケストレーションフレームワーク

概要 muAgent は、Ant Group が開発した革新的なマルチインテリジェントフレームワークです。このフレームワークは、マルチインテリゲンチャ、ファンクションコール、コードインタープリタ、およびその他のテクノロジーと連携し、キャンバスのドラッグアンドドロップと簡単なテキスト記述によって、ユーザが人間の指導の下で様々な複雑な標準操作手順(SOP)を実行するのを支援します。
1年前
054.6K
Auto-Coder.Chat:基于终端命令行的AI辅助编程助手,提供VSCode插件

Auto-Coder.Chat:VSCodeプラグインを備えたターミナル・コマンドライン・ベースのAI支援プログラミング・アシスタント

概論 Auto-Coder.Chatは、インテリジェントな手段によって開発者のプログラミング効率を向上させるために設計された、端末ベースのAI支援プログラミングツールです。このツールは、あらゆるIDEで使用することができ、開発ツールでAIアシストプログラミングを可能にします。
1年前
054.6K
PiT:用图像零件拼出完整图像的工具(未开放)

PiT:画像パーツから完全な画像をつなぎ合わせるツール(未開封)

概論 PiT(Piece it Together)はGitHubでホストされているオープンソースツールで、テルアビブ大学のエラッド・リチャードソンなどの研究者によって開発された。羽のような断片化された画像パーツを入力することができる。
1年前
054.5K
Quantum Swarm:多智能体集群协作框架

Quantum Swarm:マルチインテリジェンスクラスターコラボレーションのためのフレームワーク

QuantumSwarmは、AIの人口知能の開発と研究に焦点を当てたオープンソースの人工知能フレームワークです。このプロジェクトはQuarm AIチームによってGitHub上で管理されており、マルチインテリジェンスシステムの構築とテストのための柔軟で効率的なプラットフォームを提供することを目指している。
1年前
054.5K
FlipSketch:将静态绘图转换为文本引导的草图动画,简化动画制作过程。

FlipSketch: 静的なドローイングをテキストガイド付きのスケッチアニメーションに変換し、アニメーションプロセスを簡素化します。

一般的な紹介 FlipSketchは、静的な図面をテキストガイド付きのアニメーションに変換するために設計されたオープンソースプロジェクトです。GitHubでホストされているこのプロジェクトは、ユーザーがテキストの説明からアニメーション効果を生成できる革新的なツールを提供しています。
1年前
054.5K
中文基于满血 DeepSeek-R1 蒸馏数据集,支持中文R1蒸馏SFT数据集

中国ベースの全血DeepSeek-R1蒸留データセット、中国R1蒸留SFTデータセットをサポート

包括的な紹介 中国語DeepSeek-R1蒸留データセットは、機械学習と自然言語処理の研究をサポートするために設計された、110Kのデータを含むオープンソースの中国語データセットである。このデータセットはCong LiuのNLPチームによって公開されている。 このデータセットには数学的なデータだけでなく、一般的なタイプのデータも多数含まれている。
1年前
054.4K
Rowfill:批量提取文档结构化信息并自动化分析

ロウフィル:文書からの構造化情報の一括抽出と自動分析

概要 Rowfillは、ナレッジワーカーのために設計されたオープンソースの文書処理プラットフォームです。高度な人工知能技術を使用して、複雑な文書、画像、PDFからデータを抽出、分析、処理します。Rowfillは、Large Language Model(LLM)とOpe...
1年前
054.3K
X-Dyna:静态人像参考视频姿态生成视频,让小姐姐的照片跳舞

X-ダイナ:静止画参考動画 ミッシーの写真を踊らせるポーズ生成動画

包括的な紹介 X-Dynaは、ByteDanceによって開発されたオープンソースプロジェクトで、ゼロサンプル拡散技術を使用してダイナミックなポートレートアニメーションを生成します。このプロジェクトでは、ドライブビデオ内の表情や体の動きを使って個々のポートレート画像をアニメーション化し、リアルでコンテキストを意識したモーションエフェクトを生成します。
1年前
054.3K
LangGraph CUA:基于 LangGraph 控制电脑操作的AI智能体

LangGraph CUA:コンピュータ操作を制御するLangGraphベースのAIインテリジェンス

LangGraph CUAはLangChainチームによって開発されたオープンソースプロジェクトである。LangGraphフレームワークをベースにしており、開発者はPythonを使ってコンピュータを直接操作できるAIインテリジェンスを構築することができる。このツールのコアは...
1年前
054.3K
Devin Cursor Rules:让Cursor和Windsurf 强化为 Devin

デビン・カーソルルール:デビンのために強化されたカーソルとウィンドサーフを作る

概要 Devin Cursor Rulesは、CursorおよびWindsurf統合開発環境(IDE)を、Devinと同様の高度なAI機能を実現するための設定ファイルやツールで拡張することを目的としたオープンソースプロジェクトです。このプロジェクトでは、Devinと同様の高度なAI機能を実現するための設定ファイルやツールを提供しています。
1年前
054.2K
ColossalAI:提供高效大规模AI模型训练解决方案

ColossalAI: 効率的な大規模AIモデル学習ソリューションの提供

包括的な紹介 ColossalAIは、HPC-AI Technologies社によって開発されたオープンソースのプラットフォームで、大規模なAIモデルの学習と推論に効率的でコスト効率の高いソリューションを提供します。複数の並列戦略、ヘテロジニアスメモリ管理、混合精度学習をサポートすることで、ColossalAIは...
1年前
054.2K
Go-with-the-Flow:控制视频中物体的运动轨迹,视频中增减任何运动物体

Go-with-the-Flow:ビデオ内のオブジェクトの動きをコントロールし、ビデオ内の動くオブジェクトを加算または減算します。

一般的な紹介 Go-with-the-Flowは、Netflix Eyeline Studiosの研究チームによって開発されたオープンソースプロジェクトで、ノイズを歪ませることで映像拡散モデルのモーションパターンを制御します。このプロジェクトにより、ユーザーはシーンのカメラと...
1年前
054K
TableGPT2:表格数据集成的多模态模型

TableGPT2: 表形式データ統合のためのマルチモーダルモデル

包括的な紹介 TableGPT2は浙江大学のチームによって開発されたマルチモーダルモデルで、表形式データの統合と処理に焦点を当てている。このモデルは、強力な汎用言語とコーディング能力を維持しながら、表データ関連のタスクで優れた性能を発揮できるよう、事前に訓練され、微調整されている。
1年前
053.9K
LaWGPT:中文法律知识模型,支持法律问答和司法考试训练

LaWGPT:中国法知識モデリング、法律クイズと司法試験トレーニングをサポート

一般的な紹介 LaWGPTは、南京大学の機械学習・データマイニング研究グループによってサポートされているオープンソースプロジェクトで、中国の法律知識に基づいた大規模な言語モデルの構築に専念しています。一般的な中国語モデル(Chinese-LLaMAやChatGLMなど)をベースにしています。
1年前
053.9K
LiberSonora:有声书字幕提取与多语言翻译,有声小说转录为多语言

LiberSonora:オーディオブック字幕抽出と多言語翻訳、オーディオブックの多言語書き起こし

包括的な紹介 LiberSonoraは、「自由な音」を意味し、強力なAI対応のオープンソースオーディオブックツールセットです。インテリジェントな字幕抽出、AIタイトル生成、多言語翻訳などをサポートし、GPUアクセラレーションによるバッチオフライン処理が可能です。
1年前
053.9K
DB-GPT:构建AI原生数据应用开发框架,集成多模型管理与智能数据处理

DB-GPT: AIネイティブデータアプリケーション開発フレームワークの構築、マルチモデル管理とインテリジェントデータ処理の統合

包括的な紹介 DB-GPTは、AWEL(Agentic Workflow Expression Language)とスマートボディ技術を用いて構築されたオープンソースのAIネイティブデータアプリケーション開発フレームワークです。このプロジェクトは、大規模モデルの分野でインフラを構築することを目的としています。
1年前
053.9K
Skywork-R1V:昆仑万文开源的图文混合多模态推理模型

Skywork-R1V: グラフィカルハイブリッドマルチモーダル推論モデル オープンソース by Kunlun Wanwen

一般的な紹介 Skywork-R1Vは、SkyworkAI(Kunlun Wanwei)チームによって開発され、GitHubで公開されているオープンソースのマルチモーダル推論モデルです。画像とテキストを同時に処理することができ、多段階の論理的推論を実行し、特に複雑な画像問題の分析に優れています。この...
1年前
053.8K
RocketNotes:支持文本补全、文档对话、语义搜索的Markdown笔记应用

RocketNotes: テキスト補完、ドキュメントダイアログ、セマンティック検索をサポートしたMarkdownメモアプリ

一般的な紹介 RocketNotesは、Large Language Model (LLM)駆動のテキスト補完、チャット、セマンティック検索機能を統合したウェブベースのMarkdownノートアプリケーションです。このプロジェクトは100%サーバーレスRAG (Re...
1年前
053.8K