AIオープンソースプロジェクト

合計1020記事
Melty:体验AI驱动的代码编辑器 ,让每一次对话都成为Git提交

Melty:AIを搭載したコードエディターを体験しよう!

概論 Meltyは、チャットによる会話とGitによるバージョン管理を組み合わせた画期的なAIコードエディターである。ReplicateのCharlieとJacksonによって開発されたこのツールは、従来のAIコーディングツールのペインポイントを解決することを目指している。最大の特徴は...
1年前
074K
Fay数字人框架:集成语言模型与3D数字角色,支持多种应用场景

Fayデジタルヒューマンフレームワーク:言語モデルと3Dデジタルキャラクターを統合し、様々なアプリケーションシナリオをサポート。

包括的な紹介 Fayはオープンソースの3Dバーチャルデジタルヒューマンフレームワークであり、バーチャルショッピングガイド、バーチャルキャスター、アシスタント、ウェイター、教師、音声またはテキストベースのモバイルアシスタントなど、様々なアプリケーションシナリオのための言語モデルとデジタルキャラクタを統合しています。
1年前
074K
飞桨 PP-TableMagic:复杂表格结构化信息提取神器

フライング・パドル PP-TableMagic: 複雑なテーブルの構造化情報抽出

表認識の目的は、画像中の表を解析し、表の構造やセルの位置を正確に特定し、構造化された表形式(HTMLなど)に変換することである。今日の情報化時代において、大量の重要な表データがまだ構造化されていない状態で存在している(例えば、統計表の写真をスキャンした文書など)。
1年前
073.9K
Auto-Deep-Research:多Agent协作执行文献查询并生成研究报告

オートディープリサーチ:マルチエージェント連携による文献検索と研究報告書の作成

概説 Auto-Deep-Researchは、香港大学データインテリジェンス研究所(HKUDS)によって開発されたオープンソースのAIツールであり、ユーザーがディープリサーチタスクを自動化することを目的としている。AutoAgentフレームワークをベースに構築されており、複数の大規模言語モデルをサポートしている。
1年前
073.8K
QAnything:高度集成RAG处理流程的本地知识库问答系统

QAnything: RAG処理フローを高度に統合したローカル知識ベースQ&Aシステム

QAnything Comprehensive Introduction QAnything(Question and Answer based on Anything)は、NetEaseが発表したローカル知識ベースのQ&Aシステムで、あらゆる種類のファイル形式とデータベースをサポートし、オフラインでインストールして使用することができる。
2年前
073.7K
Morphik Core:处理多模态数据的开源 RAG 平台

Morphik Core:マルチモーダルデータ処理のためのオープンソースRAGプラットフォーム

一般的な紹介 Morphik Coreはmorphik-orgチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。以前はDataBridge Coreと呼ばれていましたが、現在はMorphik Coreに改名されています。
1年前
073.6K
AutoGen:微软开发的多智能体对话框架

オートジェン:マイクロソフトが開発したマルチインテリジェントな身体対話フレームワーク

概要 AutoGenは、マイクロソフト社の研究者チームによって開発されたオープンソースのフレームワークであり、多知能体の対話を通じて大規模言語モデル(LLM)アプリケーションの構築を簡素化することを目的としている。このフレームワークにより、開発者は互いに対話し、協力してタスクを解決するAIエージェントを作成することができる。このアプローチは、LLMのパフォーマンスを向上させるだけでなく...
1年前
073.6K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: オープンソース ゼロサンプル音声クローニング・音声合成ツール

包括的な紹介 VoiceCraftは、ニューラルコーデック言語モデルに基づいたオープンソースの音声編集およびゼロサンプル音声合成ツールです。革新的な符号化シーケンス生成方法を採用しており、既存の音声シーケンスに対して挿入、削除、置換操作を行うことで、自然で首尾一貫した編集音声を生成することができます。
2年前
073.5K
Zonos:高质量语音合成与语音克隆工具

Zonos: 高品質音声合成と音声クローニングツール

一般的な紹介 ZonosはZyphraによって開発されたオープンソースの音声合成と音声クローニングツールです。Zonos-v0.1バージョンは、高品質の音声出力を生成するために高度なトランスフォーマーとブレンドモデルを使用しています。このツールは複数の言語をサポートしています。
1年前
073.5K
Markdownify MCP Server:基于MCP协议将各种内容转换为Markdown格式

Markdownify MCP Server: MCPプロトコルに基づき、様々なコンテンツをMarkdownフォーマットに変換します。

一般的な紹介 Markdownify MCPサーバーはモデルコンテキストプロトコルに基づいたオープンソースツールで、開発者のZach CaceresによってGitHubでホストされています ...
1年前
073.5K
Fast GraphRAG:高准确率且低成本的图形化检索增强生成工具

高速GraphRAG:高精度で低コストのグラフィカル検索機能拡張生成ツール

包括的な紹介 Fast GraphRAGはCirclemind AIによって開発されたオープンソースツールで、知識グラフとPageRankアルゴリズムによって効率的で正確な検索補強生成(RAG)を可能にします。このツールはユーザーの用途にインテリジェントに適応する。
1年前
073.4K
Austen:分析书籍角色关系并生成图表的AI工具

オースティン:本の登場人物の関係を分析し、グラフを生成するAIツール

概要 AustenはオープンソースのAIツールで、AngularフレームワークとAnalogjsの初期化、Mermaidjsの技術を組み合わせ、書籍の登場人物の関係を分析するためのチャートを生成します。ユーザーはOpen...
1年前
073.4K
Data Formulator:AI驱动的数据可视化工具

Data Formulator:AIによるデータ可視化ツール

概論 Data Formulator は Microsoft Research によって開発されたオープンソースのAI駆動型データ可視化ツールである。このツールは、グラフィカル・ユーザー・インターフェース (GUI) と自然言語入力 (NL) を組み合わせたもので、ユーザーは簡単なインタラクションやコマンドによって、素早くデータを作成し、反復することができます。
1年前
073.4K
Perplexica:1比1复刻 Perplexity AI 功能和界面的开源AI搜索引擎

Perplexica: Perplexity AIの機能とインターフェイスを1対1で再現したオープンソースのAI検索エンジン

概要 Perplexicaは、インターネットを深く掘り下げた答えを提供するために設計されたオープンソースのAI駆動型検索エンジンです。類似検索や埋め込み技術などの高度な機械学習アルゴリズムを使用し、検索結果を最適化し、引用元とともに明確な回答を提供します。
2年前
073.4K
NodeRAG:基于异构图的精准信息检索与生成工具

NodeRAG:正確な情報検索と生成のための異種グラフベースのツール

包括的な紹介 NodeRAGはGitHubでホストされているオープンソースの検索拡張生成(RAG)システムであり、Terry-Xu-666によって開発された。異種グラフ構造によって情報検索と生成を最適化し、検索精度と文脈関連性を大幅に向上させます。
1年前
073.3K
实时语音转文字的开源工具

リアルタイム音声テキスト化のためのオープンソースツール

概要 realtime-transcription-fastrtcは、音声をリアルタイムでテキストに変換することに特化したオープンソースプロジェクトです。FastRTC技術を使って低遅延の音声ストリームを処理し、ローカルのWhisperモデルと組み合わせて効率的なテキスト変換を実現します。
1年前
073.2K
LlamaEdge:本地运行和微调LLM的最快捷方式

LlamaEdge:LLMをローカルで実行し、微調整する最も迅速な方法!

概要 LlamaEdgeは、ローカルデバイスやエッジデバイス上で大規模な言語モデル(LLM)を実行し、微調整するプロセスを簡素化するために設計されたオープンソースプロジェクトです。このプロジェクトはLlama2ファミリーのモデルをサポートし、OpenAI互換のAPIサービスを提供します。
1年前
073.1K
TxAgent:帮医生分析药物作用和治疗方案的AI工具

TxAgent:医師が薬効や治療法を分析するためのAIツール

包括的な紹介 TxAgentは、ハーバード大学の医学・科学人工知能チーム(MIMS)によって開発されたオープンソースのAIツールで、医師が薬物相互作用を分析し、パーソナライズされた治療計画を立てるのを支援する。TxAgentは、多段階の推論と生物医学的知識のリアルタイム検索により、患者固有の状況を組み合わせ...
1年前
073.1K
UltraRAG:一站式RAG系统解决方案,简化数据构建与模型微调

UltraRAG: データ構築とモデル微調整を簡素化するワンストップRAGシステムソリューション

総合紹介 UltraRAGは、清華大学のTHUNLPグループ、東北大学のNEUIRグループ、Modelbest.Inc、9#AISoftチームによって共同提案されたRAG(Retrieval Augmented Generation)システムソリューションである。このフレームワークは、アジャイルな展開とモジュール式の構築に基づいている。
1年前
073K
HyperChat:利用 MCP 智能执行复杂任务的AI对话客户端

HyperChat:MCPインテリジェンスを使用して複雑なタスクを実行するAI対話クライアント

概要 HyperChatは、BigSweetPotatoStudioによって開発され、GitHubでホストされているオープンソースのチャットクライアントです。OpenAI、Cla...などのいくつかの大規模な言語モデル(LLM)のAPIを統合することにより、BigSweetPotatoStudio言語モデルの包括的な概要を提供するように設計されています。
1年前
072.9K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型

Moshi: 複数言語とアクセントをサポートするリアルタイム音声対話フレームワーク。

はじめに Moshi Chatは、フランスの非営利AI研究所Kyutaiが開発したエンドツーエンドのリアルタイムAI音声アシスタントです。リアルタイムで話を聞くだけでなく、自然な会話を行い、見る、聞く、話すといったマルチモーダルなインタラクションをサポートします。
2年前
072.8K
Fast-Agent:声明式语法和MCP集成快速构建多智能体工作流

Fast-Agent: マルチインテリジェントなボディ・ワークフローを迅速に構築するための宣言的文法とMCPの統合

概要 Fast-Agentは、evalstateチームによってGitHubでメンテナンスされているオープンソースツールで、開発者がマルチインテリジェンスワークフローを素早く定義、テスト、構築できるように設計されています。シンプルな宣言的構文に基づいており、MCP(Mode...
1年前
072.8K
Flock:低代码工作流编排快速构建聊天机器人

Flock:迅速なチャットボット構築のためのローコードワークフローオーケストレーション

概要 Flockはオープンソースのワークフロー用ローコードプラットフォームで、GitHubでホストされており、Onelevenvyチームによって開発されています。LangChainとLangGraphの技術をベースにしており、ユーザーがチャットマシンを素早く構築できるようにすることに重点を置いています。
1年前
072.7K
OASIS:多智能体模拟数百万用户社交媒体互动,研究复杂社会现象

OASIS: 複雑な社会現象を研究するための、数百万人のユーザーによるソーシャルメディア・インタラクションのマルチインテリジェンス・シミュレーション

概論 OASIS(Open Agent Social Interaction Simulations)は、最大100万人のユーザーの行動をシミュレートできるオープンソースのソーシャルメディア・シミュレータである。このプラットフォームは、大規模言語モデルとルールベース...
1年前
072.7K
Fragments:类似于 Anthropic 的 Claude Artifacts、Vercel v0 或 GPT Engineer 等应用程序的开源版本

フラグメント:AnthropicのClaude Artifacts、Vercel v0、GPT Engineerのようなアプリケーションのオープンソース版。

概論 Fragments by E2Bは、Next.jsをベースとした、AIのみで生成されるアプリケーションを構築するためのテンプレートを提供するオープンソースプロジェクトです。このプロジェクトは、AIアプリケーションの開発プロセスを簡素化し、高速化するためにE2Bによって開発されました。このプロジェクトには、さまざまな現在のAIが統合されています。
2年前
072.7K
RoomGPT:上传房间照片,使用AI重新设计

RoomGPT:部屋の写真をアップロードし、AIを使ってリデザインする!

概要 RoomGPTは、GitHubユーザーのNutlopeによって開発されたオープンソースプロジェクトで、ユーザーが部屋の写真をアップロードすると、人工知能技術を使ってその部屋のリデザインバージョンを生成することができる。このプロジェクトは、高額なデザイナー費用を支払うことなく、プロ級のインテリアデザインを利用できるようにすることを目的としている。
2年前
072.6K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: Smart Spectrumのグラフィカル・インターフェース自動化のためのオープンソースのインテリジェント視覚言語モデル

包括的な紹介 CogAgentは清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースの視覚言語モデルであり、プラットフォーム間のグラフィカルユーザインタフェース(GUI)操作の自動化を目的としている。このモデルはCogVLM(GLM-4V-9B)をベースにしており、中国語と英語の二ヶ国語をサポートしている。
1年前
072.5K
Gemini Playground:无服务器部署Gemini多模态对话网站

Gemini Playground: Geminiマルチモーダル対話サイトのサーバーレス展開

一般的な紹介 Gemini Playgroundは、ユーザーが迅速にマルチモーダル対話サイトを展開するために設計されたオープンソースプロジェクトです。このプロジェクトは、技術的なクロールエビによって開発され、デプロイを完了するために10秒でGemini API Keyの使用をサポートしています。ユーザが...
1年前
072.5K
Sana:快速生成高分辨率图像,0.6B超小尺寸模型,低配笔记本GPU运行

サナ:高解像度画像の高速生成、0.6Bの超小型モデル、薄型ラップトップGPU動作

概要 Sanaは、NVIDIA Labsによって開発された効率的な高解像度画像生成フレームワークであり、最大4096×4096の解像度の画像を数秒で生成することができる。Sanaは、線形拡散変換器と深層圧縮自己エンコーダ技術を採用し、大幅に...
2年前
072.3K
Retrieval based Voice Conversion WebUI:基于检索的语音转换框架|模拟真人歌声

検索ベースの音声変換WebUI:検索ベースの音声変換フレームワーク|実際の歌声をシミュレートする

包括的な導入検索に基づく音声変換WebUIは、使いやすいVITSベースの音声変換フレームワークであり、曲のカバーやリアルタイムの音声変更を含む、あらゆるスピーカー間の音声変換を可能にします。低 ...
2年前
072.3K
DCT-Net:照片和视频转绘为动漫风格化的开源工具

DCT-Net:写真やビデオをスタイリッシュなアニメに変換するオープンソースツール

概説 DCT-Netは、DAMOアカデミーと北京大学王宣コンピューター技術研究所によって開発されたオープンソースプロジェクトで、画像のアニメスタイル変換を目的としている。このプロジェクトは、ディープラーニング技術を活用し、ドメインキャリブレーション翻訳(Domain-Calibrat...
1年前
072.2K
ColorFlow:漫画着色,黑白图像自动着色,提升图像色彩一致性和质量

ColorFlow:カートゥーンシェーディング、白黒画像の自動シェーディングによる画像の色の一貫性と品質の向上

包括的な紹介 ColorFlowは、Tencent ARCチームによって開発された画像シーケンスの自動カラーリングツールで、白黒画像シーケンスの自動カラーリングの問題を解決します。このツールは、検索で強化されたシェーディングパイプラインを使用して、キャラクターの髪の色やサービスなど、参照画像のプールを通して様々な要素の色を正確に生成します。
1年前
072.2K
修复无效JSON字符串,解决 LLMs 生成的 JSON 数据中可能出现的格式错误。

無効なJSON文字列を修正し、LLMによって生成されたJSONデータで起こりうるフォーマットエラーを解決しました。

一般的な説明 無効なJSONファイルを修正するためのモジュールで、特に大規模言語モデル(LLM)が出力する不正なJSONデータを解析するためのモジュールです。このモジュールは、引用符の欠落、不正なカンマ、エスケープされていない文字、不完全なkey-value...などの一般的なJSON構文エラーを修正します。
2年前
072.2K
X-Kit:Twitter数据抓取和分析X用户数据与推文的工具

X-Kit: XユーザーデータとツイートのためのTwitterデータクロールとアナリティクス

概要 X-Kitは、X(旧Twitter)のユーザーデータやツイートをクロールして分析するために設計されたオープンソースツールです。GitHubユーザーのxiaoxiuniqueによって開発されたこのツールは、ユーザーが任意のXユーザーに関する基本的な情報やツイートを取得するプロセスを自動化するために設計されています。
1年前
072.1K
LlamaCoder:使用提示词快速生成并发布小型web应用

LlamaCoder: プロンプトワードを使って小さなウェブアプリケーションを素早く生成・公開

一般的な紹介 LlamaCoderは、Llama 3.1とTogether AIをベースにしたオープンソースのコード生成ツールです。LlamaCoderは、Llama 3.1とTogether AIをベースにしたオープンソースのコード生成ツールです。
1年前
072.1K
Hibiki:实时语音翻译模型,保留原声特点的流式翻译

Hibiki:リアルタイム音声翻訳モデル、元の音声の特徴を保持したストリーミング翻訳

一般的な紹介 Hibikiは、Kyutai Labsによって開発された高忠実度のリアルタイム音声翻訳モデルです。従来のオフライン翻訳機とは異なり、Hibikiはユーザーが話している最中にリアルタイムでターゲット言語の自然な音声翻訳を生成し、テキスト翻訳も提供することができます。このモデルは...
1年前
072.1K
Flow(Laminar):构建智能体的轻量级任务引擎,简化并灵活管理任务

Flow(Laminar):タスクを簡素化し、柔軟に管理するインテリジェンス構築のための軽量タスクエンジン

包括的な紹介 Flowは、シンプルさと柔軟性に重点を置いてAIエージェントを構築するために設計された軽量タスクエンジンです。従来のノードベースやエッジベースのワークフローとは異なり、Flowは並列実行、動的スケジューリング、インテリジェントな依存関係管理をサポートする動的タスクキューシステムを使用する。その中核となるコンセプトは...
2年前
072.1K
AutoAgent:通过自然语言快速创建并部署AI智能体的框架

AutoAgent:自然言語によるAIインテリジェンスの迅速な作成と展開のためのフレームワーク

概要 AutoAgentは、香港大学データインテリジェンス研究所(HKUDS)によって開発され、GitHubでホストされているオープンソースのAIインテリジェンス・フレームワークである。ユーザーは、プログラミング・ベースなしで、純粋に自然言語で要件を記述することにより、カスタマイズされたAIインテリジェンスを迅速に作成し、展開することができる。
12ヶ月前
072.1K
LogoCreator:开源Logo生成器,使用AI智能生成专业品牌Logo

LogoCreator:オープンソースのロゴジェネレーター、AIインテリジェンスを使用してプロフェッショナルなブランドロゴを生成します。

一般的な紹介 LogoCreatorは、Together AIとFluxモデルに基づいたオープンソースのロゴ・ジェネレーターで、企業や個人に迅速でプロフェッショナルなロゴ・デザイン・サービスを提供することに焦点を当てています。このプロジェクトは、開発者Nutlopeによって開発され、Gitでオープンソース化されています...
1年前
071.9K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT:ジェミニ・モデルを使用して、ワンクリックで短いナレーション付きビデオや長いビデオの要約ビデオを作成する。

包括的な紹介 AI2SRTは、GeminiAIのビッグモデルを使用して、ワンクリックで短いナレーション付きビデオと長いビデオのビデオ要約を生成し、音声とビデオの書き起こし字幕をサポートするオープンソースプロジェクトです。このプロジェクトは、ビデオコンテンツの作成プロセスを簡素化し、効率的な字幕生成と翻訳機能を提供することを目的としています。ユーザーは、字幕を作成した後、その字幕を字幕翻訳ソフトに渡すことができます。
1年前
071.9K
Free-Search:免费获取实时谷歌搜索结果的API工具

Free-Search: リアルタイムのグーグル検索結果に無料でアクセスできるAPIツール

概要 Free-SearchはHanzla Javaidによって開発され、GitHubでホストされているオープンソースのAPIツールである。主な機能は、カスタム検索エンジンを通してリアルタイムのGoogle検索結果を提供し、ウェブコンテンツをクロールして結果を返すことである。
1年前
071.9K
LazyLLM:商汤开源构建多智能体应用的低代码开发工具

LazyLLM:マルチインテリジェント・ボディ・アプリケーション構築のためのShangtangオープンソース・ローコード開発ツール

包括的な紹介 LazyLLMはLazyAGIチームによって開発されたオープンソースツールで、マルチインテリジェンス大規模モデルアプリケーションの開発プロセスを簡素化することに重点を置いています。ワンクリックのデプロイと軽量なゲートウェイ機構により、開発者が複雑なAIアプリケーションを素早く構築できるよう支援し、面倒なエンジニアリングの設定を省きます。
1年前
071.9K
Bilingual Book Maker:使用AI翻译制作双语电子书,全书自动化翻译工具

バイリンガルブックメーカー: AI翻訳を使用して、バイリンガルの電子書籍を作成します。

一般的な紹介 バイリンガルブックメーカーは、ユーザーがAI技術を使って多言語版の電子書籍を作成できるように設計されたオープンソースプロジェクトです。このツールは主に翻訳にChatGPTを使用し、epub、txt、srtを含む複数のファイル形式をサポートしています。
1年前
071.9K
E2B Open Computer Use:E2B沙盒中安全的运行AI操作系统

E2Bオープンコンピュータの使用:E2BサンドボックスでAIオペレーティングシステムを安全に実行する

概要 E2B Open Computer Useは、E2B Desktop Sandboxを通じて、安全なクラウドベースのLinuxコンピュータ利用体験を提供することを目的としたオープンソースプロジェクトです。E2B Sandboxは、ユーザが任意の大規模コンピュータに接続できるデスクトップグラフィカル環境を提供します。
1年前
071.8K
Copilot后端代理服务:用其他模型接管GitHub Copilot插件服务端

Copilotバックエンドプロキシサービス:他のモデルでGitHub Copilotプラグインサーバーを引き継ぐ

概要 Copilot Backend Agent Service は、DeepSeek などの他の FIM モデルを活用して GitHub Copilot プラグイン・サーバーを管理するために設計されたオープンソース・プロジェクトです。このサービスは、V...を含む様々なIDEをサポートしています。
1年前
071.8K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX:マルチモーダル・マクロモデルを用いた胸部X線写真解析のためのインテリジェントボディ

包括的な紹介 MedRAXは、胸部X線(CXR)解析用に設計された最先端のAIインテリジェンスです。最先端のCXR解析ツールとマルチモーダル大規模言語モデルを統合し、追加トレーニングなしで複雑な医療クエリを動的に処理します。
1年前
071.8K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest:世界をリードする軽量・高性能エンドサイド・ビッグモデル

概要 ModelBestは、軽量かつ高性能な大型モデルの開発に注力する企業であり、先進的なAI技術をメインストリーム家電や日常生活のあらゆるエンドデバイスに応用することに専念している。同社のMiniCPMシリーズは、非常に高い演算能力とメモリ使用効率を備えたエンドサイドモデルです。
2年前
071.7K
VideoRAG:理解超长视频的RAG框架,支持多模态检索和知识图谱构建

VideoRAG:マルチモーダル検索と知識グラフ構築をサポートする超長尺動画理解のためのRAGフレームワーク

包括的な紹介 VideoRAGは、非常に長い文脈動画を処理し理解するために設計された、検索機能を強化した生成フレームワークです。このツールは、グラフ駆動のテキスト知識ベースと階層的なマルチモーダルコンテキストエンコーディングを組み合わせ、1つのNVIDIA RTX 3090 GPUで効率的に処理します...
1年前
071.6K
自动爬取小说并生成多角色有声书的工具

小説を自動的にクロールし、多文字のオーディオブックを生成するツール

概論 Auto-Audio-BookはGitHubでホストされているオープンソースプロジェクトです。ウェブサイトから小説の内容を自動的にクロールし、複数のキャラクターの声を持つオーディオブックに変換します。開発者 zqq-nuli Python 3.1...
1年前
071.5K
Parler-TTS:根据输入文本生成特定说话人风格的文本转语音模型

Parler-TTS: 入力テキストから話者固有の音声合成モデルを生成する

一般的な紹介 Parler-TTSは、Hugging Face社によって開発されたオープンソースの音声合成(TTS)モデルライブラリで、高品質で自然な音声を生成するように設計されています。このモデルは、特定の話者スタイル(性別、ピッチ、話し方など)の入力テキストに基づいて音声を生成することができます。
1年前
071.3K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor:見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント

概論 Gemini Cursorは、GoogleのGemini 2.0 Flash(実験的)モデルをベースとしたデスクトップ知的アシスタントである。Gemini Cursorは、マルチモーダルAPIを通じて、視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延な利用を提供します。
1年前
071.2K
Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

Ultravox: リアルタイムのエンドツーエンド音声対話のための音声マルチモーダル・マクロモデル、GPT-4o音声対話のオープンソース実装

包括的な紹介 Ultravoxは、リアルタイム音声処理のために設計された革新的なマルチモーダル大規模言語モデル(LLM)です。従来の音声認識システムとは異なり、Ultravoxは音声認識(ASR)ステージを別途用意する必要がなく、音声を直接高次元空間に...
1年前
071.1K
Diffusers Image Outpaint:超强开源AI图像扩展工具,图像外绘(image outpainting)

ディフューザー画像アウトペイント:超強力なオープンソースAI画像拡張ツール、画像アウトペイント(outpainting)

一般的な紹介 Diffusers Image Outpaintは、Hugging Faceコミュニティメンバーのfffiloniによって作成された強力なAI画像拡張ツールです。このツールは、高度な拡散モデリング技術を利用して、画像を...
2年前
071.1K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab:専用のOCR認識AIモデル、PDF to Markdown(オープンソース/API)

包括的な紹介 Datalabは、OCR、レイアウト分析、PDFからMarkdownへの変換などに焦点を当てた高度なAIモデルを幅広く提供しています。これらのモデルは高性能であるだけでなく、使いやすくオープンソースです。プラットフォーム上のマーカーモデルは、迅速かつ正確に...
2年前
071.1K
Quadratic:集成AI对话和代码执行的在线数据分析表格

Quadratic: AI対話とコード実行を統合したオンラインデータ分析フォーム

概要 Quadraticは、AI、コード、データ接続機能を組み合わせたオープンソースのスマート・スプレッドシート・ツールで、強力なデータ処理と分析機能をユーザーに提供するように設計されています。Python、SQL、Rustなどのプログラミング言語をサポートすることで、Quadratic...
1年前
071K
Fullmoon:本地大语言模型聊天的iOS应用

Fullmoon:ネイティブの多言語モデルチャット用iOSアプリ

一般的な説明 FullmoonはiOSデバイス用に設計されたアプリで、ネイティブの大規模な言語モデルとのプライベートチャット機能を提供することを目的としています。このアプリはApple Siliconに最適化されており、iPhone、iPad、Macに対応しています。チャットのユーザー...
1年前
070.9K
DH live:在30/40系显卡流畅实时交互的AI数字人

DHライブ: 30/40シリーズグラフィックスカードでスムーズなリアルタイムインタラクションを実現するAIデジタルピープル

一般的な紹介 DH_liveは、サンプルレスラーニングに基づいたリアルタイムのライブデジタルヒューマンプロジェクトで、スムーズでインタラクティブなライブストリーミング体験をユーザーに提供することを目的としています。このプロジェクトは、NVIDIA 30および40シリーズのグラフィックカードをサポートし、25fps以上でリアルタイムに実行することができます。ユーザーは...
2年前
070.9K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

MMAudio:ビデオ映像に同期した効果音やサウンドトラックを生成する、ビデオと音声のマルチモーダル共同トレーニングツール

一般的な紹介 MMAudioは、マルチモーダルな共同トレーニングによって高品質な同期音声を生成することを目的としたオープンソースプロジェクトである。香港中文大学のHo Kei Chengらによって開発されたこのプロジェクトの主な機能は、ビデオやテキスト入力に基づいて同期された音声を生成することである。
1年前
070.9K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit:画像修復・編集のオールインワンツール、テンセントアークがリリース

総合紹介 BrushEditは、Tencent ARC Labsが開発したオールインワンの画像修復・編集ツールです。このツールは最新のAI技術に基づいており、画像の欠陥を自動的に識別して修復することができ、ユーザーによるインタラクティブな編集もサポートしています。
1年前
070.7K
DeepRant:实时翻译游戏聊天内容的开源客户端

DeepRant: ゲームチャットコンテンツのリアルタイム翻訳用オープンソースクライアント

概要 DeepRantは、国際サーバーにおける言語の障壁の問題を解決するために設計された、ゲーマー向けのオープンソース翻訳ツールです。ショートカットキーを使ってゲーム内のテキストを瞬時に翻訳することができ、複数の言語による相互翻訳をサポートし、プレイヤーがゲームを終了することなくチャットメッセージを素早く理解し、返信することを可能にします。
1年前
070.6K
Amurex:开源AI会议记录助手,自动记录会议内容生成总结

Amurex:オープンソースのAI会議記録アシスタント、会議内容を自動記録して要約を生成

概要 Amurexは、The Personal AI Companyによって開発されたオープンソースのAIミーティングアシスタントで、インテリジェントな機能によってミーティングの効率を向上させるように設計されています。Amurexは、リアルタイムのアドバイスを提供し、インテリジェントなサマリーを生成し、ミーティング内容を記録し、自動的にフォローを送信することができます。
1年前
070.6K
Eko:自然语言构建智能体工作流,实现桌面与浏览器自动化

Eko: デスクトップとブラウザの自動化のための自然言語によるインテリジェント・ボディ・ワークフローの構築

概論 Eko は、自然言語記述によって効率的なインテリジェントエージェントワークフローを構築するために設計された、プロダクショングレードの JavaScript フレームワークです。開発者が深いプログラミングをすることなく、AI 技術を使って日常的なタスクを自動化できるよう設計されています。
1年前
070.6K
Proxy Lite:3B参数视觉模型驱动的网页自动化工具

Proxy Lite:3Bパラメトリック・ビジュアルモデル駆動型ウェブ自動化ツール

包括的な紹介 Proxy Liteは、Convergence AIによって開発されたオープンソースの軽量なWeb自動化ツールで、Proxyのミニバージョンとしてオープンウェイト設計になっています。3BパラメータのVisual Language Model (VLM)をベースにしており、自己...
1年前
070.6K
Weebo:实时语音聊天机器人,提供自然语言对话体验

Weebo: 自然言語での対話体験を提供するリアルタイム音声チャットボット

はじめに Weeboは、音声認識にWhisper Small、自然言語生成にLlama 3.2、音声合成にKokoro-82Mを利用したオープンソースのリアルタイム音声チャットボットです。このプロジェクトはAman...によって開発されました。
1年前
070.5K
CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2: 映像理解と複数回の対話を支援するオープンソースのマルチモーダルモデル

包括的な紹介 CogVLM2は清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースのマルチモーダルモデルで、Llama3-8Bアーキテクチャをベースとしており、GPT-4Vに匹敵するか、それ以上の性能を提供することを目指している。このモデルは画像理解、多ラウンド対話、視覚...
1年前
070.5K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: ビデオから任意の移動物体を自動的にセグメント化するオープンソースツール

概要 SegAnyMoは、カリフォルニア大学バークレー校と北京大学の研究者チームによって開発されたオープンソースプロジェクトで、Nan Huangなどのメンバーが参加している。このツールはビデオ処理に重点を置いており、ビデオ内の任意の動く物体、例えば人、動物、...を自動的に識別し、セグメント化することができる。
1年前
070.5K
Awesome LLM Apps:收集和探索优秀开源的LLM应用程序,一行命令快速部署

素晴らしいLLMアプリ:優れたオープンソースのLLMアプリを収集・探索し、コマンド1つで素早くデプロイできます!

概要 Awesome LLM Appsは、Shubham Sabooによって作成されたGitHubリポジトリで、素晴らしいLLM(大規模言語モデリング)アプリを幅広く集め、紹介することに特化しています。このリポジトリには、OpenAI、An...
2年前
070.5K
xyks:小猿口算逆向笔记,逆向工程与解密算法

xyks:小型猿口計算リバースノート、リバースエンジニアリング、復号アルゴリズム

包括的な紹介 猿の口計算機リバースノートは、猿の口計算機アプリケーションのリバースエンジニアリングのプロセスと方法を文書化し、共有することを目的としたオープンソースプロジェクトです。このプロジェクトには、Fridaやdexdumpなどの命令を使用するための様々なリバースツールやテクニックが含まれています。
2年前
070.3K
mcp-ui:基于MCP协议的简洁AI聊天界面

mcp-ui: MCPプロトコルに基づいたクリーンなAIチャットインターフェース

包括的な紹介 mcp-uiは、開発者machaojin1917939763によって作成されたオープンソースプロジェクトであり、構築するためのモデルコンテキストプロトコル(MCP)プロトコルに基づき、Webおよびデスクトップ環境のためのサポートです スマート ...
1年前
070.2K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格

YuE:歌詞を完全な曲のベースモデルに変換し、幅広い音楽スタイルをサポートします。

概要 YuEは、歌詞をフルソングに変換することに重点を置いた、オープンソースのフルソング生成ベースモデルです。ボーカル以外の短いスニペットしか生成しない他のモデルとは異なり、YuEはリードボーカルとバッキングボーカルを含む、長さ数分のフルソングを生成することができます。YuEは、歌詞から曲への変換に特化したモデルである。
1年前
070.2K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: 視覚言語モデルの汎化能力のための低コスト強化学習

包括的な紹介 R1-Vは、低コストの強化学習(RL)を通して視覚言語モデリング(VLM)のブレークスルーを達成することを目的としたオープンソースプロジェクトです。このプロジェクトは、VLMが一般的な計数能力を学習する動機付けとなる、検証可能な報酬メカニズムを利用している。驚くべきことに、R1-Vの2B ...
1年前
070.2K
Ruyi-Models:生成图像到视频开源模型,支持镜头控制与运动幅度控制

Ruyi-Models: レンズ制御とモーション振幅制御をサポートする、画像からビデオへのオープンソースモデルを生成します。

概要 Ruyi-Modelsは、画像から高品質の動画を生成するために設計されたオープンソースプロジェクトです。IamCreateAIチームによって開発されたこのプロジェクトは、768の解像度、毎秒24フレーム、5秒で120フレームの映画のようなビデオの生成をサポートしています。
1年前
070.2K
AgentGPT:创建并运行自动化AI智能体的开源项目

AgentGPT:自動化されたAIインテリジェンスを作成・実行するオープンソースプロジェクト

一般的な紹介 AgentGPTは、Reworkdチームによって開発され、GitHubでホストされているオープンソースプロジェクトで、ユーザーがブラウザを通して自律的にAIインテリジェンスを作成、設定、デプロイできるように設計されています。ユーザーは目標を設定するだけで、AgentGPTは...
1年前
070K
OWL:多智能体协作完成现实任务的自动化工具

OWL:現実的なタスクにおけるマルチインテリジェンス・コラボレーションのための自動化ツール

概論 OWL(Optimized Workforce Learning)は、CAMEL-AIチームによって開発されたオープンソースのフレームワークで、実世界のタスクを自動化するためのマルチインテリジェンス・コラボレーションの最適化に焦点を当てている。CAMEL-AIフレームワークに基づいて...
1年前
070K
Easegen:开源数字人课程制作平台,PPT一键生成克隆数字人讲解视频

Easegen:オープンソースデジタルヒューマンコース制作プラットフォーム、PPTワンクリック生成クローンデジタルヒューマン講義ビデオ

総合紹介 Easegenはオープンソースのデジタルヒューマン講座作成プラットフォームであり、AI技術によって教育コンテンツの制作と管理の効率化を目指している。このプラットフォームは、コース制作、ビデオ管理からインテリジェントな質問までワンストップソリューションを提供し、ユーザーはデジタル人間説明ビデオコースを作成することができます...
2年前
070K
Ant Design X:快速构建AI聊天界面的工具包,支持模型集成和数据流管理。

Ant Design X: モデル統合とデータフロー管理をサポートし、AIチャットインターフェースを迅速に構築するためのツールキット。

包括的な紹介 Ant Design Xは、Ant Groupによってオープンソース化されたツールキットで、開発者がAI主導の対話インターフェースを素早く構築できるように設計されています。豊富なコンポーネントとテンプレートのセットを提供し、OpenAI標準と互換性のあるモデル統合をサポートし、インテリジェントなカスタマーサービス、AIアシスタント、その他のような様々なアプリケーションに適しています。
2年前
070K
OpenManus-RL:微调大模型强化智能体推理与决策能力

OpenManus-RL: 大規模モデルの微調整による知的身体推論と意思決定の強化

概論 OpenManus-RLは、UIUC-UlabがMetaGPTコミュニティのOpenManusチームと共同で開発したオープンソースプロジェクトであり、GitHubでホストされている。このプロジェクトは、強化学習(RL)技術によって大規模言語モデリング(LLM)を強化する...
1年前
069.9K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate:よく知られた音声生成、音声トランスクリプション、音声モデリングを統合する統一API

概要 Orateは、音声生成と文字起こしに特化したAIツールキットです。Orateは、OpenAI、ElevenLabs、AssemblyAIなどの主要なAIプロバイダーとシームレスに統合する統一APIを提供し、ユーザーが強制的に音声を作成できるようにします。
1年前
069.9K
VBDeepSeek:使用DeepSeek生成四级单词学习资料的开源工具

VBDeepSeek:DeepSeekを使用して4年生の単語学習教材を作成するためのオープンソースツール

総合紹介 "Vocabulary Book by DeepSeek "はDeepSeekのビッグモデルに基づいて開発されたオープンソースプロジェクトで、英語学習者が大学英語レベル4(CET-4)の語彙を効率的に習得することを目的としています。プロジェクトはGitHubでホストされています...
1年前
069.9K
TripoSG:单张图像生成高分辨率3D建模数字资产

TripoSG: 1枚の画像から高解像度の3Dモデリングデジタル資産を生成

概論 TripoSGはVAST AI研究チームによって開発されたオープンソースプロジェクトで、1枚の画像から高品質の3Dモデルを生成する。このプロジェクトでは、大規模な整流器フローコンバーター技術を用い、ハイブリッド教師あり学習と高品質なデータセットを組み合わせることで、生成された3Dモデルに...
1年前
069.8K
Infinity:生成高分辨率图像的比特自回归建模,实现无限制高分辨率图像生成

無限大:無制限の高解像度画像生成のためのビット単位の自己回帰モデリング

概要 Infinityは、FoundationVisionチームによって開発された画期的な高解像度画像生成フレームワークです。このプロジェクトは、革新的なビットレベルの視覚的自己回帰モデリング・アプローチによって、従来の画像生成モデルの限界を打ち破ります。
1年前
069.8K
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块

MiniRAG:簡易検索拡張生成フレームワーク、エンティティグラフインデックスリコール関連テキストブロック

包括的な紹介 MiniRAGは、極めてシンプルなRAG(Retrieval Augmented Generation)フレームワークであり、ヘテロジニアスグラフインデキシングと軽量なトポロジー拡張検索によって、小さなモデルでも優れたRAG性能を実現することを目的としている。香港大学データサイエンス研究室(HKUDS)によって開発され、...
1年前
069.7K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

MarkItDown:Microsoftドキュメントインテリジェント変換ツール、様々なファイルをMarkdown形式に変換

一般的な紹介 MarkItDownはMicrosoftによって開発されたPythonツールで、様々なファイルやオフィス文書をMarkdown形式に変換するように設計されています。このツールは、PDF、PowerPoint、Word、Excel、ダイアグラム...など、幅広い種類のファイルをサポートしています。
1年前
069.6K
RapBank:根据歌词和伴奏直接生成说唱(Rap)人声的模型(目前开放了数据集)

RapBank: 歌詞とバッキングトラックからラップ(Rap)ボーカルを直接生成するモデル(現在オープンデータセット)

概要 RapBankは、ラップ歌詞生成のために設計されたデータセットとツールセットです。このプロジェクトはNZqianによって作成され、YouTubeからラップ曲を収集・処理することで、研究者や開発者に高品質のラップ歌詞データを提供する。
1年前
069.6K