AIオープンソースプロジェクト

合計1020記事
Sherpa-ONNX:使用ONNXRuntime实现离线语音识别和合成

Sherpa-ONNX: ONNXRuntimeによるオフライン音声認識と合成

概要 sherpa-onnxは、Next-gen Kaldiチームによって開発されたオープンソースプロジェクトで、効率的なオフライン音声認識および音声合成ソリューションを提供します。Android、iOS、Raspber...など複数のプラットフォームをサポートしています。
10ヶ月前
0128.6K
Dify 工作流 DSL 文件合集下载

Dify Workflow DSL File Collection ダウンロード

概要 Awesome-Dify-Workflowは、便利なDifyワークフローテンプレートの共有に焦点を当てたオープンソースのGitHubプロジェクトです。Difyは大規模な言語モデリングアプリケーションの開発をサポートするワークフロープラットフォームであり、このプロジェクトはユーザーに...
8ヶ月前
0123.3K
Riona-AI-Agent:社交媒体自动化互动智能体,自动搜索、点赞、留言

Riona-AI-Agent: 自動的に検索、いいね!、メッセージを残すソーシャルメディア自動対話型インテリジェンス

概要 Riona-AI-Agentは、主要なソーシャルメディア・プラットフォームの運用を管理・最適化するために特別に設計された、AIを搭載した革新的な自動化ツールです。このプロジェクトは、Instagram、Twitter、GitHub などのプラットフォーム用の高度な AI モデルを利用して、...
10ヶ月前
0115.2K
小智 AI 聊天机器人:打造你的AI聊天伴侣,轻松实现语音对话和智能互动

Xiaozhi AIチャットボット:AIチャットコンパニオンを構築、簡単な音声対話とインテリジェントな対話

包括的な紹介 Xiaozhi AI Chatbotは、ESP32開発ボードをベースにしたオープンソースプロジェクトで、ユーザーが独自のAIチャットコンパニオンを構築できるように設計されています。このプロジェクトはShrimpによって開発され、より多くの人がAIハードウェア開発を始め、大規模な言語モデルを実...
8ヶ月前
0108.9K
Serena:语义检索和编辑代码的免费MCP工具

Serena: 意味検索とコード編集のためのフリーMCPツール

概要 Serenaは、Oraios AIチームによって開発され、GitHubでホストされているフリーでオープンソースのプログラミングツールです。コードベースで直接動作する強力なコードアシスタントで、開発者のコードの分析、編集、実行を支援します。
8ヶ月前
0107.1K
CosyVoice:阿里推出的3秒急速语音克隆开源项目,支持情感控制标签

CosyVoice:3秒間の突進ボイス・クローニング・オープンソース・プロジェクトがアリによって立ち上げられる。

包括的な紹介 CosyVoiceは、推論、トレーニングからデプロイまでフルスタックの機能を提供する多言語大規模音声生成モデルです。FunAudioLLMチームによって開発され、高度な自己回帰変換器とODEベースの拡散モデルにより、高品質な音声の実現を目指しています。
10ヶ月前
090.8K
OpenVoice(MyShell):多语言少样本即时语音克隆

OpenVoice (MyShell):少ないサンプルで多言語の音声クローニングが可能

概論 OpenVoiceは、リファレンススピーカーの音声をコピーし、スピーカーの短いオーディオクリップのみを使用して多言語音声を生成することができる、インスタントスピーチクローニングの多用途な方法です。OpenVoiceでは、音色のコピーだけでなく、感情的な表現など、声のスタイルを細かくコントロールすることができます。
1年前
090K
xiaozhi-esp32-server:小智AI聊天机器人开源后端服务

xiaozhi-esp32-server: Xiaozhi AIチャットボットオープンソースバックエンドサービス

一般的な紹介 xiaozhi-esp32-serverはXiaozhi AIチャットボット(xiaozhi-esp32)のバックエンドサービスを提供するツールです。Pythonで書かれており、WebSocketプロトコルをベースにしています。
8ヶ月前
089.7K
Cherry Studio:集成API/Web/本地模型的AI助手桌面客户端

Cherry Studio:API/Web/ローカルモデルを統合したAIアシスタント用デスクトップクライアント

概要 Cherry StudioはLarge Language Model (LLM)サービスを幅広くサポートするデスクトップクライアントで、Windows、Mac、Linuxシステムに対応しています。豊富なパーソナライズオプションと最先端の機能を提供し、さまざまな場面でユーザーを支援するように設計されています...
10ヶ月前
087.8K
VisoMaster:强大且易用的图片/视频换脸和编辑软件

VisoMaster: パワフルで使いやすい写真/ビデオ整形・編集ソフトウェア

はじめに VisoMasterは、人工知能技術を使用して自然でリアルなフェイススワップ効果を実現する、パワフルで使いやすいビデオフェイススワップ編集ツールです。画像でもビデオでも、VisoMasterは簡単な操作で高品質のフェイススワップ結果を生成することができ、一般的なビデオ編集に適しています。
9ヶ月前
085.5K
FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

FunASR: オープンソース音声認識ツールキット、話者分離/多人数対話音声認識

総合紹介 FunASRはAlibaba Dharmo Academyが学術研究と産業応用の橋渡しをするために開発したオープンソースの音声認識ツールキットです。音声認識(ASR)、音声終点検出(VAD)、句読点復元、言語モデリング、スピーキング...など、幅広い音声認識機能をサポートしています。
1年前
082.4K
Archon:自主构建与优化AI智能体的开发框架

Archon:AIインテリジェンスを自律的に構築・最適化する開発フレームワーク

Archonは、開発者のCole Medin(GitHubユーザー名 coleam00)によって構築された世界初の「Agenteer」プロジェクトであり、AIの自律的な構築、最適化、反復に焦点を当てたオープンソースのフレームワークである。インテリジェンス。これは...
9ヶ月前
080.9K
LatentSync:用音频直接生成唇形同步视频的开源工具

LatentSync: 音声から直接リップシンクされたビデオを生成するオープンソースツール

概要 LatentSyncはByteDanceによって開発され、GitHubでホストされているオープンソースツールです。動画内のキャラクターの唇の動きを音声を通して直接駆動し、口の形が音声と正確に一致するようにします。このプロジェクトは、Stable Di...
6ヶ月前
078.8K
OpenUtau:免费的开源歌声合成编辑工具

OpenUtau: フリーのオープンソース楽曲合成編集ツール

概要 OpenUtauは、UTAUコミュニティにモダンな編集体験を提供するために設計された、フリーのオープンソース楽曲合成・編集プラットフォームです。UTAUソフトウェアの後継であり、オリジナルソフトウェアの互換性と複雑さの問題を解決しています。OpenUtauはWind...をサポートしています。
7ヶ月前
078.5K
Kilo Code:具有简洁使用体验的Roo Code分支

キロ・コード:クリーンなユーザー・エクスペリエンスを備えたルー・コードのブランチ

一般的な紹介 キロコードは、Visual Studio Code(略してVS Code)のオープンソース拡張プラグインです。人工知能技術を使って、ユーザーがより効率的にコードを書けるようにする。このプロジェクトはKilo-Orgチームによって開発された。
8ヶ月前
077.7K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: PDFドキュメントの抽出とマルチモーダルMarkdownフォーマットへの変換、電子書籍OCRスキャンのサポート

包括的な紹介 MinerUは、上海人工知能研究所のOpenDataLabチームによって開発されたオープンソースのデータ抽出ツールで、複雑なPDF文書、ウェブページ、電子ブックからコンテンツを効率的に抽出することに重点を置いている。画像、数式、表、その他の要素を含むマルチモーダルPDFを取り込むことができる。
1年前
076.1K
Paperless-AI:使用AI自动分析和标记文档,适用 paperless-ngx 文档管理系统

Paperless-AI: Paperless-NGX文書管理システムのためのAIを使った文書の自動分析とタグ付け

概要 Paperless-AIは、Paperless-ngx文書管理システム専用に設計された革新的な文書自動化分析ツールです。このツールは、OpenAI APIとOllama...のような様々な高度なAIモデルを巧みに組み合わせています。
11ヶ月前
075.6K
Open-LLM-VTuber:实时语音互动的Live2D动画AI虚拟伴侣

Open-LLM-VTuber:リアルタイム音声対話のためのLive2DアニメーションAIバーチャルコンパニオン

概論 Open-LLM-VTuberは、音声とテキストを通してユーザーが大規模言語モデル(LLM)と対話することを可能にするオープンソースプロジェクトであり、ダイナミックなバーチャルキャラクターを提示するためにLive2D技術を組み込んでいます。Windows、macOS、Linuxをサポートし、完全に...
9ヶ月前
075.3K
Kokoro TTS API:快速文本转语音的Docker化FastAPI封装(Kokoro-82M模型)

ココロTTS API: 高速音声合成のためのDocker化FastAPIラッパー (ココロ-82Mモデル)

概要 Kokoro-FastAPIは、Kokoro-82M音声合成モデルをサポートするために設計されたDockerベースのFastAPIラッパーです。このプロジェクトはNVIDIA GPUアクセラレーションをサポートし、キュー処理と自動スプライシングを提供します。
11ヶ月前
075.1K
EXO:利用闲置家用设备运行分布式AI集群,支持多种推理引擎和自动设备发现。

EXO:アイドル状態の家庭用デバイスを使用して分散AIクラスタを実行し、複数の推論エンジンとデバイスの自動検出をサポートする。

一般的な紹介 Exoは、日常的なデバイス(iPhone、iPad、Android、Mac、Linuxなど)を使用して独自のAIクラスタを実行するように設計されたオープンソースプロジェクトです。動的なモデル分割と自動化されたデバイス検出により、Exoは複数のデバイスを1つの強力な...
1年前
072.4K
Seed-VC:支持少样本实时转换语音和歌声

Seed-VC:少ないサンプル数で音声と歌のリアルタイム変換に対応

概要 Seed-VCはPlachtaaによって開発されたGitHub上のオープンソースプロジェクトです。Seed-VCは、1秒から30秒のリファレンスオーディオを使用することができます。このプロジェクトは、リアルタイムの音声変換、ディレイ変換、音声合成をサポートしています。
8ヶ月前
072.3K
LLPlayer:生成实时字幕并双语翻译的视频播放器

LLPlayer: 対訳付きリアルタイム字幕を生成するビデオプレーヤー

概要 LLPlayerはGitHubでホストされている、開発者umlx5hによって作成された言語学習者のためのオープンソースメディアプレーヤーです。バイリンガル字幕表示、AI自動生成字幕、リアルタイム翻訳、単語検索など様々な便利な機能が統合されています。
6ヶ月前
071.9K
Meetily:生成会议纪要的AI助手,实时转录和生成会议摘要

Meetily:会議議事録の作成、書き起こし、会議サマリーの作成をリアルタイムで行うAIアシスタント

一般的な説明 MeetilyはZackriya Solutionsによって開発されたAIを搭載した会議アシスタントで、会議の音声をリアルタイムでキャプチャし、音声書き起こしを行い、会議のサマリーを生成します。すべての処理がデバイス上でローカルに行われる点が特徴で、ユーザーのプライバシーを保証します。
10ヶ月前
070.1K
Open Sora:优化脸部一致性的开源视频生成工具

Open Sora:顔の一貫性を最適化するオープンソースのビデオ生成ツール

概論 Open-Soraは、誰でも効率的に高品質のビデオを生成できるように設計されたオープンソースプロジェクトです。hpcaitechチームによって開発され、テキストや画像からビデオを生成するツールを提供しています。このプロジェクトは完全にオープンソースであり、公開されているモデルの重さ...
8ヶ月前
069.1K
GitDiagram:可视化GitHub代码库结构,将代码仓库转换为交互式系统架构图

GitDiagram: GitHubコードベースの構造を視覚化し、コードリポジトリをインタラクティブなシステムアーキテクチャ図に変換します。

概要 GitDiagramは、GitHubのコードベースを可視化する革新的なツールで、GitHubのリポジトリをインタラクティブなシステムアーキテクチャ図に素早く変換します。先進的なAI技術(Claude 3.5 Sonnet)を使用し、開発者に...
11ヶ月前
068.2K
Roo Code(Roo Cline):基于Cline的增强版自主编程助手,智能化IDE编程助手

Roo Code (Roo Cline): Clineをベースに強化された自律型プログラミングアシスタント、インテリジェントIDEプログラミングアシスタント

概要 Roo Code(旧Roo Cline)Roo Code(Roo Cline)は、VS Codeの強力な拡張プラグインであるClineをベースに強化された自律型プログラミングアシスタントです。このツールは、あなたのセットで使用することができます...
10ヶ月前
066.3K
Chatlog:提取和查询微信聊天记录的开源工具

Chatlog: WeChatのチャットログを抽出・照会するオープンソースツール

一般的な紹介 チャットログはWeChatのローカルデータベースからチャットログを抽出し、照会することに特化したオープンソースツールです。WeChatバージョン3.xと4.0をサポートし、WindowsとmacOSの両システムをカバーしています。ユーザーは、コマンドライン、ターミナルインターフェース、またはH...
8ヶ月前
065.7K
Wav2Lip:开源高精度口型同步生成工具(推荐)

Wav2Lip: オープンソースの高精度リップシンク生成ツール(推奨)

一般的な紹介 Wav2Lipはオープンソースの高精度リップシンク生成ツールで、任意のオーディオとビデオのリップシンクを正確に同期させるように設計されています。このツールはRudrabha MukhopadhyayらによってACM Multimedia 20...で開発されました。
11ヶ月前
065.5K
Edge TTS Worker:使用Cloudflare部署微软语音合成API,兼容OpenAI 格式并封装Web界面

Edge TTS Worker: Cloudflare、OpenAI互換フォーマット、パッケージ化されたウェブインターフェースを使用したMicrosoft音声合成APIの展開

概要 Edge TTS Worker(edge-tsに依存)は、Microsoft Edge TTSサービスをOpenAI互換フォーマットでカプセル化し、Cloudflare Workerにデプロイされたプロキシサービスです。
11ヶ月前
065.3K
IOPaint:全能AI图像处理工具,擦除、扩图、替换元素与绘制文本

IOPaint:オールラウンドなAI画像処理ツールで、要素の消去、拡大、置換、テキストの描画が可能です。

概要 IOPaintは、画像の消去、修復、拡大をサポートする、フリーでオープンソースのAI画像処理ツールです。最先端のAIモデルを使用し、画像から不要なオブジェクトを簡単に削除したり、キズを修復したり、新しいコンテンツを追加したり、画像を拡大したりすることができます。
1年前
065.1K
Surya:专业多语言文档OCR工具,开源本地部署

Surya: プロフェッショナルな多言語ドキュメントOCRツール、オープンソース・ネイティブデプロイメント

包括的な紹介 Suryaは、90以上の言語のテキスト認識をサポートするオープンソースの多言語文書OCRツールキットです。行単位のテキスト検出だけでなく、レイアウト分析、読み順検出、表認識も実行します。Suryaの性能は、あらゆる種類の文書でクラウドサービスに匹敵します。
1年前
065K
HeyGem:硅基智能开源的 Heygen 数字人平替产品

HeyGem:シリコン・インテリジェンスのオープンソースHeygenデジタル・ヒューマン・ピンクッション製品

概論 HeyGemはWindowsシステム用に設計された完全オフラインのビデオ合成ツールで、GuijiAI (Silicon Intelligence)チームによって開発され、GitHubでオープンソース化されています。高度なAIアルゴリズムを使用し、ユーザーの外見と声を正確にクローニングします。
6ヶ月前
064.2K
LiveTalking:开源实时互动数字人直播系统,实现音视频同步对话

LiveTalking: オープンソースのリアルタイム・インタラクティブ・デジタル・ヒューマン・ライブ・システム。

包括的な紹介 LiveTalkingは、オープンソースのリアルタイムインタラクティブデジタルヒューマンシステムであり、高品質のデジタルヒューマンライブソリューションの構築に取り組んでいます。このプロジェクトは、Apache 2.0オープンソースプロトコルを使用し、ER-NeRFレンダリング、リアルタイムオーディオおよびビデオストリーミング処理を含む多くの最先端技術と統合されています。
11ヶ月前
063.9K
基于Wan2.1为ComfyUI提供视频生成能力的插件

Wan 2.1に基づくビデオ生成機能を提供するComfyUI用プラグイン

一般的な紹介 ComfyUI-WanVideoWrapperは、ComfyUIプラットフォーム用に設計された、開発者kijaiによって作成されたオープンソースのプラグインです。WanVideoのWan2.1モデルに基づいており、強力なビデオ圧縮機能を提供します。
9ヶ月前
063.5K
MoneyPrinter V2:自动生成YouTube短视频与Twitter内容并发布

MoneyPrinter V2:短いYouTube動画とTwitterコンテンツを自動生成し、公開する

一般的な紹介 MoneyPrinter V2はFujiwaraChokiによって開発されたオープンソースプロジェクトで、自動化によってユーザーがオンラインでお金を稼ぐのを助ける。このプロジェクトは主にTwitter自動化、YouTubeショートビデオ生成、アフィリエイトキャンプを統合しています。
11ヶ月前
063.1K
OpenHands:AI 驱动的软件开发多智能代理助手,覆盖开发者各类操作

OpenHands:ソフトウェア開発のためのAI駆動型マルチインテリジェントエージェントアシスタント。

概論 OpenHandsはAll-Hands-AIチームによって開発されたオープンソースプロジェクトで、AI技術によってソフトウェア開発プロセスを効率化することを目的としている。以前はOpenDevinとして知られ、現在はOpenHandsと改名されたこのプラットフォームは、強力なAI技術を提供します。
11ヶ月前
063K
DeepWiki-Open:为GitHub、GitLab仓库自动生成AI文档

DeepWiki-Open:GitHub、GitLabリポジトリ用のAIドキュメント自動生成

包括的な紹介 DeepWiki-Openは、GitHub、GitLab、Bitbucket上のコードリポジトリの構造化ドキュメントを自動的に生成するために設計されたオープンソースプロジェクトです。AI技術を使って、コード構造、ファイルの内容、論理的な関係を分析し、迅速に構造化ドキュメントを生成します。
7ヶ月前
062.4K
VeighNa:国内流行的开源量化交易框架

VeighNa:中国で人気のオープンソース定量取引フレームワーク

総合紹介 VeighNaはPythonベースのオープンソース定量取引プラットフォームで、元々は国内の個人トレーダーによって開発され、2015年に正式にローンチされました。シンプルなトレーディング・インターフェース・パッケージから、フル機能のトレーディング開発フレームワークへと進化しています。ユーザーには、プライベート・エクイティ・ファンド、証券...
8ヶ月前
061.7K
留痕(WeChatMsg):微信聊天记录导出与分析工具

WeChatMsg: WeChatチャット記録のエクスポートと分析ツール

一般的な紹介 WeChatMsgは、GitHubプラットフォームにあるオープンソースプロジェクトです。このツールは、WeChatユーザーにWeChatのチャットを抽出し、様々なドキュメント(HTML、Word、CSV)にエクスポートする方法を提供し、チャットデータの視覚化年間レポートの作成をサポートすることを目的としています。
1年前
061.1K
SkyReels-V1:生成高品质人体动作视频的开源视频模型

SkyReels-V1: 高品質のヒューマンアクション動画を生成するオープンソースビデオモデル

概要 SkyReels-V1は、SkyworkAIチームによって開発されたオープンソースプロジェクトで、人間中心の高品質なビデオコンテンツを生成することに重点を置いている。このプロジェクトは、HunyuanVideoモデルに基づいています。
9ヶ月前
061.1K
Kokoro-ONNX:高效文本转语音工具,支持多语言和多声音选择

ココロ-ONNX:多言語・多音声をサポートする効率的な音声合成ツール

包括的な紹介 ココロ-ONNXは、ONNXランタイムをベースとしたオープンソースの音声合成(TTS)ツールです。thewh1teagleによって開発されたこのプロジェクトは、効率的で高速な音声合成ソリューションを提供することを目的としています。
10ヶ月前
060.7K
Agnai Chat:与个性化AI角色互动的开源聊天平台

Agnai Chat: パーソナライズされたAIキャラクターと対話するためのオープンソースチャットプラットフォーム

一般的な紹介 アグナイチャットは、オープンソースのAIチャットプラットフォームであり、ユーザーはシングルまたはマルチプレイヤーでの対話のためにパーソナライズされたAIキャラクターを作成することができます。OpenAI、Claude、Koboldなどの幅広いAIサービスをサポートしており、エンターテイメント、ロールプレイング、教育、...などに適しています。
8ヶ月前
060.3K
Trend Finder:实时追踪社交媒体趋势、热门话话题和新原文,助力营销决策

Trend Finder: ソーシャルメディアのトレンド、トレンドトピック、新着記事をリアルタイムで追跡し、マーケティングの意思決定に活用。

はじめに Trend Finderは、ソーシャルメディア上のトレンドトピックやトレンドをリアルタイムで追跡できるように設計された強力なツールです。主要なインフルエンサーからの投稿を収集・分析することで、Trend Finderは新しいトレンドや製品リリースをいち早く察知し、発信することができます。
10ヶ月前
060.1K
Marker:快速将PDF转换为Markdown的开源工具

Marker:PDFをMarkdownに素早く変換するオープンソースツール

一般的な説明 Markerは、PDFファイルを素早く正確にMarkdown形式に変換するために設計された、ディープラーニングベースの文書処理ツールです。幅広い種類のドキュメントをサポートし、特に書籍や科学論文の変換に最適化されています。Markerはヘッダーを削除することができます...
9ヶ月前
059.9K
视频分析工具(Video Analyzer):分析视频内容并生成详细描述

ビデオアナライザー:ビデオコンテンツを分析し、詳細な説明を生成します。

Comprehensive Introduction Video Analyzerは、コンピュータ・ビジョン、音声転写、自然言語処理技術を組み合わせて、詳細なビデオ・コンテンツの説明を生成する、総合的なビデオ分析ツールです。このツールは、動画から主要なフレームを抽出し、音声コンテンツを書き起こします。
10ヶ月前
059K
Easy-Wav2Lip:高质量视频唇同步的工具,优化版Wav2Lip

Easy-Wav2Lip: Wav2Lipに最適化された高品質ビデオリップ同期ツール

はじめに Easy-Wav2LipはWav2Lipをベースに改良されたツールで、ビデオのリップシンクのプロセスを簡素化するように設計されています。このツールは、Google Colabとローカルインストールをサポートし、よりシンプルなセットアップと実装を提供します。アルゴリズムを最適化することで、Ea...
12ヶ月前
058.5K
FunClip:智能剪辑视频内容为短片,轻松实现精准视频片段提取/裁剪

FunClip:ビデオコンテンツをショートフィルムにインテリジェントに編集。

総合紹介 FunClipは、アリババ達磨研究所のTONGYI Speech Labによって開発された、完全オープンソースのローカライズされた自動ビデオ編集ツールです。このツールは、産業グレードのParaformer-Large音声認識モデルを統合し、ビデオ内の音声を正確に識別することができます...
11ヶ月前
058.4K
KAG:知识图谱与向量混合检索的专业知识库问答框架

KAG: ハイブリッド知識グラフとベクトル検索のための専門知識ベースQ&Aフレームワーク

包括的な紹介 KAG (Knowledge Augmented Generation)は、OpenSPGエンジンと大規模言語モデル(LLMs)に基づいた、論理的なフォームに導かれた推論と検索のフレームワークです。このフレームワークは、専門的なドメイン知識ベースを構築するために特別に設計されています...
11ヶ月前
058K
Danswer: 专注企业知识管理与文档搜索的AI助手,集成多种工作工具

Danswer:複数の作業ツールを統合する、企業の知識管理と文書検索のためのAIアシスタント

一般的な紹介 Danswerは、インテリジェントなチャットインターフェイスと統一された検索機能を通じて、統一された検索と自然言語クエリの回答を提供するために、チームのドキュメント、アプリケーション、および人に接続するように設計されたオープンソースのエンタープライズ文書検索AIアシスタントです。ユーザーデータとチャットが完全に制御されていることを保証...
9ヶ月前
057.8K
PDF-Extract-Kit:提取复杂结构PDF内容的开源工具

PDF-Extract-Kit:オープンソースツールのPDFコンテンツの複雑な構造を抽出する

包括的な紹介 PDF-Extract-KitはOpenDataLabチームによって開発されたオープンソースプロジェクトで、複雑で多様なPDF文書から高品質なコンテンツを効率的に抽出することに重点を置いています。先進的な文書解析技術を統合し、レイアウト検出、数式認識、PDF文書抽出をサポートします。
9ヶ月前
057.6K
YOLOv12:实时图像和视频目标检测的开源工具

YOLOv12:リアルタイム画像・ビデオターゲット検出のためのオープンソースツール

総合的な紹介 YOLOv12はGitHubユーザーのsunsmarterjieによって開発されたオープンソースプロジェクトで、リアルタイムターゲット検出技術に焦点を当てています。このプロジェクトは、YOLO (You Only Look Once)シリーズのフレームワークをベースにしており、ノート・メモの導入...
9ヶ月前
056.9K
Langflow:构建强大AI智能体和工作流的低代码工具

Langflow:強力なAIインテリジェンスとワークフローを構築するためのローコードツール

概要 Langflowは、強力なAIエージェントとワークフローを構築するために開発者向けに設計されたローコードツールです。あらゆるAPI、モデル、データベースの使用をサポートし、複雑なAIアプリケーションの開発を簡素化します。Langflowは直感的なビジュアル・インターフェースを提供します。
1年前
056.8K
FramePack:6G低显存快速生成长视频的开源项目

FramePack:6Gの低グラフィックスメモリは、長いビデオオープンソースプロジェクトの高速成長

一般的な紹介 FramePackはオープンソースのビデオ生成ツールで、ビデオ拡散技術をより実用的にすることに重点を置いている。独自の次フレーム予測ニューラルネットワークによって入力フレームを固定長に圧縮することで、生成作業負荷をビデオの長さから切り離します。つまり、長い動画を生成する場合でも、必要な動画メモリは...
7ヶ月前
055.9K
SiYuan(思源笔记):隐私优先的个人知识管理软件,支持AI写作/问答聊天

SiYuan (SiYuan Notes): AIライティング/Q&Aチャットをサポートするプライバシー優先の個人知識管理ソフトウェア

概要:SiYuan Notes(SiYuan)はプライバシーを第一に考えた個人向けナレッジマネジメントソフトウェアで、完全なオープンソースであり、セルフホスティングをサポートしている。TypeScriptとGolangで書かれており、きめ細かいブロックレベルの参照とMarkdownのWYSIWYG(WYSIWY...
10ヶ月前
055.5K
OpenCharacter:开源无审查的Character.AI替代品

OpenCharacter:オープンソースの無修正Character.AI代替ツール

概論 OpenCharacterはオープンソースのキャラクター作成ツールで、Character.AIの代替として、AIによるキャラクター作成とインタラクションを無制限に体験できるように設計されています。ユーザーはネイティブモデルを使用して独自のキャラクターを作成し、実行することができます。
10ヶ月前
055K
Ollama OCR:使用Ollama中视觉模型提取图像中的文本

Ollama OCR: Ollamaの視覚モデルを使った画像からのテキスト抽出

包括的な紹介 Ollama OCRは、Ollamaプラットフォームが提供する最先端の視覚言語モデルを使用して画像からテキストを抽出する、強力な光学式文字認識(OCR)ツールキットです。このプロジェクトはPythonパッケージとして提供されており、ユーザーフレンドリーなストリー...
11ヶ月前
055K
口袋AI:手机中运行的离线AI助手,适配 DeepSeek-R1 (5.37GB)

Pocket AI:DeepSeek-R1 (5.37GB)に対応した、携帯電話で動作するオフラインのAIアシスタント。

ポケットAI(PocketPal AI中国語版)は、いつでもどこでもAIと会話できるように設計された強力なオフラインAIアシスタントです。スモール・ランゲージ・モデル(SLM)をベースにしており、インターネット接続のない携帯電話で動作し、特に中国のユーザー体験に適応しています。口...
10ヶ月前
054.9K
Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR

Docling:様々なフォーマットのドキュメントをサポート MarkdownやJSONへの解析とエクスポート PDFサポート OCR

包括的な紹介 Doclingは、PDF、DOCX、PPTX、XLSX、画像、HTML、AsciiDocおよびMarkdownを含む幅広い文書形式をサポートする強力な文書解析およびエクスポートツールです。
12ヶ月前
054.4K
OpenAI Codex CLI:OpenAI发布的终端命令行AI编码助手

OpenAI Codex CLI: ターミナルコマンドラインAIコーディングアシスタント OpenAIがリリース

概要 OpenAI Codex CLIは、OpenAIによって開発されたオープンソースのターミナルコーディングツールで、ターミナルに慣れている開発者のために設計されています。コードの生成、ファイルの編集、コマンドの実行、自然言語コマンドによるGitバージョン管理の統合が可能です。
7ヶ月前
053.8K
WeWe RSS:生成微信公众号RSS订阅的开源工具

WeWe RSS:WeChatの公開RSSフィードを生成するオープンソースツール

包括的な紹介 WeWe RSSは、WeChatの公開番号ユーザーのために特別に設計された無料のオープンソースツールです。WeChatの読書プラットフォームを通じて公開番号の記事を取得し、RSSフィードを生成するため、ユーザーはRSSリーダーを使っていつでもコンテンツを閲覧することができます。このツールは、WeChat公開番号の文字...
9ヶ月前
053.8K
DeepChat:支持与多个聊天并发会话的AI对话客户端

DeepChat:複数のチャットによる同時セッションをサポートするAI対話クライアント

概要 DeepChatは、ThinkInAIXYZチームによってGitHub上で開発されたオープンソースのインテリジェント・アシスタント・プロジェクトです。DeepChatは、強力なAI技術によってユーザーをデジタル世界とつなげ、効率的で自然なチャット体験を提供することを目的としています。Win...
9ヶ月前
053.3K
VSR:AI技术无损去除视频水印和硬字幕软件(视频去水印客户端7G+)

VSR:AI技術によるロスレスビデオ透かし除去及びハード字幕ソフトウェア(ビデオ透かし除去クライアント7G+)

包括的な紹介 ビデオ字幕リムーバー(Video-subtitle-remover、略してVSR)は、AI技術に基づくビデオ処理ソフトウェアで、ビデオからハード字幕やテキストウォーターマークを削除するために特別に設計されています。このツールは、様々なAIアルゴリズムモデル(STTN、L...
11ヶ月前
052.8K
OpenBB:开源金融数据分析平台,集成私有数据集和 AI 来增强投资决策

OpenBB: プライベートデータとAIを統合し、投資の意思決定を強化するオープンソースの金融データ分析プラットフォーム

概要 OpenBBは、すべての人に金融データと分析ツールへの簡単なアクセスを提供するために設計された、無料で完全にオープンソースの金融データ分析プラットフォームです。このプラットフォームは、株式、オプション、暗号通貨、外国為替、マクロ経済指標、固定...をカバーする100以上の異なるデータソースを統合しています。
10ヶ月前
052.6K
F5-TTS:少样本语音克隆,生成流畅且感情丰富的克隆声音

F5-TTS: 滑らかで感情豊かなクローン音声を生成するサンプルレス・スピーチ・クローニング

包括的な紹介 F5-TTSは、ストリームにマッチした拡散変換器(DiT)に基づく、新しい非自己回帰的音声合成(TTS)システムである。このシステムは、ConvNeXtモデルを用いてテキスト表現を最適化する。
10ヶ月前
052.6K
Dify Connect MCP:Dify 工作流无缝集成 MCP(模型上下文协议)

Dify Connect MCP: DifyワークフローへのMCP(モデルコンテキストプロトコル)のシームレスな統合

概要 Dify Connect MCPは、GitHubでホストされているオープンソースプロジェクトで、Difyプラットフォームのユーザーにモデルコンテキストプロトコル(MCP)を通じてモデリングするための便利なツールを提供することを目的としています...
9ヶ月前
052.4K
Eino:字节跳动开源的Golang大模型应用开发框架

Eino: ByteDanceのオープンソースGolangビッグモデル・アプリケーション開発フレームワーク

概論 EinoはCloudWeGoチームによるGolangベースのオープンソース・フレームワークで、大規模モデル(LLM)アプリケーションの究極の開発ツールとなるように設計されている。LangChainやLlamaIndexなどのオープンソースフレームワークを利用しています。
9ヶ月前
052.1K
LibreChat:模仿ChatGPT界面交互的AI对话开源项目

LibreChat: ChatGPTインターフェイスを模倣したAI対話オープンソースプロジェクト

概要 LibreChat は、カスタマイズオプションが豊富で、複数のAIプロバイダー、サービス、統合をサポートする、無料のオープンソースAIチャットプラットフォームです。使い慣れたインターフェースと革新的な機能を備え、複数のAIモデル、プラグイン、多言語をサポートすることで、すべてのAI会話を一つの場所に集約します。バイ...
1年前
052K
Gemini Balance:Gemini模型API兼容OpenAI格式,解锁区域限制并支持多API Key轮询

Gemini Balance: GeminiモデルAPIはOpenAIフォーマットと互換性があり、リージョン制限を解除し、マルチAPIキーポーリングをサポートする。

包括的な紹介 Gemini Balanceは、FastAPIフレームワークに基づいて開発されたOpenAI APIプロキシサービスで、効率的なマルチAPI Key管理と最適化機能を提供することを目的としている。このプロジェクトはGeminiモデルコールをサポートしており、主な機能にはマルチAPI...
8ヶ月前
051.8K
Plate:AI驱动的富文本编辑器,支持丰富的插件扩展

Plate: 豊富なプラグイン拡張機能をサポートしたAI駆動型リッチテキストエディタ

概要 PlateはReactとTypeScriptで構築されたAI搭載のリッチテキストエディタで、高度にカスタマイズ可能で拡張性の高い編集体験を提供するように設計されています。Slate.jsをコアに利用し、モダンなUIと組み合わせている。
12ヶ月前
051.5K
Evo2:支持基因组建模与设计的开源生物AI工具

Evo2: ゲノムモデリングとデザイン支援のためのオープンソースバイオAIツール

一般的な紹介 Arc Institute Evo 2は、ゲノムモデリングとデザインに焦点を当てたオープンソースプロジェクトで、米国カリフォルニア州パロアルトを拠点とする非営利研究組織Arc Instituteが、NVIDIAなどのパートナーと共同で開発した。
9ヶ月前
051.5K
KG Gen:从纯文本中自动生成知识图谱的开源工具

KG Gen:プレーンテキストからナレッジグラフを自動生成するオープンソースツール

概要 KGGenはスタンフォード信頼人工知能研究所(STAIR Lab)によって開発されたオープンソースツールで、GitHubでホストされている。高度な言語モデリングとクラスタリングアルゴリズムを使用して、構造化されていないテキストを...
9ヶ月前
051.4K
Chatbot UI:模仿ChatGPT界面和功能的开源AI聊天应用程序

チャットボットUI:ChatGPTのインターフェースと機能を模倣したオープンソースのAIチャットアプリ

一般的な紹介 Chatbot UIは、開発者がパーソナライズされたインテリジェントな会話インターフェースを作成できるように設計されたオープンソースプロジェクトです。このプロジェクトは、ユーザーにより流暢でインテリジェントな対話体を提供するために、既存のチャットボットシステムに簡単に統合できる一連のインターフェースコンポーネントと対話機能を提供します。
1年前
051.2K
Obsidian Copilot:在Obsidian中使用AI助手体验智能化笔记助手

オブシディアン・コパイロット:オブシディアンのAIアシスタントでインテリジェントなノートテイクアシスタントを体験しよう

概論 Obsidian CopilotはObsidian Notesソフトウェア用の強力なAIアシスタントプラグインで、Obsidian NotesのワークフローにOpenAIのインテリジェンスをシームレスに統合します。このプラグインは、開発者のLogan Yang...によって作成されました。
11ヶ月前
051.1K
Coqui TTS(xTTS):文本到语音生成的深度学习工具包,支持多种语言和声音克隆功能

Coqui TTS (xTTS):多言語サポートと音声クローン機能を備えた音声合成用ディープラーニングツールキット

包括的な紹介 Coqui TTSは、ディープラーニング技術に基づくオープンソースの高度な音声合成(TTS)ツールキットです。Coqui TTSは、研究環境と実運用環境の両方でテストされており、多言語のテキスト音声変換をサポートする豊富な機能とモデルのセットを提供します。
10ヶ月前
051.1K
AI Toolkit by Ostris:Stable Diffusion与FLUX.1模型训练工具包

オストリスによるAIツールキット:FLUX.1モデルトレーニングツールキットによる安定した拡散

概論 OstrisによるAI Toolkitは、Stable DiffusionとFLUX.1モデルの学習と画像生成タスクのサポートに重点を置いたオープンソースのAIツールセットです。このツールセットは、開発者のOstrisによって作成・保守されています。
9ヶ月前
051K
XHS-Downloader:免费小红书数据采集工具,支持笔记批量下载、视频提取、图片去水印

XHS-Downloader:無料小洪集データ収集ツール、サポートノート一括ダウンロード、ビデオ抽出、画像透かし処理

概論 XHS-DownloaderはXiaohongshuユーザーのために設計されたオープンソースツールで、Xiaohongshu上で透かしのない画像や動画作品の抽出とダウンロードをサポートします。このツールは、ブラウザからクッキーを取得したり、コマンドライン操作をサポートしたり、一括ダウンロード...など、様々な機能を提供します。
1年前
050.9K
Sim Studio:开源的AI代理工作流构建工具

Sim Studio: AIエージェントのためのオープンソースワークフロービルダー

包括的な紹介 Sim Studioは、軽量で直感的なビジュアルインターフェースを通じて、大規模言語モデル(LLM)ワークフローの迅速な設計、テスト、およびデプロイを支援することに重点を置いた、オープンソースのAIエージェントワークフロー構築プラットフォームです。ドラッグ&ドロップで複雑なワークフローを作成できます。
6ヶ月前
050.7K
Local File Organizer:本地文件整理助手,AI自动整理文件

ローカル・ファイル・オーガナイザー:AIが自動的にファイルを整理するローカル・ファイル・オーガナイザー・アシスタント

概要説明 ローカルファイルオーガナイザーは、ユーザーがコンピュータ上のファイルを整理し、分類するために設計されたAIを搭載したローカルファイル管理ツールです。このツールは、Llama3.2 3BやLlav...などの高度なAIモデルを利用しています。
1年前
050.7K
Open Notebook:个性化AI笔记工具,Notebook LM开源替代方案

Open Notebook: パーソナライズされたAIノートツール、Notebook LMに代わるオープンソース

概要 Open Notebookは、Google Notebook LMに代わるソリューションをユーザーに提供するために設計された、プライバシーに重点を置いたオープンソースのノート管理ツールです。Open Notebookを使えば、ユーザーは自分自身で...
11ヶ月前
050.6K
UI-TARS Desktop:使用自然语言控制电脑的桌面智能体应用

UI-TARS Desktop: 自然言語でコンピュータを制御するDesktop Intelligentsiaアプリケーション

概論 UI-TARS Desktopは、ByteDance社が開発したUI-TARS(Visual Language Model)に基づいたグラフィカルインターフェースエージェントアプリケーションです。UI-TARSデスクトップは、ByteDance社が開発したUI-TARS(Visual Language Model)をベースとしたグラフィカルインターフェースエージェントアプリケーションです。
10ヶ月前
050.3K
Nanobrowser:浏览器中实现任务自动化的多智能插件

ナノブラウザ:ブラウザのタスク自動化のためのマルチインテリジェンス・プラグイン

概要 NanobrowserはオープンソースのChrome拡張機能で、AI主導のマルチエージェントシステムによってウェブタスクを自動化するように設計されています。OpenAI Operatorに代わる無償の拡張機能で、ユーザーはLLMを提供するだけです。
9ヶ月前
050.2K
LTX Video(LTXV):生成高质量视频的实时视频生成开源模型

LTX Video (LTXV): 高品質ビデオを生成するリアルタイムビデオ生成のオープンソースモデル

概要 LTX-Videoは、Lightricksが開発した初のDiT(拡散トランスフォーマー)ベースのリアルタイムビデオ生成モデルです。このモデルは768x512の解像度で24フレーム/秒の高画質を生成することができます。
11ヶ月前
050.2K
Botgroup.chat:多个AI角色实时互动的群聊天应用

Botgroup.chat:複数のAIキャラクターがリアルタイムで対話するグループチャットアプリ

一般的な紹介 Botgroup.chatはReactとCloudflare Pagesをベースに開発されたオープンソースのAIグループチャットアプリケーションで、WeChatグループチャットのようなインタラクティブな体験をユーザーに提供することを目的としています。複数のAIキャラクターの同時参加をサポートしています。
9ヶ月前
049.9K
Vexa:实时会议转录与智能知识提取工具

Vexa:リアルタイム会議記録・インテリジェント知識抽出ツール

包括的な紹介 Vexaはオープンソースのリアルタイム会議記録および知識管理プラットフォームで、効率的な会議記録とインテリジェントな知識抽出サービスを企業や個人に提供するように設計されています。API駆動の会議ロボットにより、Google MeetやZoomなどのプラットフォームに自動的に参加します。
7ヶ月前
049.8K
FlowGram.AI:快速创建节点式工作流的开源引擎

FlowGram.AI:ノードワークフローを迅速に作成するオープンソースエンジン

包括的な紹介 Flowgram.aiは、ByteDanceによって開発されたオープンソースのプロセス構築エンジンです。ノード編集をベースとしており、開発者がワークフローを素早く作成できるよう、固定レイアウトとフリーリンクの2つのモードをサポートしている。プロジェクトはTypeScriptで書かれている。
8ヶ月前
049.5K
Ragas:评估RAG召回QA准确率与答案相关性

ラガス:RAGリコールQA精度と回答の相関性を評価する

包括的な紹介 Ragasは、RAG(Retrieval Augmented Generation)システムの評価と最適化のために特別に設計されたツールです。Ragasは、クエリ、検索コンテキスト、生成された回答間の関係を分析することで、包括的な評価メトリクスのセットを提供します。これらのメトリクスには、忠実度、回答の関連性、コンテキストの関連性、...
10ヶ月前
049.5K
Orpheus-TTS:生成自然中文语音的文本转语音工具

Orpheus-TTS:自然な中国語音声を生成する音声合成ツール

概論 Orpheus-TTSは、人間の自然な音声に近い音声を生成することを目標に、Llama-3bアーキテクチャで開発されたオープンソースの音声合成(TTS)システムです。Canopy AIチームによって開発され、英語、スペイン語、フランス語に対応しています。
8ヶ月前
049.3K
VITA:开源视觉与语音实时交互的多模态大语言模型

VITA: リアルタイム視覚・音声インタラクションのためのオープンソース・マルチモーダル大規模言語モデル

概論 VITAは、オープンソースの対話型マルチモーダル大規模言語モデリング・プロジェクトのリーダーであり、真の完全なマルチモーダル対話を実現する能力を開拓している。プロジェクトは2024年8月にVITA-1.0を立ち上げ、初のオープンソース対話型フルモーダル大規模言語モデルを開拓した。
11ヶ月前
049.1K