AIオープンソースプロジェクト

合計1020記事
BlinkShot:输入提示词实时生成图像(免费接入Flux Schnell模型)

BlinkShot:プロンプトワードを入力してリアルタイム画像生成(Flux Schnellモデルへのフリーアクセス)

概要 BlinkShotは、Together AIとFlux Schnellの技術を利用したオープンソースのリアルタイムAI画像ジェネレーターで、ユーザーがプロンプトを入力すると、高品質の画像を生成することができます。このプラットフォームは完全に無料で、ユーザーのカスタマイズや二次的なオープンソースをサポートしています。
10ヶ月前
03.2K
MediaCrawler:多社交媒体平台内容、视频评论爬虫工具

MediaCrawler: マルチソーシャルメディアプラットフォームコンテンツ、ビデオコメントクローラーツール

概要 MediaCrawlerは、開発者向けに設計されたソーシャルメディアコンテンツのクローラーツールです。強力なクローラー機能を提供することで、Xiaohongshu、Shake、Shutter、B、Weiboなどのソーシャルプラットフォームから動画、画像、コメント、いいね、リツイートなどのデータを素早く取得することができます。
12ヶ月前
03.2K
MoneyPrinterPlus:一键生成短视频的AI工具,免费批量混剪

MoneyPrinterPlus:ワンクリックで短い動画を作成するAIツール、無料のバッチミキシング

総合紹介 MoneyPrinterPlusは、AI技術によって、ワンクリックであらゆる種類の短い動画を生成・ミックスし、Jieyin、Shutterbugs、Xiaohongshu、Video Numberなどの複数の動画プラットフォームに自動的に公開することを目的としたオープンソースプロジェクトです。このツールは、ローカルおよびクラウドベースの音声モデルをサポートしており、チャット...
11ヶ月前
03.2K
Audiblez:生成有声书,使用Kokoro将电子书转换为有声读物

Audiblez: ココロでオーディオブックを作成、電子書籍をオーディオブックに変換

概要 Audiblezは、電子書籍(.epub形式など)をオーディオブック(.m4b形式など)に変換するためのオープンソースプロジェクトです。Kokoroの高品質音声合成技術を利用し、多言語・多音声をサポートしています。ユーザーは単純に...
7ヶ月前
03.2K
Novel:模仿Notion AI的开源写作编辑器

小説:Notion AIを模倣したオープンソースのライティング・エディター

包括的な紹介 これは、Steven Teyによって開発されたオープンソースプロジェクトで、Novelと呼ばれ、NotionスタイルのWYSIWYGテキストエディタであり、ユーザーがテキスト入力の効率を向上させることができる統合されたAIの自動補完機能です。このプロジェクトは、詳細なドキュメントとインストール手順を提供します。
1年前
03.2K
Clone Voice:支持多语言的少样本声音克隆工具,基于xtts_v2提供Windows一键安装包

クローンボイス:Windows用のxtts_v2をベースにした多言語、サンプルレス音声クローンツール。

一般的な説明 Clone Voiceはオープンソースのサウンドクローニングツールで、ウェブベースのインターフェイスを提供し、ユーザーが任意のサウンドや個人的な声の録音を使用して声のクローンを作成することができます。このツールは、NVIDIA GPUがなくても簡単に使用でき、コンパイル済みのアプリで使用できます。
10ヶ月前
03.2K
EchoMimic:音频驱动人像照片生成说话视频(EchoMimicV2加速版安装包)

EchoMimic: 音声駆動ポートレートによるトーキングビデオ生成 (EchoMimicV2 アクセラレータ)

概要 EchoMimicは、音声によってリアルなポートレートアニメーションを生成するために設計されたオープンソースプロジェクトです。AntグループのTerminal Technologies部門によって開発されたこのプロジェクトは、編集可能なマーカーポイント条件を利用し、音声と顔のマーカーポイントを組み合わせて、ダイナミックなポートレート動画を生成します。
7ヶ月前
03.2K
KG Gen:从纯文本中自动生成知识图谱的开源工具

KG Gen:プレーンテキストからナレッジグラフを自動生成するオープンソースツール

概要 KGGenはスタンフォード信頼人工知能研究所(STAIR Lab)によって開発されたオープンソースツールで、GitHubでホストされている。高度な言語モデリングとクラスタリングアルゴリズムを使用して、構造化されていないテキストを...
6ヶ月前
03.2K
MetaGPT:多智能体协作框架,构建 AI 软件开发团队实现自然语言编程

MetaGPT:自然言語プログラミングのためのAIソフトウェア開発チーム構築のための多知能コラボレーションフレームワーク

包括的な紹介 MetaGPTは、完全なAIソフトウェア会社の運営をシミュレートするために設計された革新的なマルチインテリジェンス体のフレームワークです。geekan(アレクサンダー・ウー)によって作成されたこのプロジェクトの目標は、異なる役割を持つGPTモデルを協調的なエンティティに結合することです...
5ヶ月前
03.2K
留痕(WeChatMsg):微信聊天记录导出与分析工具

WeChatMsg: WeChatチャット記録のエクスポートと分析ツール

一般的な紹介 WeChatMsgは、GitHubプラットフォームにあるオープンソースプロジェクトです。このツールは、WeChatユーザーにWeChatのチャットを抽出し、様々なドキュメント(HTML、Word、CSV)にエクスポートする方法を提供し、チャットデータの視覚化年間レポートの作成をサポートすることを目的としています。
1年前
03.2K
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块

MiniRAG:簡易検索拡張生成フレームワーク、エンティティグラフインデックスリコール関連テキストブロック

包括的な紹介 MiniRAGは、極めてシンプルなRAG(Retrieval Augmented Generation)フレームワークであり、ヘテロジニアスグラフインデキシングと軽量なトポロジー拡張検索によって、小さなモデルでも優れたRAG性能を実現することを目的としている。香港大学データサイエンス研究室(HKUDS)によって開発され、...
7ヶ月前
03.2K
Comics Downloader:开源免费漫画下载器,支持PDF、EPUB、CBR、CBZ格式漫画下载

Comics Downloader: オープンソースの無料コミックスダウンローダー、PDF, EPUB, CBR, CBZ形式のコミックスをダウンロード可能

一般的な紹介 Comics Downloaderは、ユーザーが様々なウェブサイトからコミックやコミックをダウンロードできるように設計されたオープンソースツールです。このツールは、PDF、EPUB、CBR、CBZを含む様々なファイル形式をサポートしており、ユーザーは自分のニーズに合わせて選択することができます。
8ヶ月前
03.2K
MobileAgent:多代理协作的移动设备操作助手

MobileAgent:モバイル機器操作アシスタントのためのマルチエージェント・コラボレーション

一般的な紹介 MobileAgentは、マルチエージェントコラボレーションと強化された視覚認識モジュールにより、モバイルデバイス操作の効率と自動化を改善するために設計された強力なモバイルデバイス操作アシスタントです。X-PLUGチームによって開発され、Androidと...
7ヶ月前
03.2K
SadTalker:让照片说话|嘴型同步音频|合成口型同步视频|免费数字人

SadTalker: 写真にしゃべらせる|口パク音声|合成口パク動画|無料デジタルピープル

概要 SadTalkerは、1枚の静止ポートレート写真と音声ファイルを組み合わせて、パーソナライズされたメッセージや教育コンテンツなど、幅広いシナリオに対応するリアルなトーキングアバター動画を作成するオープンソースツールです。ExpNetやPoseVAなどの3Dモデリング技術の革命的な使用...
6ヶ月前
03.2K
Dify-WebUI:基于Dify API的桌面智能对话客户端,提供企业级AI对话能力

Dify-WebUI: Dify APIをベースとしたデスクトップインテリジェントダイアログクライアントで、エンタープライズグレードのAIダイアログ機能を提供します。

包括的な紹介 Dify-WebUIは、Dify APIに基づいた最新のデスクトップインテリジェント対話アプリケーションで、企業に強力なAI対話機能を提供するように設計されています。このアプリケーションは、企業の個々のニーズを満たすために、様々なプリセットテーマカラーをサポートし、ナレッジベース管理機能をサポートします。
7ヶ月前
03.2K
Eino:字节跳动开源的Golang大模型应用开发框架

Eino: ByteDanceのオープンソースGolangビッグモデル・アプリケーション開発フレームワーク

概論 EinoはCloudWeGoチームによるGolangベースのオープンソース・フレームワークで、大規模モデル(LLM)アプリケーションの究極の開発ツールとなるように設計されている。LangChainやLlamaIndexなどのオープンソースフレームワークを利用しています。
5ヶ月前
03.2K
YOLOv12:实时图像和视频目标检测的开源工具

YOLOv12:リアルタイム画像・ビデオターゲット検出のためのオープンソースツール

総合的な紹介 YOLOv12はGitHubユーザーのsunsmarterjieによって開発されたオープンソースプロジェクトで、リアルタイムターゲット検出技術に焦点を当てています。このプロジェクトは、YOLO (You Only Look Once)シリーズのフレームワークをベースにしており、ノート・メモの導入...
6ヶ月前
03.2K
OpenManus:MetaGPT推出的开源版Manus

OpenManus: MetaGPTによるManusのオープンソース版

一般的な紹介 OpenManusは、ユーザーが簡単な設定でローカルにインテリジェンスを実行し、様々な創造的なアイデアを実現できるように設計されたオープンソースプロジェクトです。MetaGPTコミュニティメンバーの@mannaandpoem、@XiangJinyu、@Mos...によって開発されました。
5ヶ月前
03.2K
MeetingMind:依赖OpenAI Whisper的开源智能会议记录与总结工具

MeetingMind: OpenAI Whisperを利用したオープンソースのインテリジェント会議記録・要約ツール

はじめに MeetingMindは、ビジネスミーティングの記録と要約の効率を改善するために設計された高度なAIアプリケーションです。このアプリは、OpenAIのWhisperテクノロジーを統合して正確な音声テキスト化を実現し、IBM Watso...
10ヶ月前
03.2K
Watermark Removal:开源去除图像水印工具,图片去水印恢复原始图像

透かし除去:オープンソース画像透かし除去ツール、画像透かし復元オリジナル画像

概論 透かし除去は、機械学習とディープラーニングの技術を画像修復、特に画像から透かしを除去するために使用するオープンソースプロジェクトです。このプロジェクトはChimzuruoke Okaforによって開発され、Con...
6ヶ月前
03.2K
CrewAI:多角色扮演协作智能框架,简化复杂任务

CrewAI:複雑なタスクを簡素化するマルチロールプレイ協調知能フレームワーク

包括的な紹介 CrewAIは、ロールプレイングと自律型AIエージェント間のコラボレーションをオーケストレーションするために設計された高度なフレームワークです。コラボレーションインテリジェンスを促進することで、CrewAIはエージェントがシームレスに連携して複雑なタスクを解決することを可能にします。インテリジェントアシスタントプラットフォームの構築、カスタマーサービスチームの自動化、マルチエージェント...
8ヶ月前
03.2K
GPT Academic:最佳Arxiv学术论文翻译、纠错与代码解释

GPTアカデミック:Arxiv学術論文翻訳、エラー訂正、コード解釈の最優秀賞

一般的な紹介 GPT Academicは、学術研究に最適化された大規模言語モデルのためのインタラクティブプラットフォームです。GPT/GLMのような大規模言語モデルへの実用的なインタラクティブインターフェースのためのツールを提供し、特に論文翻訳、論文読解、推敲、執筆の経験に最適化されています。モジュール設計を採用しています。
9ヶ月前
03.1K
Easy Voice Toolkit:本地部署的AI语音工具箱

Easy Voice Toolkit: 地域展開のためのAI音声ツールキット

包括的な紹介 Easy-Voice-ToolkitはOpen Source Speech Projectに基づく多機能なツールキットで、音声認識、音声トランスクリプション、音声変換、データセット作成、モデルトレーニングのための幅広い自動音声ツールを提供します。ユーザーは、必要に応じてこれらのツールを選択的に使用することができます...
11ヶ月前
03.1K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing:自然な会話とコミュニケーションのための低遅延オープンソース音声対話アシスタント

包括的な紹介 ベイリング(Bailing)は、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントです。このプロジェクトは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデリング(LLM)および音声合成(TTS)技術を組み合わせて...
7ヶ月前
03.1K
NSFW Detector:检测文件是否包含不适(NSFW)内容,保护数据安全

NSFW Detector: ファイルにNSFWコンテンツが含まれているかどうかを検出し、データのセキュリティを保護します。

包括的な紹介 NSFW DetectorはAIベースの不快コンテンツ検出ツールで、主に画像、動画、PDFファイルなどに不快コンテンツが含まれているかどうかを検出するために使用されます。このツールは、Falconsai/nsfwimagedetectio...を使用しています。
8ヶ月前
03.1K
OpenAI Edge TTS:利用 Edge TTS 的免费文本转语音API,兼容 OpenAI 格式

OpenAI Edge TTS: Edge TTSを使ったフリーの音声合成APIで、OpenAIのフォーマットと互換性があります。

一般的な紹介 OpenAI Edge TTSは、OpenAIと互換性のあるネイティブの音声合成(TTS)APIを提供するオープンソースプロジェクトです。このプロジェクトでは、Microsoft Edgeのオンライン音声合成サービスを使用して、ユーザーが高品質な音声合成を行うことができます。
7ヶ月前
03.1K
AIGCPanel:开源克隆数字人整合系统,一键部署免费数字人客户端

AIGCPanel: デジタルマンインテグレーションシステムのオープンソースクローン。

総合紹介 AigcPanelは、electron+vue3+typescriptの技術スタックで開発され、Windows上でワンクリックで展開できる、すべてのユーザーのためのワンストップAIデジタルヒューマン制作システムです。AigcPanelは、ユーザーフレンドリーな設計を核心としており、...
7ヶ月前
03.1K
Mahilo:连接不同AI智能体框架实时协作的集成平台

Mahilo:異なるAIインテリジェンスフレームワークをリアルタイムで連携させる統合プラットフォーム

Mahiloは、開発者Jayesh SharmaによってGitHubで公開されたオープンソースのマルチインテリジェンス統合プラットフォームであり、ユーザーが異なるフレームワークのAIインテリジェンスを接続し、リアルタイムのコミュニケーション、人間とコンピュータのインタラクション、インテリジェントなコラボレーションをサポートできるように設計されている。この ...
5ヶ月前
03.1K
Llasa 1~8B:高品质语音生成和克隆的开源文本转语音模型

Llasa 1~8B: 高品質音声生成とクローニングのためのオープンソース音声合成モデル

概要 Llasa-3Bは、香港科学技術大学オーディオ研究室(HKUST Audio)が開発したオープンソースの音声合成(TTS)モデルです。このモデルはLlama 3.2Bアーキテクチャに基づいており、複数の音声合成をサポートするだけでなく、高品質な音声合成を提供するために慎重に調整されています。
6ヶ月前
03.1K
AI Toolkit by Ostris:Stable Diffusion与FLUX.1模型训练工具包

オストリスによるAIツールキット:FLUX.1モデルトレーニングツールキットによる安定した拡散

概論 OstrisによるAI Toolkitは、Stable DiffusionとFLUX.1モデルの学習と画像生成タスクのサポートに重点を置いたオープンソースのAIツールセットです。このツールセットは、開発者のOstrisによって作成・保守されています。
5ヶ月前
03.1K
LogoCreator:开源Logo生成器,使用AI智能生成专业品牌Logo

LogoCreator:オープンソースのロゴジェネレーター、AIインテリジェンスを使用してプロフェッショナルなブランドロゴを生成します。

一般的な紹介 LogoCreatorは、Together AIとFluxモデルに基づいたオープンソースのロゴ・ジェネレーターで、企業や個人に迅速でプロフェッショナルなロゴ・デザイン・サービスを提供することに焦点を当てています。このプロジェクトは、開発者Nutlopeによって開発され、Gitでオープンソース化されています...
8ヶ月前
03.1K
SynthLight:对肖像图像进行自然光照渲染(未发布)

SynthLight:ポートレート画像の自然光レンダリング(未発表)

概要 SynthLightは拡散モデルに基づいたポートレートリライティングツールです。合成顔画像の再レンダリングを学習し、実際のポートレート写真の照明効果を調整します。このツールは、物理的なレンダリングエンジンを使用して、異なる照明条件下での照明変換をシミュレートするデータセットを生成します...
7ヶ月前
03.1K
AI蜂巢:基于 Java 的多功能 AI聊天集成平台

AI Hive: Javaベースの汎用AIチャット統合プラットフォーム

包括的な紹介 AIビーハイブ(ai-beehive)は、Spring Boot 3とJDK 17を備えたJava言語上に構築された多機能AIプラットフォームである。このプロジェクトは、ChatGPT...を含む複数のAI技術を統合しています。
9ヶ月前
03.1K
PDF-Extract-Kit:提取复杂结构PDF内容的开源工具

PDF-Extract-Kit:オープンソースツールのPDFコンテンツの複雑な構造を抽出する

包括的な紹介 PDF-Extract-KitはOpenDataLabチームによって開発されたオープンソースプロジェクトで、複雑で多様なPDF文書から高品質なコンテンツを効率的に抽出することに重点を置いています。先進的な文書解析技術を統合し、レイアウト検出、数式認識、PDF文書抽出をサポートします。
6ヶ月前
03.1K
文多多 AiPPT:AI生成PPT,演讲稿生成

Wenduoduo AiPPT: AI生成PPT、プレゼンテーション生成

総合紹介 AiPPTは人工知能技術に基づいたPPT生成ツールで、プロフェッショナルなプレゼンテーションを素早く作成できるように設計されています。テーマを入力したり、ファイルをアップロードしたり、URLを提供したりすることで、内容が豊富で美しくデザインされたスライドを自動的に生成します。
6ヶ月前
03.1K
NarratoAI:文本生成影视解说与自动化剪辑神器

NarratoAI:テキスト生成映画・TVナレーション・自動編集ツール

概論 NarratoAIは、映画やビデオのナレーション、自動編集、吹き替え、字幕生成を統合した完全自動化ツールです。大規模言語モデリング(LLM)技術により、コピーを自動生成し、対応するナレーションと字幕をビデオに自動編集し、ユーザーにワンストップを提供します。
11ヶ月前
03.1K
Zonos:高质量语音合成与语音克隆工具

Zonos: 高品質音声合成と音声クローニングツール

一般的な紹介 ZonosはZyphraによって開発されたオープンソースの音声合成と音声クローニングツールです。Zonos-v0.1バージョンは、高品質の音声出力を生成するために高度なトランスフォーマーとブレンドモデルを使用しています。このツールは複数の言語をサポートしています。
6ヶ月前
03.1K
Repomix:打包代码库为一个文本文件以便大模型检索

Repomix:大規模モデル検索用にコードベースをテキストファイルにパッケージ化

概論 Repomix(以前はRepopackとして知られていた)は、コードベース全体を単一のAIフレンドリーなファイルにパッケージ化するために設計されたオープンソースツールです。このツールにより、開発者は自分のコードベースを大規模な言語モデル(ClaudeやChat...
7ヶ月前
03.1K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格

YuE:歌詞を完全な曲のベースモデルに変換し、幅広い音楽スタイルをサポートします。

概要 YuEは、歌詞をフルソングに変換することに重点を置いた、オープンソースのフルソング生成ベースモデルです。ボーカル以外の短いスニペットしか生成しない他のモデルとは異なり、YuEはリードボーカルとバッキングボーカルを含む、長さ数分のフルソングを生成することができます。YuEは、歌詞から曲への変換に特化したモデルである。
6ヶ月前
03.1K
VideoReTalking:音频驱动的嘴唇同步和视频编辑系统

VideoReTalking:音声駆動型リップシンクロ・ビデオ編集システム

一般的な紹介 VideoReTalkingは、ユーザーが入力音声に基づいてリップシンクロナイズされた顔のビデオを生成し、異なる感情であっても高品質でリップシンクロナイズされた出力ビデオを生成できる革新的なシステムです。このシステムは、この目標を3つの連続したタスクに分割します。
8ヶ月前
03.1K
PromptWizard:优化提示工程的开源框架,提升任务性能

PromptWizard: タスクパフォーマンスを向上させるプロンプトプロジェクト最適化のためのオープンソースフレームワーク

包括的な紹介 PromptWizardはMicrosoftによって開発されたオープンソースのフレームワークであり、モデルがプロンプトの単語を生成、評価、改善し、それ自身で例を生成し、継続的なフィードバックによってアウトプットの質を向上させる自己進化メカニズムを使用しています。プロンプトの単語を自律的に最適化し、適切な例文を生成・選択し、...
8ヶ月前
03.1K
Orpheus-TTS:生成自然中文语音的文本转语音工具

Orpheus-TTS:自然な中国語音声を生成する音声合成ツール

概論 Orpheus-TTSは、人間の自然な音声に近い音声を生成することを目標に、Llama-3bアーキテクチャで開発されたオープンソースの音声合成(TTS)システムです。Canopy AIチームによって開発され、英語、スペイン語、フランス語に対応しています。
4ヶ月前
03.1K
NocoDB:在多种数据库上创建智能表格,开源Airtable替代方案

NocoDB: 複数のデータベースでスマートテーブルを作成、オープンソースのAirtable代替ツール

一般的な紹介 NocoDBは、強力で使いやすいオンラインデータベース管理ツールを提供するために設計されたオープンソースのAirtableの代替です。NocoDB を使えば、ユーザーはコードを書くことなく、簡単にデータベースからデータを作成、読み込み、更新、削除することができます。このプラットフォームは、...
10ヶ月前
03.1K
Marco-o1:基于Qwen2-7B-Instruct微调的开源版OpenAI o1模型,探索开放式推理模型,解决复杂问题

Maro-o1:Qwen2-7Bに基づくOpenAI o1モデルのオープンソース版-複雑な問題を解決するためのオープンな推論モデルを探求するための微調整を指示する。

総合紹介 Marco-o1は、アリババ国際デジタル商務グループ(AIDC-AI)によって開発された、複雑な実世界の問題を解決するためのオープンな推論モデルです。このモデルは、思考の連鎖(CoT)微調整、モンテカルロ木探索(MCTS)、および革新的な推論戦略を組み合わせています...
8ヶ月前
03.1K
OpenAI Codex CLI:OpenAI发布的终端命令行AI编码助手

OpenAI Codex CLI: ターミナルコマンドラインAIコーディングアシスタント OpenAIがリリース

概要 OpenAI Codex CLIは、OpenAIによって開発されたオープンソースのターミナルコーディングツールで、ターミナルに慣れている開発者のために設計されています。コードの生成、ファイルの編集、コマンドの実行、自然言語コマンドによるGitバージョン管理の統合が可能です。
4ヶ月前
03.1K
Easegen:开源数字人课程制作平台,PPT一键生成克隆数字人讲解视频

Easegen:オープンソースデジタルヒューマンコース制作プラットフォーム、PPTワンクリック生成クローンデジタルヒューマン講義ビデオ

総合紹介 Easegenはオープンソースのデジタルヒューマン講座作成プラットフォームであり、AI技術によって教育コンテンツの制作と管理の効率化を目指している。このプラットフォームは、コース制作、ビデオ管理からインテリジェントな質問までワンストップソリューションを提供し、ユーザーはデジタル人間説明ビデオコースを作成することができます...
10ヶ月前
03.1K
ChatOllama:基于Nuxt 3和Ollama的本地实时聊天应用UI

ChatOllama: Nuxt 3とOllamaをベースにしたローカルリアルタイムチャットアプリケーションUI

包括的な紹介 ChatOllamaは、大規模言語モデル(LLM)に基づくオープンソースのオンラインチャットアプリケーションプロジェクトです。ユーザは、モデル管理(リスト表示、ダウンロード、削除)、モデルとのチャットやその他の機能のためにプラットフォームを使用することができます。このプロジェクトは...
10ヶ月前
03.1K
PhotoDoodle:文字指令为照片添加艺术涂鸦的AI工具

PhotoDoodle: テキストコマンドで写真にアーティスティックな落書きができるAIツール

概要 PhotoDoodleは、ShowLabによって開発されたオープンソースの画像編集ツールで、人工知能技術による写真の芸術的な編集に焦点を当てています。ユーザーは、簡単なテキストプロンプトを入力するだけで、実際の写真に漫画スタイル、3D効果、光を追加することができます...
5ヶ月前
03.1K
口袋AI:手机中运行的离线AI助手,适配 DeepSeek-R1 (5.37GB)

Pocket AI:DeepSeek-R1 (5.37GB)に対応した、携帯電話で動作するオフラインのAIアシスタント。

ポケットAI(PocketPal AI中国語版)は、いつでもどこでもAIと会話できるように設計された強力なオフラインAIアシスタントです。スモール・ランゲージ・モデル(SLM)をベースにしており、インターネット接続のない携帯電話で動作し、特に中国のユーザー体験に適応しています。口...
6ヶ月前
03.1K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab:専用のOCR認識AIモデル、PDF to Markdown(オープンソース/API)

包括的な紹介 Datalabは、OCR、レイアウト分析、PDFからMarkdownへの変換などに焦点を当てた高度なAIモデルを幅広く提供しています。これらのモデルは高性能であるだけでなく、使いやすくオープンソースです。プラットフォーム上のマーカーモデルは、迅速かつ正確に...
9ヶ月前
03.1K
CoAI.Dev (Chat Nio):AI聚合应用 一站式 B/C 端解决方案,支持弹性计费和订阅计划模式

CoAI.Dev(チャットNio):柔軟な課金とサブスクリプションプランモデルに対応したAIアグリゲーションアプリ向けワンストップB/Cソリューション

一般的な紹介 CoAI.Dev(旧Chat Nio)は、複数のAIモデルを統合し、分散ストリーミング、画像生成、クロスデバイス会話の同期と共有をサポートするチャットプラットフォームです。サブスクリプションとトークン課金システム、キートランジットサービス、複数のAIモデルを統合したチャットプラットフォームです。
9ヶ月前
03.1K
OpenUtau:免费的开源歌声合成编辑工具

OpenUtau: フリーのオープンソース楽曲合成編集ツール

概要 OpenUtauは、UTAUコミュニティにモダンな編集体験を提供するために設計された、フリーのオープンソース楽曲合成・編集プラットフォームです。UTAUソフトウェアの後継であり、オリジナルソフトウェアの互換性と複雑さの問題を解決しています。OpenUtauはWind...をサポートしています。
4ヶ月前
03.1K
DeepChat:支持与多个聊天并发会话的AI对话客户端

DeepChat:複数のチャットによる同時セッションをサポートするAI対話クライアント

概要 DeepChatは、ThinkInAIXYZチームによってGitHub上で開発されたオープンソースのインテリジェント・アシスタント・プロジェクトです。DeepChatは、強力なAI技術によってユーザーをデジタル世界とつなげ、効率的で自然なチャット体験を提供することを目的としています。Win...
5ヶ月前
03.1K
J.A.R.V.I.S.:具有上下文感知的智能代码助手,生成和修改代码,多IDE支持

J.A.R.V.I.S.:コンテキストを考慮したインテリジェントコードアシスタント、コードの生成と修正、マルチIDEサポート

概論 J.A.R.V.I.S. (Just A Rather Very Intelligent System) は、複数の最先端の言語モデルを使用して、開発者のコード生成、修正、技術的なディスカッションを支援するように設計されたインテリジェントなコード・アシスタントです。
7ヶ月前
03.1K
Scira(MiniPerplx):模仿Perplexity的开源项目,集成AI对话、网页搜索、天气查询等功能

Scira (MiniPerplx): Perplexityを模倣したオープンソースプロジェクトで、AI対話、ウェブ検索、天気クエリなどを統合している。

概論 MiniPerplx (Sciraに改名) はミニマリストデザインのAI駆動型検索エンジンであり、様々な便利な機能を統合し、ユーザーにあらゆる情報検索サービスを提供する。このプロジェクトでは、Next.js、Tailwi...
7ヶ月前
03.1K
MJML:轻松设计响应式邮件,配合ChatGPT快速生成营销邮件

MJML: ChatGPTでレスポンシブメールを簡単にデザイン、マーケティングメールを素早く生成

概要 MJML(Mail Junction Markup Language)は、Mailjetチームによって開発されたオープンソースのフレームワークで、レスポンシブなメールテンプレートの作成を簡素化します。セマンティックなマークアップ言語と豊富なコンポーネントライブラリにより、開発者は少ないコードで美しくパワフルなメールテンプレートを効率的に作成することができます。
12ヶ月前
03.1K
Ant Design X:快速构建AI聊天界面的工具包,支持模型集成和数据流管理。

Ant Design X: モデル統合とデータフロー管理をサポートし、AIチャットインターフェースを迅速に構築するためのツールキット。

包括的な紹介 Ant Design Xは、Ant Groupによってオープンソース化されたツールキットで、開発者がAI主導の対話インターフェースを素早く構築できるように設計されています。豊富なコンポーネントとテンプレートのセットを提供し、OpenAI標準と互換性のあるモデル統合をサポートし、インテリジェントなカスタマーサービス、AIアシスタント、その他のような様々なアプリケーションに適しています。
9ヶ月前
03.1K
UI-TARS Desktop:使用自然语言控制电脑的桌面智能体应用

UI-TARS Desktop: 自然言語でコンピュータを制御するDesktop Intelligentsiaアプリケーション

概論 UI-TARS Desktopは、ByteDance社が開発したUI-TARS(Visual Language Model)に基づいたグラフィカルインターフェースエージェントアプリケーションです。UI-TARSデスクトップは、ByteDance社が開発したUI-TARS(Visual Language Model)をベースとしたグラフィカルインターフェースエージェントアプリケーションです。
7ヶ月前
03.1K
Ortlin:与所有OpenAI模型和API交互的Web图形用户界面

Ortlin:すべてのOpenAIモデルとAPIを操作するためのウェブGUI

概論 Ortlinは、技術者、非技術者を問わず、誰でも簡単にOpenAIのAPIや基礎モデルと対話できるように設計されたウェブベースのグラフィカルユーザーインターフェースです。完全にフリーでオープンソースであるため、ユーザーはOpenAIを手間をかけずに利用することができます...
10ヶ月前
03.1K
Retrieval based Voice Conversion WebUI:基于检索的语音转换框架|模拟真人歌声

検索ベースの音声変換WebUI:検索ベースの音声変換フレームワーク|実際の歌声をシミュレートする

包括的な導入検索に基づく音声変換WebUIは、使いやすいVITSベースの音声変換フレームワークであり、曲のカバーやリアルタイムの音声変更を含む、あらゆるスピーカー間の音声変換を可能にします。低 ...
10ヶ月前
03.1K
pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版

pdf2htmlEX: テキストフォーマットを維持したまま、PDFをHTMLにロスレス変換。

包括的な紹介 pdf2htmlEXは、PDFファイルをHTML形式に変換するために設計されたオープンソースのツールであり、PDFファイルの内容を分析し、HTML + CSSを使用して正確にその視覚効果を復元することにより、PDF文書は、ブラウザに変換されます。
9ヶ月前
03.1K
Goku: 生成画面精细且一致的视频,适合创作包含人物、物体细节的广告视频

悟空:詳細で一貫性のある動画を生成します。詳細なキャラクターやオブジェクトを使用したコマーシャルの作成に最適です。

包括的な紹介 Gokuは、ストリーム変換技術に基づく連携型画像・動画生成モデルであり、業界トップクラスのパフォーマンスを達成するよう設計されています。Gokuは、きめ細かなデータ照合、モデル設計、ストリーム変換の定式化など、高度で高品質な映像生成技術を統合しています。
6ヶ月前
03.1K
Quantum Swarm:多智能体集群协作框架

Quantum Swarm:マルチインテリジェンスクラスターコラボレーションのためのフレームワーク

QuantumSwarmは、AIの人口知能の開発と研究に焦点を当てたオープンソースの人工知能フレームワークです。このプロジェクトはQuarm AIチームによってGitHub上で管理されており、マルチインテリジェンスシステムの構築とテストのための柔軟で効率的なプラットフォームを提供することを目指している。
7ヶ月前
03.1K
OpenWebUI-Monitor:监控OpenWebUI用户活动,管理使用限额,支持一键部署。

OpenWebUI-Monitor:OpenWebUIのユーザーアクティビティを監視し、使用量の制限を管理し、ワンクリックのデプロイをサポートします。

概要 OpenWebUI-Monitorは、OpenWebUIユーザーのアクティビティを監視し、使用クォータを管理するためのダッシュボードです。ユーザークォータを効率的に設定し、ユーザデータと視覚的な情報をリアルタイムで表示することができ、ワンクリックのデプロイをサポートし、ユーザ管理と監視を容易にします。
9ヶ月前
03.1K
DreamTalk:使用一张头像图片即可生成表情丰富的说话视频

DreamTalk:1枚のアバター画像で表情豊かなトーキングビデオを生成!

DreamTalk総合紹介 DreamTalkは清華大学、アリババグループ、華中科技大学が共同開発した拡散モデル駆動型表情トーキングヘッド生成フレームワークです。主に、ノイズ除去ネットワーク、スタイル認識リップエキスパート、スタイル予測器の3つの部分から構成されており、ノイズ除去ネットワーク、スタイル認識リップエキスパート、スタイル予測器は、...
8ヶ月前
03.1K
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox: PDF、DOCX、Markdownへの画像変換、ビジュアルモデル高精度OCR

一般的な紹介 Zeroxは、ビジュアルモデルを通してPDF、DOCX、画像やその他のドキュメントをMarkdown形式に変換するために設計されたオープンソースプロジェクトです。このプロジェクトはgetomni-aiチームによって開発され、シンプルで効率的なOCR(光学式文字認識)ソリューションを提供します。
7ヶ月前
03K
Sana:快速生成高分辨率图像,0.6B超小尺寸模型,低配笔记本GPU运行

サナ:高解像度画像の高速生成、0.6Bの超小型モデル、薄型ラップトップGPU動作

概要 Sanaは、NVIDIA Labsによって開発された効率的な高解像度画像生成フレームワークであり、最大4096×4096の解像度の画像を数秒で生成することができる。Sanaは、線形拡散変換器と深層圧縮自己エンコーダ技術を採用し、大幅に...
9ヶ月前
03K
文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

テキスト抽出 API (text-extract-api): テキスト情報の視覚的抽出、匿名化 PDF 抽出ツール

包括的な紹介 テキスト抽出API(text-extract-api)は、さまざまな文書形式(PDF、Word、PPTXなど)からコンテンツを抽出し、解析するために設計された強力なツールです。このAPIは、最先端の光学式文字認識(OCR)技術とOl...
7ヶ月前
03K
Agnai Chat:与个性化AI角色互动的开源聊天平台

Agnai Chat: パーソナライズされたAIキャラクターと対話するためのオープンソースチャットプラットフォーム

一般的な紹介 アグナイチャットは、オープンソースのAIチャットプラットフォームであり、ユーザーはシングルまたはマルチプレイヤーでの対話のためにパーソナライズされたAIキャラクターを作成することができます。OpenAI、Claude、Koboldなどの幅広いAIサービスをサポートしており、エンターテイメント、ロールプレイング、教育、...などに適しています。
4ヶ月前
03K
AI Podcast Generator:自动抓取新闻生成音频播客

AIポッドキャスト・ジェネレーター:ニュースを自動クロールして音声ポッドキャストを生成

概論 AI Podcast Generatorは、高度なAI技術を利用してウェブソースから魅力的なオーディオコンテンツを自動的に作成するインテリジェントなポッドキャスト生成ツールです。このシステムは、ニュース・コンテンツをキャプチャし、オーディオ・ポッドキャストに変換することで、自然な流れのナレーションを生成します。このプロジェクトはNext...
9ヶ月前
03K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2:高度なマルチモーダル理解のためのエキスパート視覚言語モデル

包括的な紹介 DeepSeek-VL2は、その前身であるDeepSeek-VLの性能を大幅に向上させた、高度なMoE(Mixture-of-Experts)視覚言語モデルのシリーズです。このモデルは、視覚的な質問と回答、光学式文字認識、テキスト...
6ヶ月前
03K
Text2Video-Zero:Picsart AI Research团队发布的文本到视频零样本生成器

Text2Video-Zero: Picsart AI研究チームによるテキストからビデオへのゼロサンプル生成ツールがリリースされました。

一般的な紹介 Text2Video-Zeroは、Picsart AI Researchチームによって開発されたGitHub用のサンプル数ゼロのテキストからビデオへのジェネレーターの公式実装です。このプロジェクトは、時間的一貫性と正しいテキストを生成するためにテキストキューを使用する方法を提供します。
10ヶ月前
03K
PantoMatrix(EMAGE):全身手势生成框架,从音频生成全身手势的3D动画框架

PantoMatrix(Emage):全身ジェスチャー生成フレームワーク、音声から全身ジェスチャーを生成する3Dアニメーションフレームワーク

包括的な紹介 PantoMatrixは、音声と顔、体の一部、手、全身の動きを含む部分的なジェスチャーから、完全な人間の動きを生成できる先進的なフルボディジェスチャー生成フレームワークです。このフレームワークは、最新のマルチモーダルデータセットとディープラーニング技術を利用して、高品質の3D...
9ヶ月前
03K
AutoAgent:通过自然语言快速创建并部署AI智能体的框架

AutoAgent:自然言語によるAIインテリジェンスの迅速な作成と展開のためのフレームワーク

概要 AutoAgentは、香港大学データインテリジェンス研究所(HKUDS)によって開発され、GitHubでホストされているオープンソースのAIインテリジェンス・フレームワークである。ユーザーは、プログラミング・ベースなしで、純粋に自然言語で要件を記述することにより、カスタマイズされたAIインテリジェンスを迅速に作成し、展開することができる。
2ヶ月前
03K
LivePortrait:静态图像、视频生成动态肖像动画工具

LivePortrait:静止画や動画からダイナミックなポートレートを生成するアニメーションツール

一般的な紹介 LivePortraitはRacer Technologyによって開発された先進的なAIダイナミックポートレートアニメーションツールです。革新的なAI技術を利用し、静止画像を鮮やかなビデオアニメーションに変換します。本物の写真でも、アニメーションスタイルでも、芸術的なポートレートでも、LivePo...
9ヶ月前
03K
Playwright MCP:微软推出的浏览器自动化MCP服务

Playwright MCP:マイクロソフトのブラウザ自動化MCPサービス

一般的な紹介 Playwright MCPはMicrosoftによって開発され、GitHubでホストされているオープンソースツールである。モデルコンテキストプロトコル(MCP)プロトコルを介して、人工知能モデルがブラウザを直接制御できるようにする。
5ヶ月前
03K
WrenAI:对话式数据分析AI助手,直接获取答案、SQL查询与分析报表

WrenAI: 回答、SQLクエリ、分析レポートに直接アクセスできる会話型データ分析AIアシスタント

概要 WrenAIは、データチーム、製品チーム、ビジネスチームが自然言語での会話を通じてデータの洞察を得ることを支援するために特別に設計されたオープンソースのSQL AIアシスタントです。自然言語をSQLクエリに変換し、チャート、スプレッドシート、レポートを生成し、多言語をサポートします。
7ヶ月前
03K
IMS Toucan:快速可控的多语言(支持7000+语言)文本转语音工具

IMS Toucan: 高速でコントロール可能な多言語(7000以上の言語に対応)音声合成ツール

一般的な紹介 IMS Toucanはドイツのシュトゥットガルト大学の自然言語処理研究所(IMS)によって開発された最先端の音声合成(TTS)ツールキットです。このツールキットは7000以上の言語をサポートし、高速で、制御可能で、必要な計算資源が少ない。
6ヶ月前
03K
Linly-Dubbing:智能视频多语言AI配音/翻译工具

Linly-Dubbing:インテリジェントビデオ多言語AI吹替/翻訳ツール

包括的な紹介 Linly-Dubbingはインテリジェントな多言語AIダビングと翻訳ツールで、高度なAI技術を統合することにより、ユーザーに高品質の多言語ビデオダビングと字幕翻訳サービスを提供するように設計されています。このツールは、特に国際教育、グローバルコンテンツのローカリゼーションやその他のシナリオに適しており、...
7ヶ月前
03K
飞桨 PP-TableMagic:复杂表格结构化信息提取神器

フライング・パドル PP-TableMagic: 複雑なテーブルの構造化情報抽出

表認識の目的は、画像中の表を解析し、表の構造やセルの位置を正確に特定し、構造化された表形式(HTMLなど)に変換することである。今日の情報化時代において、大量の重要な表データがまだ構造化されていない状態で存在している(例えば、統計表の写真をスキャンした文書など)。
5ヶ月前
03K
RTranslator:语音实时翻译安卓应用,免费且支持离线使用

RTranslator: Android用リアルタイム音声翻訳アプリ!

一般的な紹介 RTranslatorは、Androidデバイスのために設計された事実上オープンソース、無料のオフラインリアルタイム翻訳アプリです。ユーザーはBluetoothヘッドセットを接続することで、携帯電話をポケットに入れたまま、まるで自分の国の言葉を話しているかのように他の人と会話をすることができます。
7ヶ月前
03K
Paper Reviewer:自动生成arXiv论文的综合评审并转化为博客文章

Paper Reviewer: arXiv論文の包括的なレビューを自動生成し、ブログ記事に変換する。

一般的な紹介 Paper Reviewerは、arXivの論文から包括的なレビューを生成し、ブログ記事にするために設計されたオープンソースプロジェクトです。このプロジェクトはHugging FaceのDaily Papersウェブサイトを動かしており、自動的に...
9ヶ月前
03K
FiveThirtyNine:基于搜索知识对未来事件发生概率预测

FiveThirtyNine:検索知識に基づいて未来の出来事の確率を予測する

概論 Forecast AIは高度な人工知能技術に基づく優れた予測プラットフォームです。強力なデータ分析と機械学習アルゴリズムを駆使し、ユーザーに精度の高い未来予測を提供します。政治選挙、経済動向、社会的出来事のいずれであっても、Forecast ...
11ヶ月前
03K
PhiData:构建拥有记忆、知识和工具的AI智能体

PhiData: 記憶、知識、ツールを備えたAIインテリジェンスの構築

包括的な紹介 PhiDataは、インテリジェントなAIアシスタントを開発するために設計されたフレームワークです。PhiDataは、拡張されたメモリ、知識統合、ツール呼び出し機能を通じて、AIアシスタントが長期的な会話を行い、正確なビジネスコンテキストを提供し、さまざまな操作を実行できるようにします。
5ヶ月前
03K
Micro Agent:AI编程智能体,自动生成代码并测试、修复代码

マイクロ・エージェント:コードを自動生成し、テストと修正を行うAIプログラミング・インテリジェンス。

一般的な紹介 Micro-Agentは、Builder.ioによって開発されたオープンソースのAIコーディングアシスタントであり、開発者にコードを自動的に生成してテストする機能を提供するように設計されている。自然言語による記述を理解することでテストケースを生成し、すべてのテストがパスするまでコードを繰り返し実行することで、オープンなコードを減らすことができます。
7ヶ月前
03K
mcp-ui:基于MCP协议的简洁AI聊天界面

mcp-ui: MCPプロトコルに基づいたクリーンなAIチャットインターフェース

包括的な紹介 mcp-uiは、開発者machaojin1917939763によって作成されたオープンソースプロジェクトであり、構築するためのモデルコンテキストプロトコル(MCP)プロトコルに基づき、Webおよびデスクトップ環境のためのサポートです スマート ...
4ヶ月前
03K
Meetily:生成会议纪要的AI助手,实时转录和生成会议摘要

Meetily:会議議事録の作成、書き起こし、会議サマリーの作成をリアルタイムで行うAIアシスタント

一般的な説明 MeetilyはZackriya Solutionsによって開発されたAIを搭載した会議アシスタントで、会議の音声をリアルタイムでキャプチャし、音声書き起こしを行い、会議のサマリーを生成します。すべての処理がデバイス上でローカルに行われる点が特徴で、ユーザーのプライバシーを保証します。
6ヶ月前
03K