AIオープンソースプロジェクト

合計1020記事
小红书AI运营助手:自动生成和发布小红书文章

XiaohongshuのAI操作アシスタント:自動的にXiaohongshuの記事を生成し、公開します。

総合紹介 Xiaohongshu AI Operation Assistant(xhsaipublisher)は、Xiaohongshuプラットフォームで記事を公開するために設計された自動化ツールです。このプロジェクトは、グラフィカル・ユーザー・インターフェースと自動化スクリプトを組み合わせ、ビッグモデル技術を使ってコンテンツを生成し、ブラウザ経由で自動的にログインして公開します...
9ヶ月前
028K
Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

ソニック:音声でポートレート画像を生成し、生き生きとした表情のデジタルデモ映像を制作

概要 Sonicは、グローバルな音声知覚に焦点を当てた革新的なプラットフォームであり、音声によって駆動される鮮やかなポートレートアニメーションを生成することを目的としている。テンセントと浙江大学の研究チームによって開発されたこのプラットフォームは、音声情報を使って表情や頭の動きを制御し、自然で滑らかなアニメーション動画を生成する。
7ヶ月前
027.9K
KG Gen:从纯文本中自动生成知识图谱的开源工具

KG Gen:プレーンテキストからナレッジグラフを自動生成するオープンソースツール

概要 KGGenはスタンフォード信頼人工知能研究所(STAIR Lab)によって開発されたオープンソースツールで、GitHubでホストされている。高度な言語モデリングとクラスタリングアルゴリズムを使用して、構造化されていないテキストを...
8ヶ月前
027.9K
Orion:小米开源的端到端自动驾驶推理与规划框架

Orion:シャオミのオープンソースのエンド・ツー・エンドの自動運転推論・計画フレームワーク

包括的な紹介 OrionはXiaomi Labsによって開発されたオープンソースプロジェクトで、エンドツーエンド(E2E)自律走行技術に焦点を当てています。Orionは、視覚言語モデリング(VLM)と生成プランナーによって、従来の自律走行手法の複雑なシナリオにおける因果推論が不十分であるという問題を解決する。
6ヶ月前
027.8K
RF-DETR:实时视觉对象检测开源模型

RF-DETR:リアルタイム視覚物体検出のためのオープンソースモデル

包括的な紹介 RF-DETRはRoboflowチームによって開発されたオープンソースの物体検出モデルです。RF-DETRはTransformerアーキテクチャをベースにしており、リアルタイム性を特徴としています。このモデルはMicrosoft COCOデータセット上で初めて60APs以上のリアルタイム性を達成した。
7ヶ月前
027.8K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NVインジェスト:複雑なフォーマットのドキュメントを解析し、マルチモーダルデータをメタデータとテキストに抽出する。

包括的な紹介 NV Ingest (NVIDIA Ingest)は、何十万もの複雑で厄介な非構造化PDFやその他の企業ドキュメントを解析するために設計された、早期アクセス可能なマイクロサービス群です。これらのドキュメントをメタデータとテキストに変換し、検索に埋め込むことができます...
9ヶ月前
027.7K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

StreamingT2V: テキストから長尺ビデオへのダイナミックでスケーラブルな生成

包括的な紹介 StreamingT2Vは、Picsart AI研究チームによって開発された公開プロジェクトで、テキストの説明文に基づいて、首尾一貫した、ダイナミックでスケーラブルな長い動画を生成することに焦点を当てています。この技術は、説明文と動画の時間的整合性を保証する高度な自己回帰的アプローチを使用しています。
11ヶ月前
027.7K
InstantIR:受损图像修复与图像高清放大开源项目,最低16G显存

InstantIR:破損した画像の修復と画像の高解像度ズームのオープンソースプロジェクト、最低16Gのビデオメモリ

一般的な説明 InstantIRは、InstantXチームによって開発された革新的な単一画像復元モデルで、破損した画像の高品質復元を実行することができ、非常に高品質で生き生きとした細部で破損した画像を復活させるように設計されています。このツールは、画像の細部を復元するだけでなく...
11ヶ月前
027.7K
Chonkie:轻量级RAG文本切块库

Chonkie: 軽量なRAGテキストチャンキングライブラリ

包括的な紹介 Chonkieは軽量で効率的なRAG(Retrieval-Augmented Generation)テキストチャンキングライブラリで、開発者が素早く簡単にテキストをチャンキングできるように設計されています。このライブラリは、... を含む様々なチャンキング手法をサポートしています。
8ヶ月前
027.7K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格

YuE:歌詞を完全な曲のベースモデルに変換し、幅広い音楽スタイルをサポートします。

概要 YuEは、歌詞をフルソングに変換することに重点を置いた、オープンソースのフルソング生成ベースモデルです。ボーカル以外の短いスニペットしか生成しない他のモデルとは異なり、YuEはリードボーカルとバッキングボーカルを含む、長さ数分のフルソングを生成することができます。YuEは、歌詞から曲への変換に特化したモデルである。
9ヶ月前
027.7K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio:マルチモーダル音声インタラクションフレームワーク。

包括的な紹介 Step-Audioはオープンソースのインテリジェント音声対話フレームワークであり、制作環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語会話(例:中国語、英語、日本語)、感情音声(例:嬉しい、悲しい)、地域方言(例:広東語、四川語、中国語、英語、日本語)をサポートしています。
8ヶ月前
027.6K
Mem0:为AI助手和代理提供智能记忆层的开源项目

Mem0: AIアシスタントやエージェントにインテリジェントなメモリレイヤーを提供するオープンソースプロジェクト

概論 Mem0(「メンゼロ」と発音)は、AIアシスタントやエージェントにインテリジェントなメモリーレイヤーを提供するオープンソースプロジェクトである。ユーザーの好みを記憶し、個人のニーズに適応し、時間の経過とともに改善されるため、顧客サポートのチャットボット、AIアシスタント、自律型システムに最適です。
1年前
027.6K
PocketFlow:100行代码实现AI应用开发的极简框架

PocketFlow:100行のコードでAIアプリケーションを開発するための最小限のフレームワーク

総合紹介 PocketFlowは、The-Pocketチームによって開発され、GitHub上でオープンソース化された、わずか100行のコードからなる軽量なAIアプリケーション開発フレームワークです。ミニマリストデザインを追求し、100行のコアコード制御、外部依存なし...
7ヶ月前
027.6K
BlinkShot:输入提示词实时生成图像(免费接入Flux Schnell模型)

BlinkShot:プロンプトワードを入力してリアルタイム画像生成(Flux Schnellモデルへのフリーアクセス)

概要 BlinkShotは、Together AIとFlux Schnellの技術を利用したオープンソースのリアルタイムAI画像ジェネレーターで、ユーザーがプロンプトを入力すると、高品質の画像を生成することができます。このプラットフォームは完全に無料で、ユーザーのカスタマイズや二次的なオープンソースをサポートしています。
1年前
027.6K
Qwen-Agent:基于Qwen的智能代理应用框架,包括工具调用、代码解释器、RAG和Chrome扩展。

Qwen-Agent: ツールコール、コードインタプリタ、RAG、Chrome拡張機能を含む、インテリジェントエージェントアプリケーションのためのQwenベースのフレームワーク。

包括的な紹介 Qwen-Agent は、Qwen 2.0 以降をベースに開発されたインテリジェントエージェントアプリケーションフレームワークで、コマンドフォロー、ツール使用、プランニング、メモリなどの機能を備えています。このフレームワークは、ブラウザアシスタント、コードインタプリタ、カスタムアシスタントのような様々なサンプルアプリケーションを提供します。
10ヶ月前
027.6K
Midjourney Proxy:代理/逆向Midjourney Discord频道,实现AI绘图API调用(免费测试)

Midjourney Proxy: AIマッピングAPIコールのためのMidjourney Discordチャンネルのプロキシ/リバーシング(無料テスト)

包括的な紹介 Midjourney Proxyは、MidjourneyのDiscordチャンネルにAI描画機能をAPI形式に変換するプロキシサービスを提供するために設計されたオープンソースプロジェクトです。このプロジェクトは完全にフリーでオープンソースであり、ワンクリックで顔の入れ替え、画像のブレンド、グラフの生成をサポートします。
10ヶ月前
027.5K
Open Deep Research:LangChain开源的深度研究智能助手

オープン・ディープ・リサーチ:LangChainのディープ・リサーチ用オープンソース・インテリジェント・アシスタント

包括的な紹介 Open Deep Researchは、あらゆるトピックに関する包括的なリサーチレポートを作成できるウェブベースのリサーチアシスタントです。このシステムでは、時間のかかる調査フェーズに進む前に、レポートの構成を計画し、確認することができる、計画と実行のワークフローを使用しています...
6ヶ月前
027.5K
wechat-article-exporter:一键部署微信公众号文章批量导出工具

wechat-article-exporter:wechat公開番号記事一括エクスポートツールのワンクリックデプロイメント

包括的な紹介 wechat-article-exporterは、ユーザーがWeChatの公開番号の記事を一括エクスポートするために設計されたオープンソースのツールです。このツールは、環境を構築することなく、記事に埋め込まれたオーディオとビデオのエクスポートをサポートし、100%は、記事のスタイルを復元することができ、プライベート部分をサポートしています...
12ヶ月前
027.5K
Memary:利用知识图谱增强Agent长期记忆的开源项目

Memary:知識グラフを使ってエージェントの長期記憶を強化するオープンソースプロジェクト

概要 Memaryは、自律型知能に長期的なメモリ管理ソリューションを提供することに焦点を当てた、革新的なオープンソースプロジェクトです。このプロジェクトは、インテリジェンスが従来のコンテキストウィンドウの限界を突破し、知識グラフと特殊化されたメモリモジュールを通じて、よりスマートなインタラクション体験を実現できるよう支援する。
10ヶ月前
027.5K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab:専用のOCR認識AIモデル、PDF to Markdown(オープンソース/API)

包括的な紹介 Datalabは、OCR、レイアウト分析、PDFからMarkdownへの変換などに焦点を当てた高度なAIモデルを幅広く提供しています。これらのモデルは高性能であるだけでなく、使いやすくオープンソースです。プラットフォーム上のマーカーモデルは、迅速かつ正確に...
11ヶ月前
027.5K
n8n自托管AI入门套件:快速搭建本地AI环境的开源模板

n8n Self-hosted AI Starter Kit: ローカルAI環境を素早く構築するためのオープンソーステンプレート

包括的な紹介 n8nセルフホストAIスターターキットは、包括的なローカルAIとローコード開発環境を素早く初期化するために設計されたオープンソースのDocker Composeテンプレートです。n8nチームによって作られたこのスイートは、セルフホスト型のn8nプラットフォームと、互換性のある様々なAI...
8ヶ月前
027.5K
RMBG-2-Studio:批量移除图像和视频背景的开源程序,基于RMBG 2.0优化

RMBG-2-Studio: RMBG 2.0 用に最適化された、画像やビデオの背景を一括除去するオープンソースプログラム。

概論 RMBG-2-Studioは、BRIA-RMBG-2.0モデルに基づいて開発された、背景の除去および置換を行う拡張アプリケーションです。このアプリケーションは、電子商取引、ゲーム、...を含む様々なタイプの画像に対して、効率的で正確な画像背景処理機能をユーザーに提供するように設計されています。
10ヶ月前
027.5K
Anon-Kode:命令行AI代码助手(Claude Code代码反编译)

Anon-Kode:コマンドラインAIコード・アシスタント(クロード・コードのコード分解)

一般的な紹介 Anon-Kodeは、開発者のDaniel NakovによってGitHubで公開された、端末ベースの操作のためのオープンソースのAIコードアシスタントです。言語モデルを統合することで、OpenAIスタイルのAPIをサポートするように設計されています。
7ヶ月前
027.4K
ChatGPT-on-WeChat:基于大模型构建的智能对话机器人,支持微信等多对话平台接入

ChatGPT-on-WeChat:大規模モデルに基づいて構築されたインテリジェント対話ロボット。

総合的な紹介 ChatGPT-on-WeChatプロジェクトは、大きなモデルベースのインテリジェント対話ロボットであり、個人WeChat、WeChatパブリック番号、企業WeChatアプリケーション、Flybook、Nailなどのマルチプラットフォームへのアクセスをサポートしています。ユーザーはGPT3.5、GPT-4、Claude、Man...
10ヶ月前
027.4K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS:実際の人の話し声を模倣した音声生成モデル(ChatTTSワンクリックアクセラレーションパッケージ)

一般的な紹介 ChatTTSは対話シナリオ用に設計された生成音声モデルです。自然で表現力豊かな音声を生成し、多言語、複数話者をサポートし、対話型ダイアログに適しています。このモデルは、笑い、ポーズ、間投詞のようなきめ細かなリズムの特徴を予測し、制御することで、対話に適した音声を生成します。
8ヶ月前
027.4K
Whisper Input:利用Groq免费且高速的语音转录文本服务

ウィスパーインプット:Groqを使った無料・高速の音声テキスト起こしサービス

概要 Whisper Inputは、Optionボタンを押すことで音声の録音を開始し、ボタンを離すことで録音を終了することができるオープンソースの音声書き起こしツールです。このツールは、Groq Whisper Large V3 Turbo ... を呼び出します。
8ヶ月前
027.4K
Auto-Deep-Research:多Agent协作执行文献查询并生成研究报告

オートディープリサーチ:マルチエージェント連携による文献検索と研究報告書の作成

概説 Auto-Deep-Researchは、香港大学データインテリジェンス研究所(HKUDS)によって開発されたオープンソースのAIツールであり、ユーザーがディープリサーチタスクを自動化することを目的としている。AutoAgentフレームワークをベースに構築されており、複数の大規模言語モデルをサポートしている。
6ヶ月前
027.4K
Open R1:Hugging Face 复现 DeepSeek-R1 的训练过程

オープンR1:ハグする顔がDeepSeek-R1のトレーニングプロセスを再現

一般的な紹介 Hugging FaceのOpen R1プロジェクトは、完全にオープンソースのDeepSeek-R1複製プロジェクトであり、R1パイプラインの欠けている部分を構築し、誰もが複製して構築できるようにすることを目的としています。プロジェクトはシンプルに設計されており、主にトレーニングと評価で構成されています。
9ヶ月前
027.3K
Hunyuan3D-2:腾讯开源的高分辨率3D模型生成工具

Hunyuan3D-2: テンセントのオープンソース高解像度3Dモデル生成ツール

概論 Hunyuan3D-2はTencentによって開発されたオープンソースプロジェクトで、テキストや画像から高解像度の3Dモデルを生成する。形状生成モデル(Hunyuan3D-DiT)とテクスチャ生成モデル(Hunyuan3D...)の2つのコアコンポーネントで構成されています。
7ヶ月前
027.3K
Llasa 1~8B:高品质语音生成和克隆的开源文本转语音模型

Llasa 1~8B: 高品質音声生成とクローニングのためのオープンソース音声合成モデル

概要 Llasa-3Bは、香港科学技術大学オーディオ研究室(HKUST Audio)が開発したオープンソースの音声合成(TTS)モデルです。このモデルはLlama 3.2Bアーキテクチャに基づいており、複数の音声合成をサポートするだけでなく、高品質な音声合成を提供するために慎重に調整されています。
8ヶ月前
027.3K
AI reads books:AI逐页阅读PDF书籍,自动提取知识要点并生成总结

AIが本を読む:AIがPDFの本を1ページずつ読み、知識の要点を自動的に抽出し、要約を生成する。

包括的な紹介 AI-reads-books-page-by-pageはPythonベースのインテリジェントなPDFブック分析ツールで、PDFブックのページごとの分析を自動化し、重要な知識ポイントを抽出し、指定されたページ間隔の後にフェーズを生成します...
10ヶ月前
027.3K
AutoAgent:通过自然语言快速创建并部署AI智能体的框架

AutoAgent:自然言語によるAIインテリジェンスの迅速な作成と展開のためのフレームワーク

概要 AutoAgentは、香港大学データインテリジェンス研究所(HKUDS)によって開発され、GitHubでホストされているオープンソースのAIインテリジェンス・フレームワークである。ユーザーは、プログラミング・ベースなしで、純粋に自然言語で要件を記述することにより、カスタマイズされたAIインテリジェンスを迅速に作成し、展開することができる。
4ヶ月前
027.2K
LangBot:开源大模型即时通信机器人,支持多微信、QQ、飞书等多平台部署AI机器人

LangBot:オープンソースの大型モデルインスタントメッセージングロボット、複数のWeChat、QQ、Flybookと他のマルチプラットフォームのAIロボットの展開をサポートしています。

LangBotは、複数のメッセージングプラットフォームと大型モデルをサポートする大型モデルベースのインスタントメッセージングボットプラットフォームです。このプラットフォームはQQ、WeChat(企業WeChat、個人WeChat)、Flybook、Discord、OneBotなどのメッセージングプラットフォームに適応し、Open...
8ヶ月前
027.2K
Diffusers Image Outpaint:超强开源AI图像扩展工具,图像外绘(image outpainting)

ディフューザー画像アウトペイント:超強力なオープンソースAI画像拡張ツール、画像アウトペイント(outpainting)

一般的な紹介 Diffusers Image Outpaintは、Hugging Faceコミュニティメンバーのfffiloniによって作成された強力なAI画像拡張ツールです。このツールは、高度な拡散モデリング技術を利用して、画像を...
1年前
027.2K
AutoGen:微软开发的多智能体对话框架

オートジェン:マイクロソフトが開発したマルチインテリジェントな身体対話フレームワーク

概要 AutoGenは、マイクロソフト社の研究者チームによって開発されたオープンソースのフレームワークであり、多知能体の対話を通じて大規模言語モデル(LLM)アプリケーションの構築を簡素化することを目的としている。このフレームワークにより、開発者は互いに対話し、協力してタスクを解決するAIエージェントを作成することができる。このアプローチは、LLMのパフォーマンスを向上させるだけでなく...
9ヶ月前
027.1K
Dia:生成超现实多人对话的文本转语音模型

Dia:超リアルな多人数対話生成のための音声合成モデル

一般的な紹介 Diaは、Nari Labsによって開発されたオープンソースのテキスト音声合成(TTS)モデルで、超リアルなダイアログ音声を生成することに重点を置いています。テキストスクリプトを一度の処理でリアルな複数文字のダイアログに変換し、感情やイントネーションの制御をサポートし、さらに非言語表現も生成します。
6ヶ月前
027.1K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools:音声字幕ツール、Cutscene、Racer、Must-Cutへのインターフェースを内蔵した軽量クライアント

包括的な紹介 AsrToolsはCutscene、Racer、Must Cutなどの大手メーカーのインタフェースを内蔵したインテリジェントな音声テキスト変換ツールです。PyQt5をベースに開発されており、美しくユーザーフレンドリーなインターフェイスで、SRTやTXT形式の単語を出力することができます。
1年前
027.1K
WebPilot:智能网页信息处理工具,网页内容抓取免费API

WebPilot:インテリジェントなウェブ情報処理ツール、ウェブコンテンツ取得のための無料API

WebPilot 概要 Webpilotはフリーでオープンソースの "ウェブアシスタント "です。ページを切り替えたり、コピー&ペーストする必要はなく、テキストを選択したり、コマンドを入力するだけで、ウェブパイロット...
1年前
027.1K
OpenWebUI-Monitor:监控OpenWebUI用户活动,管理使用限额,支持一键部署。

OpenWebUI-Monitor:OpenWebUIのユーザーアクティビティを監視し、使用量の制限を管理し、ワンクリックのデプロイをサポートします。

概要 OpenWebUI-Monitorは、OpenWebUIユーザーのアクティビティを監視し、使用クォータを管理するためのダッシュボードです。ユーザークォータを効率的に設定し、ユーザデータと視覚的な情報をリアルタイムで表示することができ、ワンクリックのデプロイをサポートし、ユーザ管理と監視を容易にします。
11ヶ月前
027K
GPT SoVITS:革命性的语音生成与语音克隆工具

GPT SoVITS:画期的な音声生成・音声クローニングツール

総合紹介 GPT-SoVITSは、GPTモデルとSoVITSボイスチェンジャー技術を組み合わせたオープンソースの音声変換・合成ツールです。このツールは、0サンプルや数サンプルでのオンザフライテキスト音声変換や、わずか5秒間の音声サンプルでの音声スタイル移行をサポートしています。このツールの特徴には、言語横断的な音声合成が含まれます。
1年前
027K
ChatFree(ChatAnywhere-2):使用GPT API创建的本地Copilot,支持任意窗口中补全对话

ChatFree (ChatAnywhere-2): GPT APIを使用して作成されたネイティブのコパイロットで、どのウィンドウでもダイアログを完了できます。

概要 ChatFreeは、ユーザーのAIアプリをブラウザの制約から解放し、ローカルで実行することを目的としたオープンソースプロジェクトです。GPTAPIを使用して作成されたCopilotは、Office、Word、WPSなどの幅広いオフィスソフトウェアをサポートするように設計されています。このプロジェクトは...
10ヶ月前
027K
Grok-Mirror:一键部署可盈利的Grok镜像站

Grok-Mirror:収益性の高いGrokミラーサイトのワンクリック展開

包括的な紹介 Grok-Mirrorは、操作可能なGrokミラーステーションの構築に基づいた、サーバーレスで迅速なデプロイが可能なGrok3国内ミラーステーションです。Docker経由でワンクリックでローカルのGrokキオスクをデプロイすることができます。GrokはxAIの人工知能です。
7ヶ月前
027K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate:よく知られた音声生成、音声トランスクリプション、音声モデリングを統合する統一API

概要 Orateは、音声生成と文字起こしに特化したAIツールキットです。Orateは、OpenAI、ElevenLabs、AssemblyAIなどの主要なAIプロバイダーとシームレスに統合する統一APIを提供し、ユーザーが強制的に音声を作成できるようにします。
8ヶ月前
027K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

MMAudio:ビデオ映像に同期した効果音やサウンドトラックを生成する、ビデオと音声のマルチモーダル共同トレーニングツール

一般的な紹介 MMAudioは、マルチモーダルな共同トレーニングによって高品質な同期音声を生成することを目的としたオープンソースプロジェクトである。香港中文大学のHo Kei Chengらによって開発されたこのプロジェクトの主な機能は、ビデオやテキスト入力に基づいて同期された音声を生成することである。
10ヶ月前
026.9K
Agent.exe:让AI直接控制你的电脑,Claude控制计算机的开源实现

Agent.exe:AIにあなたのコンピュータを直接制御させる、クロードの制御コンピュータのオープンソース実装

概要 Agent.exeはオープンソースのElectronアプリケーションで、AnthropicのClaude 3.5 Sonnet APIを利用し、ユーザーがAIを通してローカルコンピューターを直接コントロールできるようにするものです。このプロジェクトは、K...
10ヶ月前
026.9K
RD-Agent:自动化数据驱动研发工具,通过AI技术推动以数据为导向的研发过程

RD-Agent:AI技術によりデータ駆動型研究開発プロセスを促進する自動化されたデータ駆動型研究開発ツール

一般的な紹介 RD-Agentは、研究開発(R&D)プロセスを自動化し最適化するために設計されたMicrosoftのオープンソースツールです。RD-Agentは、研究開発プロセスを自動化し、最適化するために設計されたMicrosoftのオープンソースツールです。このツールは、人工知能技術によってモデルとデータ開発の効率を向上させるデータ駆動シナリオに焦点を当てています。
7ヶ月前
026.9K
Tabby:可集成到 VSCode 的本地自托管AI编程助手

Tabby: VSCodeに統合されたネイティブなセルフホストAIプログラミングアシスタント

一般的な紹介 TabbyはTabbyMLチームによって開発されたオープンソースのAIプログラミングアシスタントで、ユーザーはローカルまたはサーバー上に自分でデプロイすることができます。コードの自動補完やスマートQ&Aなど、GitHub Copilotのような機能を提供していますが、最大の特徴は...
6ヶ月前
026.9K
DUIX:实时互动的智能数字人,支持多平台一键部署

DUIX: リアルタイムのインタラクションを実現するインテリジェントなデジタルピープル、マルチプラットフォームのワンクリック導入をサポート

概論 DUIX(Dialogue User Interface System)は、シリコン・インテリジェンスが開発したAIを搭載したデジタル・ヒューマン・インタラクション・プラットフォームです。オープンソースのデジタル・ヒューマン・インタラクション機能により、開発者は大規模モデル、自動音声認識(ASR...
9ヶ月前
026.8K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

非構造化:オープンソースの非構造化ドキュメントの前処理、非構造化データ処理ツール

包括的な紹介 Unstructured-IOは、画像やPDF、HTML、Word文書などのテキスト文書を処理・前処理するためのオープンソースコンポーネントのセットを提供します。その主な目的は、特に大規模な言語モデル(LL...
1年前
026.8K
Deep Live Cam:开源的实时AI换脸工具,一张照片就能实现实时换脸直播

ディープライブカム:オープンソースのリアルタイムAI顔交換ツール、リアルタイムでライブ顔交換するための写真

概要 Deep Live Camは、1枚の写真からリアルタイムで顔を置き換え、フェイクビデオを生成できるように設計されたオープンソースの人工知能ツールです。高度なディープラーニングアルゴリズムを使用することで、ライブストリーミングやビデオ通話中にリアルタイムで顔を入れ替えることができ、ユーザーのプライバシーを保護し、楽しさを追加します。
11ヶ月前
026.8K
DeOldify:使用AI技术为黑白照片和视频上色的经典开源工具

DeOldify:モノクロ写真やビデオをAI技術でカラー化する定番のオープンソースツール

包括的な紹介 DeOldifyは、白黒写真やビデオのインテリジェントな着色と復元に特化した、ディープラーニング技術に基づくオープンソースプロジェクトです。このプロジェクトは、革新的なNoGAN学習方法を用いて、画像の着色プロセスにおける従来のGANネットワークの一般的な欠点を解決することに成功しています...
10ヶ月前
026.8K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: 視覚言語モデルの汎化能力のための低コスト強化学習

包括的な紹介 R1-Vは、低コストの強化学習(RL)を通して視覚言語モデリング(VLM)のブレークスルーを達成することを目的としたオープンソースプロジェクトです。このプロジェクトは、VLMが一般的な計数能力を学習する動機付けとなる、検証可能な報酬メカニズムを利用している。驚くべきことに、R1-Vの2B ...
8ヶ月前
026.8K
Refly:基于自由画布上流程编排的AI写作平台,自动化生成文章

Refly:記事自動生成のための無料キャンバス上のプロセスオーケストレーションに基づくAIライティングプラットフォーム

包括的な紹介 Reflyは、マルチスレッド対話、ナレッジベース統合、文脈記憶、インテリジェント検索技術を通じて、ユーザーがアイデアを高品質なコンテンツに変換できるように設計された、無料のキャンバスベースのAIネイティブオーサリングエンジンです。このプラットフォームは、学習...
8ヶ月前
026.8K
tldraw:开源无限画布白板SDK,AI生成简约线框图和UML图

tldraw: オープンソースの無制限キャンバス・ホワイトボードSDK、最小限のワイヤーフレームとUMLダイアグラムを生成するAI

一般的な説明 tldraw は、ユーザーが素早くグラフィックを描いたり、テキストを書き込んだり、即座に共同作業ができる無制限のキャンバスを提供する、無料で即座に共同作業ができるドローツールです。直感的なインターフェースと優れたパフォーマンスが特徴で、チームコラボレーションやリモートワークに適しています。オープンソースコミュニティを通じてサポートされているtldr...
11ヶ月前
026.8K
AI RSS生成器:通过AI将网页内容转换为RSS订阅源的工具

AI RSS Generator:ウェブコンテンツをAIでRSSフィードに変換するツール

概要 AI RSSは、AI技術によりウェブコンテンツをRSSフィードに変換する革新的なツールです。ブラウザ・プラグインとサーバー・サイドの2つの主要部分から構成されています。ブラウザプラグインでは、ウェブページからリストを選択し、構造化データ記述(SDD)ファイルを生成することができます。
9ヶ月前
026.8K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2:高度なマルチモーダル理解のためのエキスパート視覚言語モデル

包括的な紹介 DeepSeek-VL2は、その前身であるDeepSeek-VLの性能を大幅に向上させた、高度なMoE(Mixture-of-Experts)視覚言語モデルのシリーズです。このモデルは、視覚的な質問と回答、光学式文字認識、テキスト...
8ヶ月前
026.7K
NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目

NeoAI:AIにコンピュータの遠隔操作を委ね、自然言語で制御させるオープンソースプロジェクト

一般的な紹介 NeoAIは革新的なオープンソースのAIアシスタントツールで、ユーザーは自然言語対話を通じて簡単にコンピュータを制御・管理することができます。コードを書くことなく、日常的な対話だけでファイルの検索、タスクの自動化、デバイスの管理などを行うことができます。
9ヶ月前
026.7K
PDF Craft:PDF扫描文件转Markdown的开源工具

PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツール

一般的な紹介 PDF Craftは、書籍のPDFをスキャンしてMarkdown形式に変換するために設計されたオープンソースツールです。このツールはoomol-labによって開発され、電子書籍を整理したいユーザのためにGitHubでホストされています。このツールは、以下の方法で動作します。
7ヶ月前
026.6K
HippoRAG:基于长时记忆的多跳知识检索框架

HippoRAG: 長期記憶に基づくマルチホップ知識検索フレームワーク

概論 HippoRAGはオハイオ州立大学のOSU-NLPグループによって開発されたオープンソースのフレームワークで、人間の長期記憶メカニズムにヒントを得ている。検索拡張生成(RAG)、ナレッジグラフ、パーソナライズドPageRankのテクニックを組み合わせ、大規模な言語モデル...
7ヶ月前
026.6K
VLM-R1:通过自然语言定位图像目标的视觉语言模型

VLM-R1:自然言語による画像ターゲットの位置決定のための視覚言語モデル

包括的な紹介 VLM-R1は、Om AI Labによって開発され、GitHubでホストされているオープンソースの視覚言語モデリングプロジェクトです。このプロジェクトは、DeepSeekのR1アプローチとQwen2.5-VLモデルを強化学習によって組み合わせたものです。
8ヶ月前
026.6K
AI Hedge Fund:开源自动化交易系统,利用多智能体进行复杂对冲基金交易决策

AIヘッジファンド:複雑なヘッジファンド取引の意思決定に複数の知性を利用するオープンソースの自動取引システム

一般的な紹介 AIヘッジファンドは、マルチ・エージェント・システムを利用して取引の意思決定を行う人工知能ヘッジファンドである。このシステムは、マーケット・データ・エージェント、クオンツ・エージェント、リスク管理エージェント、ポートフォリオ管理エージェントなど、複数の専門エージェントと連携し、複雑な取引を実現する。
9ヶ月前
026.6K
FinGPT:开源金融大语言模型平台,助力金融分析与预测

FinGPT: 金融分析と予測のためのオープンソース金融ビッグ言語モデリング・プラットフォーム

概論 FinGPTは、AI4Finance財団によって開発されたオープンソースの金融ビッグ言語モデリング・プラットフォームであり、複雑な金融タスクを解決し、フィンテックにおけるイノベーションを推進するために金融セクター向けに設計されている。FinGPTは、軽量適応技術と強化学習アプローチを利用している。
9ヶ月前
026.6K
文多多 AiPPT:AI生成PPT,演讲稿生成

Wenduoduo AiPPT: AI生成PPT、プレゼンテーション生成

総合紹介 AiPPTは人工知能技術に基づいたPPT生成ツールで、プロフェッショナルなプレゼンテーションを素早く作成できるように設計されています。テーマを入力したり、ファイルをアップロードしたり、URLを提供したりすることで、内容が豊富で美しくデザインされたスライドを自動的に生成します。
8ヶ月前
026.6K
QAnything:高度集成RAG处理流程的本地知识库问答系统

QAnything: RAG処理フローを高度に統合したローカル知識ベースQ&Aシステム

QAnything Comprehensive Introduction QAnything(Question and Answer based on Anything)は、NetEaseが発表したローカル知識ベースのQ&Aシステムで、あらゆる種類のファイル形式とデータベースをサポートし、オフラインでインストールして使用することができる。
1年前
026.5K
Agent Inbox:与AI智能体进行人机交互的管理界面

エージェント・インボックス:AIインテリジェンスとのヒューマンコンピュータインタラクションのための管理インターフェース

概論 Agent InboxはLangChainチームによって開発されたオープンソースプロジェクトで、AIインテリジェンスと対話するための新しいユーザー体験を提供します。このプロジェクトにより、ユーザーは一元化されたインターフェイスを通して、複数のAIインテリジェンスとのインタラクションを管理し、最適化することができます。
9ヶ月前
026.5K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing:自然な会話とコミュニケーションのための低遅延オープンソース音声対話アシスタント

包括的な紹介 ベイリング(Bailing)は、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントです。このプロジェクトは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデリング(LLM)および音声合成(TTS)技術を組み合わせて...
9ヶ月前
026.5K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT:ジェミニ・モデルを使用して、ワンクリックで短いナレーション付きビデオや長いビデオの要約ビデオを作成する。

包括的な紹介 AI2SRTは、GeminiAIのビッグモデルを使用して、ワンクリックで短いナレーション付きビデオと長いビデオのビデオ要約を生成し、音声とビデオの書き起こし字幕をサポートするオープンソースプロジェクトです。このプロジェクトは、ビデオコンテンツの作成プロセスを簡素化し、効率的な字幕生成と翻訳機能を提供することを目的としています。ユーザーは、字幕を作成した後、その字幕を字幕翻訳ソフトに渡すことができます。
10ヶ月前
026.5K
MegaTTS3:合成中英文语音的轻量模型

MegaTTS3:中国語音声と英語音声を合成する軽量モデル

包括的な紹介 MegaTTS3は、ByteDanceが浙江大学と共同で開発したオープンソースの音声合成ツールで、高品質な中国語と英語の音声を生成することに重点を置いています。MegaTTS3のコアモデルは、わずか0.45Bパラメータで、軽量かつ効率的です。このプロジェクトは ...
7ヶ月前
026.5K
Audiblez:生成有声书,使用Kokoro将电子书转换为有声读物

Audiblez: ココロでオーディオブックを作成、電子書籍をオーディオブックに変換

概要 Audiblezは、電子書籍(.epub形式など)をオーディオブック(.m4b形式など)に変換するためのオープンソースプロジェクトです。Kokoroの高品質音声合成技術を利用し、多言語・多音声をサポートしています。ユーザーは単純に...
9ヶ月前
026.4K
ComfyUI-Copilot:文字描述生成 ComfyUI 工作流的AI助手

ComfyUI-Copilot:テキスト記述生成のためのAIアシスタント ComfyUIワークフロー

包括的な紹介 ComfyUI-Copilotは、ComfyUIフレームワークのために設計されたAI駆動のカスタムノードで、自然言語対話を通じてAIアルゴリズムのデバッグとデプロイの効率を向上させることを目的としています。AIDC-AIチーム(Alibaba)によって開発され、GitHu...
8ヶ月前
026.4K
OpenAvatarChat:模块化设计的数字人对话工具

OpenAvatarChat:モジュール設計されたデジタル人間対話ツール

概論 OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタル人間対話ツールで、1台のPCで動作させることができます...
6ヶ月前
026.4K
YOLOE:实时视频检测和分割物体的开源工具

YOLOE: リアルタイムのビデオ検出と物体分割のためのオープンソースツール

YOLOEは清華大学ソフトウェア学院のマルチメディア・インテリジェンス・グループ(THU-MIG)が開発したオープンソースプロジェクトで、正式名称は「You Only Look Once Eye」。PyTorchフレームワークをベースにしており、YOLOシリーズの拡張機能に属している。
6ヶ月前
026.4K
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

フィッシュ・エージェント:エンド・ツー・エンドのAIボイス・クローン・アシスタント、リアルタイム音声対話アシスタント、フィッシュ・スピーチ・スピンオフ・プロジェクト

包括的な紹介 フィッシュ・スピーチ派生プロジェクト フィッシュ・エージェントは、V0.1 3Bモデル・アーキテクチャに基づいて開発された、革命的なエンド・ツー・エンドのAIスピーチ・クローン・システムです。完全なエンド・ツー・エンドの音声クローン処理システムとして、その最大の特徴は、革新的なスピーチレス...
9ヶ月前
026.4K
Linly-Talker:数字人智能对话系统,结合大语言模型与视觉模型,实现互动新体验

Linly-Talker:デジタルピープルのためのインテリジェント対話システム、ビッグ言語モデルとビジュアルモデルを組み合わせた新しいインタラクティブ体験

概論 Linly-Talkerは、大規模言語モデル(LLM)と視覚モデルを組み合わせた革新的なデジタル人間対話システムであり、人間とコンピュータの対話への斬新なアプローチを生み出す。このシステムは、Whisper、Linly、Micros...といった様々な技術を統合しています。
8ヶ月前
026.4K
sensitive-word:敏感词过滤工具,高效DFA算法实现

sensitive-word: センシティブワードフィルタリングツール、効率的なDFAアルゴリズムの実装

包括的な紹介 Sensitive Wordフィルタリングツール(Sensitive Word)は、DFAアルゴリズムフレームワークの実装に基づいた高性能なJavaのセンシティブワードフィルタリングツールです。このツールは、センシティブワードを効率的に検出してフィルタリングすることができ、様々なフォーマット変換やカスタム置換ストラテジーをサポートします。このツールの設計目標は、...
1年前
026.4K
OpenManus-RL:微调大模型强化智能体推理与决策能力

OpenManus-RL: 大規模モデルの微調整による知的身体推論と意思決定の強化

概論 OpenManus-RLは、UIUC-UlabがMetaGPTコミュニティのOpenManusチームと共同で開発したオープンソースプロジェクトであり、GitHubでホストされている。このプロジェクトは、強化学習(RL)技術によって大規模言語モデリング(LLM)を強化する...
7ヶ月前
026.4K
Goose:开源可扩展的编程智能体,自动化执行编程全流程任务

Goose:全工程のプログラミング作業を自動化する、オープンソースのスケーラブルなプログラミング・インテリジェンス

一般的な紹介 GooseはBlock社によって開発されたオープンソースのAIエージェントツールで、開発者が日常的な開発作業を自動化できるように設計されています。さまざまな大規模言語モデル(LLM)をサポートし、コマンドラインやデスクトップアプリケーションのインターフェースを介してユーザーと対話します。
9ヶ月前
026.3K
Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

Browser-Use:AIインテリジェントがブラウザを簡単に操作するためのインテリジェント・ウェブ・オートメーション・ツールの構築

包括的な紹介 Browser-Useは、言語モデル(LLM)がウェブサイトと自然に対話できるように特別に設計された、革新的なオープンソースのウェブ自動化ツールです。強力で柔軟なフレームワークを提供し、GPT-4、Claud...などの主流の言語モデルを幅広くサポートします。
10ヶ月前
026.3K
微信视频号下载器:快速下载微信视频号视频,支持多种格式和平台

WeChat動画番号ダウンローダー:WeChat動画番号の動画を素早くダウンロード、複数のフォーマットとプラットフォームをサポートする

総合紹介 WeChat動画番号ダウンローダーはオープンソースプロジェクトで、ユーザーがWeChat動画番号から動画コンテンツを素早くダウンロードできるように設計されています。このツールは、様々なビデオフォーマットとプラットフォームをサポートしており、ユーザーはWindowsとmacOSシステム上で簡単に使用することができます。このプロジェクトはltaooによって開発され、...
9ヶ月前
026.3K
Motia:用代码快速构建智能体的开发框架

Motia: コードでインテリジェンスを迅速に構築するための開発フレームワーク

一般的な紹介 Motiaは、GitHubでホストされ、MotiaDevチームによって開発された、ソフトウェアエンジニアのためのオープンソースのAIエージェントフレームワークです。開発者は使い慣れたプログラミング言語(例:Python、TypeScript、Rub...
7ヶ月前
026.2K
99AI:集成多模态AI服务的商业化Web应用(免费开源)

99AI:マルチモーダルAIサービスを統合した商用ウェブアプリケーション(無料オープンソース)

包括的な紹介 99AIはオープンソースのAIウェブアプリケーションプロジェクトで、導入が容易で敷居の低い統合AIサービスプラットフォームを提供することを目的としています。このプロジェクトは、インテリジェントな対話、マルチモーダルモデル、アプリケーションプラザ、ネットワーク検索をサポートし、AI絵画、音楽、ビデオを統合します。
11ヶ月前
026.2K
DH live:在30/40系显卡流畅实时交互的AI数字人

DHライブ: 30/40シリーズグラフィックスカードでスムーズなリアルタイムインタラクションを実現するAIデジタルピープル

一般的な紹介 DH_liveは、サンプルレスラーニングに基づいたリアルタイムのライブデジタルヒューマンプロジェクトで、スムーズでインタラクティブなライブストリーミング体験をユーザーに提供することを目的としています。このプロジェクトは、NVIDIA 30および40シリーズのグラフィックカードをサポートし、25fps以上でリアルタイムに実行することができます。ユーザーは...
11ヶ月前
026.2K
Cognita:构建模块化RAG应用的开源框架,快速测试多样RAG策略

Cognita:モジュラーRAGアプリケーションを構築し、多様なRAG戦略を迅速にテストするためのオープンソースフレームワーク

包括的な紹介 Cognitaは、RAG(Retrieval-Augmented Generation)ベースのアプリケーションの開発を簡素化するためにTrueFoundry社によって開発されたオープンソースのフレームワークです。このフレームワークは、構造化されたモデ...
9ヶ月前
026.2K