AIオープンソースプロジェクト

合計1020記事
InvSR:开源图像超分辨率项目,提升图像分辨率质量

InvSR: 画像解像度の質を向上させるオープンソース画像超解像プロジェクト

一般的な紹介 InvSRは、低解像度画像を高品質な高解像度画像に変換できる拡散インバージョン技術に基づいた革新的なオープンソースの画像超解像プロジェクトです。このプロジェクトは、事前に訓練された大規模拡散モデルに埋め込まれた豊富な画像事前知識を利用し、柔軟なサンプリングメカニズムを通じて、...
1年前
079.6K
AI Auto Free:使用自动化工具无限制使用AI IDE(如Cursor和Windsurf)

AIオートフリー:自動化ツール(CursorやWindsurfなど)を使用したAI IDEが使い放題

概要 AI Auto Freeは、CursorやWindsurfなどのAI駆動統合開発環境(IDE)をユーザーが無制限に利用できるように設計された強力な自動化ツールです。このプロジェクトはクロスプラットフォームをサポートし、複数の言語機能を含んでいます。
1年前
079.5K
微信Markdown编辑器:简洁高效的微信图文排版工具,一键粘贴文章到微信公众号

WeChat Markdownエディタ:シンプルで効率的なWeChatグラフィックレイアウトツール、WeChat公開番号に記事を貼り付けるためのキー

総合紹介 WeChat Markdown Editor (WeChat Markdown Editor)は、ユーザーが簡単に美しいWeChat投稿を作成できるように設計された、非常に簡潔なWeChatグラフィックレイアウトツールです。このエディタはすべての基本的なMarkdown ...
1年前
079.4K
MediaCrawler:多社交媒体平台内容、视频评论爬虫工具

MediaCrawler: マルチソーシャルメディアプラットフォームコンテンツ、ビデオコメントクローラーツール

概要 MediaCrawlerは、開発者向けに設計されたソーシャルメディアコンテンツのクローラーツールです。強力なクローラー機能を提供することで、Xiaohongshu、Shake、Shutter、B、Weiboなどのソーシャルプラットフォームから動画、画像、コメント、いいね、リツイートなどのデータを素早く取得することができます。
2年前
079.3K
WeChatAI:Windows版微信群聊智能助手客户端

WeChatAI: Windows用WeChatグループチャットインテリジェントアシスタントクライアント

総合的な紹介 WeChatAIはPythonベースのWeChatグループチャットとパーソナルインテリジェントアシスタントで、様々な大規模言語モデル(DeepSeek、Gemini、Tongyi Thousand Questionsなど)をサポートし、インテリジェントな対話、自動返信、その他の機能を実現することができます。このプロジェクトでは、最新の...
1年前
079.2K
TreeGPT:可视化树状对话的AI聊天界面

TreeGPT: ツリーベースの会話を可視化するAIチャットインターフェース

概要 TreeGPTは、Next.jsをベースとしたオープンソースのチャットアプリケーションです。大規模な言語モデル(LLM、GPTなど)の会話を、ツリーグラフ構造(有向非循環グラフ、DAG)を通して可視化することに重点を置き、従来の直線的なチャット手法に取って代わることで、スピードと...
1年前
079.2K
Refly:基于自由画布上流程编排的AI写作平台,自动化生成文章

Refly:記事自動生成のための無料キャンバス上のプロセスオーケストレーションに基づくAIライティングプラットフォーム

包括的な紹介 Reflyは、マルチスレッド対話、ナレッジベース統合、文脈記憶、インテリジェント検索技術を通じて、ユーザーがアイデアを高品質なコンテンツに変換できるように設計された、無料のキャンバスベースのAIネイティブオーサリングエンジンです。このプラットフォームは、学習...
1年前
079.1K
BlinkShot:输入提示词实时生成图像(免费接入Flux Schnell模型)

BlinkShot:プロンプトワードを入力してリアルタイム画像生成(Flux Schnellモデルへのフリーアクセス)

概要 BlinkShotは、Together AIとFlux Schnellの技術を利用したオープンソースのリアルタイムAI画像ジェネレーターで、ユーザーがプロンプトを入力すると、高品質の画像を生成することができます。このプラットフォームは完全に無料で、ユーザーのカスタマイズや二次的なオープンソースをサポートしています。
2年前
078.9K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing:自然な会話とコミュニケーションのための低遅延オープンソース音声対話アシスタント

包括的な紹介 ベイリング(Bailing)は、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントです。このプロジェクトは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデリング(LLM)および音声合成(TTS)技術を組み合わせて...
1年前
078.9K
multi-model-bolt.new:基于 Bolt.new 的开源修改版,AI驱动的全栈开发工具

multi-model-bolt.new:AI駆動型フルスタック開発ツールBolt.newをベースとしたオープンソース修正版

一般的な説明 multi-model-bolt.newは、TogetherAIモデルの使用を可能にするBolt.newの改良版で、展開、モバイル応答、音声入力などの機能をサポートしています。ユーザーは、ブラウザーで直接プロンプトを表示したり、...
1年前
078.9K
Gemini Teacher:英语口语发音纠正助手

ジェミニ・ティーチャー:英語スピーキング発音矯正アシスタント

概要 Gemini Teacherは、Google Gemini AIに基づいた英語スピーキング練習アシスタントです。ユーザーの英語の発音をリアルタイムで認識し、即座にフィードバックと修正案を提供します。このツールは、ユーザーが英語のスピーキングスキルを向上させるために設計されています...
1年前
078.8K
DUIX:实时互动的智能数字人,支持多平台一键部署

DUIX: リアルタイムのインタラクションを実現するインテリジェントなデジタルピープル、マルチプラットフォームのワンクリック導入をサポート

概論 DUIX(Dialogue User Interface System)は、シリコン・インテリジェンスが開発したAIを搭載したデジタル・ヒューマン・インタラクション・プラットフォームです。オープンソースのデジタル・ヒューマン・インタラクション機能により、開発者は大規模モデル、自動音声認識(ASR...
1年前
078.7K
Chonkie:轻量级RAG文本切块库

Chonkie: 軽量なRAGテキストチャンキングライブラリ

包括的な紹介 Chonkieは軽量で効率的なRAG(Retrieval-Augmented Generation)テキストチャンキングライブラリで、開発者が素早く簡単にテキストをチャンキングできるように設計されています。このライブラリは、... を含む様々なチャンキング手法をサポートしています。
1年前
078.6K
AI reads books:AI逐页阅读PDF书籍,自动提取知识要点并生成总结

AIが本を読む:AIがPDFの本を1ページずつ読み、知識の要点を自動的に抽出し、要約を生成する。

包括的な紹介 AI-reads-books-page-by-pageはPythonベースのインテリジェントなPDFブック分析ツールで、PDFブックのページごとの分析を自動化し、重要な知識ポイントを抽出し、指定されたページ間隔の後にフェーズを生成します...
1年前
078.5K
Emigo:在Emacs中使用AI完成复杂编程任务的助手

Emigo:EmacsのAIを使った複雑なプログラミング作業のアシスタント

概論 EmigoはEmacs用に設計されたオープンソースのAIプログラミング・アシスタントで、MatthewZMDによってGitHub上で開発されています。大規模言語モデル(LLM)を統合することで、プログラマがEmacs上でコード解析を完了するのを支援します...
1年前
078.5K
AI RSS生成器:通过AI将网页内容转换为RSS订阅源的工具

AI RSS Generator:ウェブコンテンツをAIでRSSフィードに変換するツール

概要 AI RSSは、AI技術によりウェブコンテンツをRSSフィードに変換する革新的なツールです。ブラウザ・プラグインとサーバー・サイドの2つの主要部分から構成されています。ブラウザプラグインでは、ウェブページからリストを選択し、構造化データ記述(SDD)ファイルを生成することができます。
1年前
078.4K
Voice-Pro:开源多功能视频翻译工具,语音转录并翻译为多语言,Windows一键安装

Voice-Pro: オープンソースの多機能ビデオ翻訳ツール、多言語への音声書き起こしおよび翻訳、Windowsワンクリックインストール

概論 Voice-Proは、Gradio WebUIをベースにした多機能ツールで、音声合成、テキスト読み上げ、リアルタイム翻訳、YouTubeビデオダウンロード、人声分離をサポートします。Whisper、Faster-Wh...
2年前
078.4K
腾讯混元3D(Hunyuan3D):生成高分辨率3D资产,多种3D素材生成工作流

Tencent Hybrid 3D(Hunyuan3D):高解像度3Dアセットの生成、複数の3Dマテリアル生成ワークフロー

包括的な紹介 Tencent Hunyuan3D (Hunyuan3D 2.0)は、高解像度のテクスチャ3Dアセットを生成するために設計されたTencentの高度な大規模3D合成システムです。Hunyuan3D-DiTは大規模な形状生成モデルで、Hunyuan3D-DiTは大規模なテクスチャ生成モデルです。
1年前
078.4K
Midjourney Proxy:代理/逆向Midjourney Discord频道,实现AI绘图API调用(免费测试)

Midjourney Proxy: AIマッピングAPIコールのためのMidjourney Discordチャンネルのプロキシ/リバーシング(無料テスト)

包括的な紹介 Midjourney Proxyは、MidjourneyのDiscordチャンネルにAI描画機能をAPI形式に変換するプロキシサービスを提供するために設計されたオープンソースプロジェクトです。このプロジェクトは完全にフリーでオープンソースであり、ワンクリックで顔の入れ替え、画像のブレンド、グラフの生成をサポートします。
2年前
078.2K
Scira(MiniPerplx):模仿Perplexity的开源项目,集成AI对话、网页搜索、天气查询等功能

Scira (MiniPerplx): Perplexityを模倣したオープンソースプロジェクトで、AI対話、ウェブ検索、天気クエリなどを統合している。

概論 MiniPerplx (Sciraに改名) はミニマリストデザインのAI駆動型検索エンジンであり、様々な便利な機能を統合し、ユーザーにあらゆる情報検索サービスを提供する。このプロジェクトでは、Next.js、Tailwi...
1年前
078.1K
FinRobot:提升金融数据分析效率和投资研究的的智能体

FinRobot:金融データ分析の効率化と投資リサーチを向上させる知的ボディ

包括的な紹介 FinRobotはAI4Finance Foundationによって開発されたオープンソースのAIインテリジェンス・プラットフォームであり、金融分析用に設計されている。従来の言語モデルをカバーするだけでなく、様々なAI技術を取り入れ、金融業界に包括的なソリューションを提供することを目指しています。
1年前
078.1K
NarratoAI:文本生成影视解说与自动化剪辑神器

NarratoAI:テキスト生成映画・TVナレーション・自動編集ツール

概論 NarratoAIは、映画やビデオのナレーション、自動編集、吹き替え、字幕生成を統合した完全自動化ツールです。大規模言語モデリング(LLM)技術により、コピーを自動生成し、対応するナレーションと字幕をビデオに自動編集し、ユーザーにワンストップを提供します。
2年前
077.9K
YOLOE:实时视频检测和分割物体的开源工具

YOLOE: リアルタイムのビデオ検出と物体分割のためのオープンソースツール

YOLOEは清華大学ソフトウェア学院のマルチメディア・インテリジェンス・グループ(THU-MIG)が開発したオープンソースプロジェクトで、正式名称は「You Only Look Once Eye」。PyTorchフレームワークをベースにしており、YOLOシリーズの拡張機能に属している。
1年前
077.9K
Open Deep Research:LangChain开源的深度研究智能助手

オープン・ディープ・リサーチ:LangChainのディープ・リサーチ用オープンソース・インテリジェント・アシスタント

包括的な紹介 Open Deep Researchは、あらゆるトピックに関する包括的なリサーチレポートを作成できるウェブベースのリサーチアシスタントです。このシステムでは、時間のかかる調査フェーズに進む前に、レポートの構成を計画し、確認することができる、計画と実行のワークフローを使用しています...
1年前
077.9K
Open Codex:将自然语言转换为Shell命令的开源AI工具

Open Codex: 自然言語をシェルコマンドに変換するオープンソースAIツール

概論 Open CodexはオープンソースのコマンドラインAIツールで、開発者が自然言語命令を正確なシェルコマンドに変換できるように設計されている。ネイティブ言語モデル(例:phi-4-mini)を使用し、ネットワークやAPIキーを必要とせず、すべての操作を...
1年前
077.9K
混元文生视频:生成写实镜头感的高质量视频,腾讯开源视频生成大模型

ハイブリッドVincennesビデオ:高品質のビデオのリアルな映像を生成し、テンセントは、大規模なモデルのオープンソースのビデオ生成

総合紹介 テンセント混元テキスト生成動画(Yuanbao APPで利用可能)は、テンセントが開始したAI技術に基づく動画生成プラットフォームです。このプラットフォームは、強力な分野横断的知識と自然言語理解力を備えた騰訊混合元ビッグモデルを活用し、ユーザーのテキスト記述に基づいて高品質の動画を生成する。
1年前
077.8K
Zola:支持文档上传与多模型的开源AI聊天Web应用

Zola:ドキュメントのアップロードとマルチモデルをサポートするオープンソースのAIチャット・ウェブアプリ

一般的な紹介 Zolaは、開発者のJulien Thibeaut(GitHubユーザー名ibelick)によって開発され、GitHubでホストされているフリーでオープンソースのAIチャットアプリである。最大の特徴は、複数のAIモードをサポートしていることです。
1年前
077.7K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: データクリーニング効率を向上させるセマンティックテキスト重複排除の高速実装

包括的な紹介 SemHashは、意味的類似性によってデータセットの重複を除去するための軽量で柔軟なツールです。Model2Vecの高速な埋め込み生成と、Vicinityの効率的なANN(近似最近傍)類似検索を組み合わせています。
1年前
077.7K
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

フィッシュ・エージェント:エンド・ツー・エンドのAIボイス・クローン・アシスタント、リアルタイム音声対話アシスタント、フィッシュ・スピーチ・スピンオフ・プロジェクト

包括的な紹介 フィッシュ・スピーチ派生プロジェクト フィッシュ・エージェントは、V0.1 3Bモデル・アーキテクチャに基づいて開発された、革命的なエンド・ツー・エンドのAIスピーチ・クローン・システムです。完全なエンド・ツー・エンドの音声クローン処理システムとして、その最大の特徴は、革新的なスピーチレス...
1年前
077.6K
CoAI.Dev (Chat Nio):AI聚合应用 一站式 B/C 端解决方案,支持弹性计费和订阅计划模式

CoAI.Dev(チャットNio):柔軟な課金とサブスクリプションプランモデルに対応したAIアグリゲーションアプリ向けワンストップB/Cソリューション

一般的な紹介 CoAI.Dev(旧Chat Nio)は、複数のAIモデルを統合し、分散ストリーミング、画像生成、クロスデバイス会話の同期と共有をサポートするチャットプラットフォームです。サブスクリプションとトークン課金システム、キートランジットサービス、複数のAIモデルを統合したチャットプラットフォームです。
2年前
077.6K
MoneyPrinterTurbo:输入视频主题一键生成视频文案和高清短视频

MoneyPrinterTurbo:ビデオテーマを入力すると、ワンクリックでビデオコピーと短いHDビデオを生成します。

総合紹介 MoneyPrinterTurboはオープンソースプロジェクトで、先進的なAIビッグモデル技術を利用して、ワンクリックで短いHDビデオを生成する機能を実現します。ユーザーは動画のテーマやキーワードを提供するだけで、システムが自動的に動画コピー、動画クリップ、動画字幕を生成します。
1年前
077.5K
WeClone:用微信聊天记录和语音训练数字分身

WeClone:WeChatのチャットログと音声を使ったデジタル・ドッペルゲンガーの育成

総合的な紹介 WeCloneは、WeChatのチャット記録と音声メッセージを、大規模な言語モデルと音声合成技術と組み合わせて使用するオープンソースプロジェクトであり、ユーザーはパーソナライズされたデジタル・ドッペルゲンガーを作成することができます。このプロジェクトは、ユーザーのチャットの習慣を分析してモデルを訓練するだけでなく、少数の音声サンプルを使ってリアルな音声を生成することができます。
1年前
077.5K
Muyan-TTS:个性化播客语音训练与合成

Muyan-TTS:パーソナライズされたポッドキャストの音声トレーニングと合成

Synthesis Muyan-TTSは、ポッドキャスティングシナリオ用に設計されたオープンソースのテキスト音声合成(TTS)モデルです。100,000時間以上のポッドキャストオーディオデータで事前にトレーニングされており、ゼロサンプル音声合成をサポートし、高品質の自然な音声を生成します。このモデルはLlama-3.2-3...をベースにしています。
1年前
077.5K
promptfoo:提供安全可靠的LLM应用测试工具

プロンプトフー:安全で信頼性の高いLLMアプリケーションテストツールの提供

包括的な紹介 promptfooは、大規模言語モデル(LLM)アプリケーションの評価とレッドチームテストに特化したオープンソースのコマンドラインツールおよびライブラリです。信頼性の高いプロンプト、モデル、検索ベースの生成(RAG)を構築するためのツール一式を開発者に提供します。
1年前
077.5K
Second Me:本地训练拥有个人记忆和习惯的AI分身

セカンド・ミー:個人的な記憶と習慣を持つ、現地で訓練されたAIドッペルゲンガー

Second MeはMindverseチームによって開発されたオープンソースプロジェクトで、あなたのコンピューター上に「デジタル・ドッペルゲンガー」のような働きをするAIを作り、あなたの言葉や記憶を通してあなたの話し方や癖を学習し、あなたのことを理解する賢い人間になることができる。
1年前
077.4K
Kokoro:高效语音合成模型,生成自然流畅的语音

こころ:自然で滑らかな音声を生成する効率的な音声合成モデル

一般的な紹介 ココロ82MはHugging Faceが提供する効率的な音声合成モデルで、より少ないパラメータとデータで高品質な音声を生成するように設計されています。このモデルは8,200万個のパラメータを持ち、Apache 2.0の下でライセンスされています。
1年前
077.3K
Kotaemon:简单部署的开源多模态文档问答工具

Kotaemon: 簡単に導入できるオープンソースのマルチモーダル文書クイズツール

一般的な紹介 Kotaemonは、RAG(Retrieval Augmented Generation)に基づいたQ&A機能をエンドユーザーや開発者に提供するために設計されたオープンソースのドキュメントQ&Aツールです。このプロジェクトはCinnamonによって開発され、様々なLLM APIプロバイダー(例えばOpenA...
2年前
077.3K
YTSage:YouTube下载器,免费下载YouTube视频,提取音频,获取字幕

YTSage: YouTubeダウンローダー、YouTubeビデオを無料ダウンロード、音声抽出、字幕取得

概要 YTSageは、クリーンなPyQt6インターフェイスを備えたモダンなYouTubeダウンロードツールです。ユーザーはYTSageを使って、あらゆる画質の動画をダウンロードし、音声を抽出し、字幕を取得し(自動生成字幕を含む)、動画のメタ情報を表示することができます。
1年前
077.2K
Activepieces:AI工作流程自动化,适合非技术用户的任务编排工具,开源Zapier替代品

Activepieces:AIワークフロー自動化、非技術者向けタスクスケジューリングツール、Zapier代替オープンソース

概要 Activepiecesは、企業や個人ユーザーに直感的で強力な自動化ソリューションを提供することに焦点を当てた、オープンソースのオールインワン自動化ワークフロープラットフォームです。TypeScriptで開発されたこのプラットフォームは非常にスケーラブルで、200以上の統合サービスをサポートしています。
1年前
077.2K
DiffSynth-Engine:低现存部署FLUX、Wan2.1的开源引擎

DiffSynth-Engine:オープンソースエンジン、FLUXの低既存デプロイメント用、Wan 2.1

一般的な紹介 DiffSynth-EngineはModelScopeによって立ち上げられたオープンソースプロジェクトで、GitHubでホストされています。拡散モデリング技術に基づいており、画像や動画を効率的に生成することに重点を置き、開発者が本番環境でAIモデルを展開するのに適しています...
1年前
077.1K
ChatFree(ChatAnywhere-2):使用GPT API创建的本地Copilot,支持任意窗口中补全对话

ChatFree (ChatAnywhere-2): GPT APIを使用して作成されたネイティブのコパイロットで、どのウィンドウでもダイアログを完了できます。

概要 ChatFreeは、ユーザーのAIアプリをブラウザの制約から解放し、ローカルで実行することを目的としたオープンソースプロジェクトです。GPTAPIを使用して作成されたCopilotは、Office、Word、WPSなどの幅広いオフィスソフトウェアをサポートするように設計されています。このプロジェクトは...
2年前
077.1K
Trackers:用于视频对象跟踪的开源工具库

Trackers: ビデオオブジェクト追跡のためのオープンソースツールライブラリ

一般的な紹介 Trackersは、映像内の複数オブジェクトのトラッキングに特化したオープンソースのPythonツールライブラリです。SORTやDeepSORTのようないくつかの主要なトラッキングアルゴリズムを統合しており、ユーザーは異なるオブジェクト検出モデル(YOLO...
1年前
077K
DeOldify:使用AI技术为黑白照片和视频上色的经典开源工具

DeOldify:モノクロ写真やビデオをAI技術でカラー化する定番のオープンソースツール

包括的な紹介 DeOldifyは、白黒写真やビデオのインテリジェントな着色と復元に特化した、ディープラーニング技術に基づくオープンソースプロジェクトです。このプロジェクトは、革新的なNoGAN学習方法を用いて、画像の着色プロセスにおける従来のGANネットワークの一般的な欠点を解決することに成功しています...
1年前
077K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni:マルチモーダル入力とリアルタイム音声対話のためのエンド計測モデル

包括的な紹介 Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、リアルタイムでテキストや自然な音声による応答を生成することができる。このモデルは2025年の3 ...
1年前
077K
AnkiAIUtils:メモリーカードを自動的に最適化する知的アシスタント、Ankiフラッシュカード学習AIツールセット

AnkiAIUtils:メモリーカードを自動的に最適化する知的アシスタント、Ankiフラッシュカード学習AIツールセット

概要説明 AnkiAIUtilsは、フラッシュカード学習システムAnkiのために設計されたAI強化ツールのセットです。医学生によって開発されたこのツールは、AI技術により、学習中にユーザーが苦手とするカードを自動的に改善するように設計されています。ユーザーにパーソナライズされた学習をインテリジェントに提供します。
1年前
076.7K
99AI:集成多模态AI服务的商业化Web应用(免费开源)

99AI:マルチモーダルAIサービスを統合した商用ウェブアプリケーション(無料オープンソース)

包括的な紹介 99AIはオープンソースのAIウェブアプリケーションプロジェクトで、導入が容易で敷居の低い統合AIサービスプラットフォームを提供することを目的としています。このプロジェクトは、インテリジェントな対話、マルチモーダルモデル、アプリケーションプラザ、ネットワーク検索をサポートし、AI絵画、音楽、ビデオを統合します。
2年前
076.7K
MoneyPrinterPlus:一键生成短视频的AI工具,免费批量混剪

MoneyPrinterPlus:ワンクリックで短い動画を作成するAIツール、無料のバッチミキシング

総合紹介 MoneyPrinterPlusは、AI技術によって、ワンクリックであらゆる種類の短い動画を生成・ミックスし、Jieyin、Shutterbugs、Xiaohongshu、Video Numberなどの複数の動画プラットフォームに自動的に公開することを目的としたオープンソースプロジェクトです。このツールは、ローカルおよびクラウドベースの音声モデルをサポートしており、チャット...
2年前
076.6K
NVIDIA Garak:检测LLM漏洞的开源工具,确保生成式AI的安全性

NVIDIA Garak:LLMの脆弱性を検出し、安全な生成AIを実現するオープンソースツール

包括的な紹介 NVIDIA Garakは、大規模言語モデル(LLM)の脆弱性を検出するために特別に設計されたオープンソースツールです。静的、動的、適応的なプロービングを通して、イリュージョン、データリーク、ヒントインジェクション、エラーメッセージ生成、有害コンテンツ生成などの複数の弱点がないかモデルをチェックします。
2年前
076.4K
Kolors:生成高质量图像的文本到图像模型,支持生成中文海报

Kolors: 高品質画像生成のためのテキスト画像変換モデル、中国語ポスター生成もサポート

包括的な紹介 Kolorsは、Racerチームによって開発された、ポテンシャル拡散技術に基づく大規模なテキスト画像生成モデルです。このモデルは、数十億のテキスト-画像データのペアで学習され、中国語と英語の両方の入力をサポートし、高品質で複雑な意味的に正確な画像を生成することができます。
1年前
076.4K
Screenshot to Code:将截图转换为干净前端代码的AI工具

スクリーンショットをコードに:スクリーンショットをクリーンなフロントエンドコードに変換するAIツール

概要 Screenshot-to-Codeは、人工知能を使用してスクリーンショット、デザインドラフト、Figmaデザインをクリーンで機能的なコードに変換するオープンソースツールです。このツールは、HTML、Tailwind CS...など、複数のフロントエンド技術スタックをサポートしています。
2年前
076.4K
Baichuan-Audio:支持实时语音交互的端到端音频模型

Baichuan-Audio: リアルタイムの音声対話をサポートするエンドツーエンドのオーディオモデル

包括的な紹介 Baichuan-AudioはBaichuan Intelligence (baichuan-inc)によって開発されたオープンソースプロジェクトで、GitHubでホストされており、エンドツーエンドの音声対話技術に焦点を当てています。このプロジェクトは、完全な音声処理フレームワークを提供し、音声...
1年前
076.3K
DreamTalk:使用一张头像图片即可生成表情丰富的说话视频

DreamTalk:1枚のアバター画像で表情豊かなトーキングビデオを生成!

DreamTalk総合紹介 DreamTalkは清華大学、アリババグループ、華中科技大学が共同開発した拡散モデル駆動型表情トーキングヘッド生成フレームワークです。主に、ノイズ除去ネットワーク、スタイル認識リップエキスパート、スタイル予測器の3つの部分から構成されており、ノイズ除去ネットワーク、スタイル認識リップエキスパート、スタイル予測器は、...
1年前
076.3K
SadTalker:让照片说话|嘴型同步音频|合成口型同步视频|免费数字人

SadTalker: 写真にしゃべらせる|口パク音声|合成口パク動画|無料デジタルピープル

概要 SadTalkerは、1枚の静止ポートレート写真と音声ファイルを組み合わせて、パーソナライズされたメッセージや教育コンテンツなど、幅広いシナリオに対応するリアルなトーキングアバター動画を作成するオープンソースツールです。ExpNetやPoseVAなどの3Dモデリング技術の革命的な使用...
1年前
076.3K
LangBot:开源大模型即时通信机器人,支持多微信、QQ、飞书等多平台部署AI机器人

LangBot:オープンソースの大型モデルインスタントメッセージングロボット、複数のWeChat、QQ、Flybookと他のマルチプラットフォームのAIロボットの展開をサポートしています。

LangBotは、複数のメッセージングプラットフォームと大型モデルをサポートする大型モデルベースのインスタントメッセージングボットプラットフォームです。このプラットフォームはQQ、WeChat(企業WeChat、個人WeChat)、Flybook、Discord、OneBotなどのメッセージングプラットフォームに適応し、Open...
1年前
076.1K
Dify-Plus:为Dify开发的企业内部管理后台

Dify-Plus:Difyのオンプレミス管理バックエンド

包括的な紹介 Dify-Plusは、Difyオープンソースプロジェクトの二次開発をベースにしたAIアプリケーション開発プラットフォームです。Dify-Plusは、Difyをベースに新しい管理センターを追加し、エンタープライズシナリオ向けに機能を最適化しています。このプロジェクトは、当初は企業の内部利用を目的としていましたが、後にコミュニティにも同様のニーズがあることがわかり、Dify-Plusを開発しました。
1年前
075.7K
CFG-Zero-star:提升图像和视频生成质量的开源工具

CFG-Zero-star:画像とビデオの生成品質を向上させるオープンソースツール

包括的な紹介 CFG-Zero-starは、Weichen Fanと南洋理工大学のS-Labチームによって開発されたオープンソースプロジェクトです。誘導戦略とゼロ初期値を最適化することで、ストリーム・マッチング・モデルにおけるクラシファイア・フリー・ガイダンス(CFG)技術を改善することに焦点を当てています。
1年前
075.6K
Vercel AI SDK:使用流行前端框架构建AI驱动应用程序

Vercel AI SDK:人気のフロントエンドフレームワークでAI搭載アプリケーションを構築する

概論 Vercel AI SDKは、React、Svelte、Vue、Solidなどのフレームワークを使用してAIアプリケーションを構築する開発者を支援するために、Vercelチームによって開発されたオープンソースツールです。複数の言語モデルプロバイダをサポートしています。
1年前
075.5K
推荐Github优秀开源下载工具

推奨されるGithubの優れたオープンソース・ダウンロードツール

今日のインターネットの急速な発展において、ユーザーが情報やリソースを入手するための重要な手段として、ダウンロードツールは欠かすことのできない役割を果たしている。この記事では、5つのオープンソース・ダウンロードツールを系統的に分析する:AB Download Manager、XDM(Xtreme Download ...
2年前
075.4K
OpenAOE:大模型群聊框架:同时与多个大语言模型聊天

OpenAOE: 大規模モデルグループチャットフレームワーク: 複数の大規模言語モデルと同時にチャットする

包括的な紹介 OpenAOEは、オープンソースの大規模モデルグループチャットフレームワークです。OpenAOEを使えば、ユーザーは複数の大規模言語モデル(LLM)と同時に会話し、並列出力を得ることができます。このフレームワークは...
1年前
075.4K
PocketFlow:100行代码实现AI应用开发的极简框架

PocketFlow:100行のコードでAIアプリケーションを開発するための最小限のフレームワーク

総合紹介 PocketFlowは、The-Pocketチームによって開発され、GitHub上でオープンソース化された、わずか100行のコードからなる軽量なAIアプリケーション開発フレームワークです。ミニマリストデザインを追求し、100行のコアコード制御、外部依存なし...
1年前
075.4K
Research Rabbit:使用本地LLM进行网页研究和报告撰写,自动深入用户指定主题并生成总结。

リサーチラビット:ネイティブのLLMを使用し、ユーザーが指定したトピックに自動的にドリルダウンし、サマリーを生成するWebリサーチとレポート作成。

はじめに Research Rabbitは、LLM(Large Language Model)ベースのウェブリサーチおよび要約アシスタントです。ユーザがリサーチトピックを提供すると、Research Rabbitは検索クエリを生成し、関連するウェブ結果を取得し、これらの結果を要約します...
1年前
075.3K
ACE++:用文本指令精准对图像局部编辑的多功能开源工具

ACE++: テキストコマンドによる画像の正確なローカル編集を可能にする多機能なオープンソースツール

包括的な紹介 ACE++は、Alibaba Tongyi Lab (Tongyi Lab)のali-vilabチームによって開発されたオープンソースプロジェクトです。FLUX.1-Fill-devモデルに基づいており、簡単なテキストコマンドで画像生成とコンパイルを実現することを目指しています...
1年前
075.1K
Oliva:语音控制的多智能体产品搜索助手

Oliva:音声制御のマルチインテリジェンス製品検索アシスタント

概要 OlivaはDeluxerがGitHubで開発したオープンソースのマルチインテリジェンスアシスタントツールです。複数のAIインテリジェンスの連携により、Qdrantデータベースの商品情報検索を支援します。主な特徴は、音声操作に対応していることです...
1年前
075.1K
Vanna:利用RAG技术将文本生成精准SQL查询

Vanna: RAG技術を使ったテキストからの正確なSQLクエリの生成

包括的な紹介 VannaはMITライセンスのオープンソースPythonフレームワークで、RAG(Retrieval Augmented Generation)技術を使ってSQLクエリを生成することに重点を置いている。ユーザはRAGモデルを訓練し、自分のデータに適用し、質問をすると、Vannaは適切なSQLクエリを返す。
1年前
075.1K
MegaTTS3:合成中英文语音的轻量模型

MegaTTS3:中国語音声と英語音声を合成する軽量モデル

包括的な紹介 MegaTTS3は、ByteDanceが浙江大学と共同で開発したオープンソースの音声合成ツールで、高品質な中国語と英語の音声を生成することに重点を置いています。MegaTTS3のコアモデルは、わずか0.45Bパラメータで、軽量かつ効率的です。このプロジェクトは ...
1年前
075K
AI ContentCraft:生成短故事、对话脚本、配音、配图的多功能AI内容创作工具

AI ContentCraft:ショートストーリー、ダイアログスクリプト、ナレーション、グラフィックを生成するための多機能AIコンテンツ作成ツール

概要 AI ContentCraftは、テキスト生成、音声合成、画像生成などを統合した多機能なコンテンツ作成ツールです。ストーリー、ポッドキャストスクリプト、付随するオーディオやビデオコンテンツを素早く生成することができます。このツールは複数の言語変換をサポートし、バッチ処理も可能です。
1年前
074.9K
MangaNinjia:自动化线稿上色工具,为动漫黑白线稿快速填色

MangaNinjia:アニメのモノクロ線画に素早く色をつける自動線画着色ツール。

総合紹介 MangaNinjiaはAlibaba Tongyi Visual Intelligence Lab (Ali-Vilab)によって開発されたオープンソースプロジェクトで、線画のカラーリングの自動処理に焦点を当てています。このツールは、ディープラーニング技術によって参照画像の正確なカラーマッチングを実現し、線画の色付けを大幅に改善します。
1年前
074.9K
Neural4D:生成高分辨率3D建模数字资产的AI平台

Neural4D:高解像度3Dモデリングデジタル資産を生成するAIプラットフォーム

概論 Neural4Dは、ユーザーが簡単なテキストや画像を入力するだけで、高品質な3Dモデルやアニメーションを素早く生成できるよう支援することに重点を置いた、AIベースの革新的なプラットフォームです。DreamTech社によって開発されたこのプラットフォームは、世界をリードするエンドツーエンドの大規模3Dモデル生成技術に依存しています。
1年前
074.7K
Memary:利用知识图谱增强Agent长期记忆的开源项目

Memary:知識グラフを使ってエージェントの長期記憶を強化するオープンソースプロジェクト

概要 Memaryは、自律型知能に長期的なメモリ管理ソリューションを提供することに焦点を当てた、革新的なオープンソースプロジェクトです。このプロジェクトは、インテリジェンスが従来のコンテキストウィンドウの限界を突破し、知識グラフと特殊化されたメモリモジュールを通じて、よりスマートなインタラクション体験を実現できるよう支援する。
1年前
074.7K
PhotoDoodle:文字指令为照片添加艺术涂鸦的AI工具

PhotoDoodle: テキストコマンドで写真にアーティスティックな落書きができるAIツール

概要 PhotoDoodleは、ShowLabによって開発されたオープンソースの画像編集ツールで、人工知能技術による写真の芸術的な編集に焦点を当てています。ユーザーは、簡単なテキストプロンプトを入力するだけで、実際の写真に漫画スタイル、3D効果、光を追加することができます...
1年前
074.6K
AI Chatbot Supabase:开源的Next.js和Supabase构建的AI聊天机器人,快速部署到Vercel。

AIチャットボット Supabase: オープンソースのNext.jsとSupabaseで構築されたAIチャットボットをVercelに迅速に導入。

概要 AIチャットボット Supabaseは、Next.jsとSupabaseで構築されたオープンソースのAIチャットボットテンプレートです。Vercelによって開発されたこのプロジェクトは、完全に機能的でカスタマイズ可能なチャットボットソリューションを提供することを目的としています。...
2年前
074.5K
uni-api:轻量大模型API转换为OpenAI接口,YAML文件配置API渠道

uni-api: 軽量なビッグモデルAPIをOpenAIインターフェイスに変換。

包括的な導入フロントエンドなし、純粋な設定ファイルの設定APIチャネル。ただ、自分のAPIステーションを実行することができますファイルを書いて、ドキュメントには、詳細な設定ガイドを持っている、白フレンドリー。 uni-apiは、統一されたAPIプロジェクトを可能にする大規模なモデルの統一管理です。
2年前
074.5K
AnyText:生成和编辑多语言图像文本,高可控在图像中生成多行中文

AnyText:多言語の画像テキストを生成・編集し、画像内に複数行の中国語を生成することができます。

総合紹介 AnyTextは、拡散モデルに基づいて開発された画期的な多言語ビジュアルテキスト生成・編集ツールです。画像の中に自然で高品質な多言語テキストを生成し、柔軟なテキスト編集機能をサポートします。研究チームによって開発され、ICLR 2024で発表されました。
1年前
074.5K
Genesis:开源生成式物理引擎,实现基于真实物理的4D动态世界模拟

Genesis: 実物理ベースの4Dダイナミックワールドシミュレーションのためのオープンソース生成物理エンジン

一般的な紹介 Genesisは、汎用ロボティクスと具現化AI学習のために設計された生成物理ワールドです。Genesisは、様々な材料や物理現象のシミュレーションをサポートする統一されたシミュレーション・プラットフォームを提供します。
1年前
074.4K
MiMo:高效数学推理与代码生成的小型开源模型

MiMo: 効率的な数学的推論とコード生成のための小さなオープンソースモデル

一般的な紹介 MiMoはXiaomiによって開発されたオープンソースの大規模言語モデリングプロジェクトであり、数学的推論とコード生成に焦点を当てている。コアプロダクトはMiMo-7Bファミリーのモデルで、ベースモデル(Base)、教師あり微調整モデル(SFT)、ベースモデルから学習された強力な化学モデル(Strong Chemical)を含んでいます。
1年前
074.3K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS:実際の人の話し声を模倣した音声生成モデル(ChatTTSワンクリックアクセラレーションパッケージ)

一般的な紹介 ChatTTSは対話シナリオ用に設計された生成音声モデルです。自然で表現力豊かな音声を生成し、多言語、複数話者をサポートし、対話型ダイアログに適しています。このモデルは、笑い、ポーズ、間投詞のようなきめ細かなリズムの特徴を予測し、制御することで、対話に適した音声を生成します。
1年前
074.2K
Open Canvas:代码编辑协作画布,开源版OpenAI Canvas/Claude Artifacts

Open Canvas: コード編集が可能なコラボレーション・キャンバス、OpenAI Canvasのオープンソース版/Claude Artifacts

LangChainは、デュアルエージェントメモリ機能を内蔵し、完全な実行の詳細を観察するために統合されたスミスを使用して、ドキュメントの編集とコラボレーション体験を強化するために設計されたオープンソースのWebアプリケーション、Open Canvasを紹介します。このプラットフォームはOpenA...
1年前
074.2K
Easy Dataset:创建大模型微调数据集的简易工具

Easy Dataset: 大規模モデルの微調整データセットを作成するシンプルなツール

包括的な紹介 Easy Datasetは、大規模モデル(LLM)を微調整するために特別に設計されたオープンソースツールで、GitHubでホストされています。ファイルのアップロード、コンテンツの自動セグメント化、質問と回答の生成、そして最終的に適切なLLMの出力を可能にする、使いやすいインターフェースを提供します。
1年前
074.2K
闲鱼卖家全天自动值守的AI客服机器人

アイドル・フィッシュの販売員が24時間体制で自動対応するAIカスタマーサービスボット

包括的な紹介 XianyuAutoAgentは、GitHubで開発者shaxiuによってオープンソース化されたIdlefishプラットフォーム用に設計されたインテリジェントな顧客サービスロボットシステムです。AI技術を利用し、7×24時間の自動勤務を実現し、アイドルフィッシュ販売者の返信を支援する。
1年前
074.1K