AIパーソナル・ラーニング
と実践的なガイダンス
サイバーナイフ用ドローイングミラー
合計910記事

タグ: AIのオープンソースプロジェクト 44ページ

Clone Voice:支持多语言的少样本声音克隆工具,基于xtts_v2提供Windows一键安装包-首席AI分享圈

クローンボイス:Windows用のxtts_v2をベースにした多言語、サンプルレス音声クローンツール。

一般的な説明 Clone Voiceはオープンソースのサウンドクローニングツールで、ウェブベースのインターフェイスを提供し、ユーザーが任意のサウンドや個人的な声の録音を使用して声のクローンを作成することができます。このツールは使い方が簡単で、NVIDIA GPUがなくてもコンパイル済みのアプリケーションでローカルに実行できます。このツールは...

StreamingT2V:从文本到长视频的动态且可扩展的生成技术-首席AI分享圈

StreamingT2V: テキストから長尺ビデオへのダイナミックでスケーラブルな生成

一般的な紹介 StreamingT2Vは、Picsart AI研究チームによって開発された公開プロジェクトで、テキストの説明文に基づいて、一貫性があり、ダイナミックでスケーラブルな長尺動画を生成することに重点を置いている。この技術は、動画の時間的一貫性を保証し、説明テキストに密接に対応し、高いフレーム品質を維持する高度な自己回帰的アプローチを使用しています...

Text2Video-Zero:Picsart AI Research团队发布的文本到视频零样本生成器-首席AI分享圈

Text2Video-Zero: Picsart AI研究チームによるテキストからビデオへのゼロサンプル生成ツールがリリースされました。

一般的な紹介 Text2Video-Zeroは、Picsart AI Researchチームによって開発されたGitHub用のサンプル数ゼロのテキストtoビデオジェネレータの公式実装です。このプロジェクトは、時間的一貫性と正しく従ったテキストキューを持つビデオを生成するためにテキストキューを使用する新しい方法を提供します。同チームはまた、...

Retrieval based Voice Conversion WebUI:基于检索的语音转换框架|模拟真人歌声-首席AI分享圈

検索ベースの音声変換WebUI:検索ベースの音声変換フレームワーク|実際の歌声をシミュレートする

包括的な導入検索ベースの音声変換WebUIは、シンプルで使いやすいVITSベースの音声変換フレームワークであり、曲のカバーやリアルタイムの音声変更を含む、任意のスピーカー間の音声変換を可能にします。低遅延、優れたボイスチェンジ効果、少量のデータトレーニングが特徴です。

VoiceCraft:开源零样本语音克隆与文本转语音工具-首席AI分享圈

VoiceCraft: オープンソース ゼロサンプル音声クローニング・音声合成ツール

包括的な紹介 VoiceCraftは、Neural Codec言語モデルをベースとしたオープンソースの音声編集・ゼロサンプル音声合成ツールです。革新的な符号シーケンス生成方法を採用しており、既存の音声シーケンスに対して挿入、削除、置換操作を行うことで、自然で首尾一貫した編集音声を生成することができます。同時に、...

edge-tts: 音声合成Pythonモジュール|無料音声合成サービス

概要 edge-tsは、Microsoft Edgeのオンライン音声合成サービスを、Microsoft Edgeブラウザ、Windowsオペレーティングシステム、APIキーを必要とせずにPythonコードで使用できるようにするオープンソースのPythonモジュールです。コマンドラインからのedge-ttsの直接使用とedge-...

CoAI.Dev (Chat Nio):AI聚合应用 一站式 B/C 端解决方案,支持弹性计费和订阅计划模式-首席AI分享圈

CoAI.Dev(チャットNio):柔軟な課金とサブスクリプションプランモデルに対応したAIアグリゲーションアプリ向けワンストップB/Cソリューション

概要 CoAI.Dev(旧Chat Nio)は、複数のAIモデルを統合し、分散ストリーミング、画像生成、クロスデバイスの会話同期と共有をサポートするチャットプラットフォームです。サブスクリプションとトークン課金システム、キートランジットサービス、マルチモデルサポートを実装し、コネクテッドサーチとAI...

ChatOllama:基于Nuxt 3和Ollama的本地实时聊天应用UI-首席AI分享圈

ChatOllama: Nuxt 3とOllamaをベースにしたローカルリアルタイムチャットアプリケーションUI

包括的な紹介 ChatOllamaは、大規模言語モデル(LLM)に基づいたオープンソースのオンラインチャットアプリケーションプロジェクトです。ユーザは、モデル管理(リスト表示、ダウンロード、削除)、モデルとのチャットやその他の機能のためにプラットフォームを使用することができます。このプロジェクトは、Nuxt 3フレームワークを使用しています。

MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描-首席AI分享圈

MinerU: PDFドキュメントの抽出とマルチモーダルMarkdownフォーマットへの変換、電子書籍OCRスキャンのサポート

包括的な紹介 MinerUは、上海人工知能研究所のOpenDataLabチームによって開発されたオープンソースのデータ抽出ツールで、複雑なPDF文書、ウェブページ、電子ブックからコンテンツを効率的に抽出することに重点を置いています。画像、数式、表、その他の要素を含むマルチモーダルPDFドキュメントを、分析しやすいm...

DCT-Net:照片和视频转绘为动漫风格化的开源工具-首席AI分享圈

DCT-Net:写真やビデオをスタイリッシュなアニメに変換するオープンソースツール

包括的な紹介 DCT-Netは、DAMOアカデミーと北京大学王宣コンピューター技術研究所によって開発されたオープンソースプロジェクトで、画像のアニメ定型変換を目指している。このプロジェクトは、DCT(Domain-Calibrated Translation)によるディープラーニング技術を利用し、...

Diffusers Image Outpaint:超强开源AI图像扩展工具,图像外绘(image outpainting)-首席AI分享圈

ディフューザー画像アウトペイント:超強力なオープンソースAI画像拡張ツール、画像アウトペイント(outpainting)

一般的な紹介 Diffusers Image Outpaintは、Hugging Faceコミュニティメンバーのfffiloniによって作成された強力なAI画像拡張ツールです。このツールは、高度な拡散モデリング技術を使用して、画像をシームレスに拡張(画像のエッジをアウトペイント)し、高品質な画像を作成します...

Tap4 AI WebUI:开源轻量级AI工具导航项目-首席AI分享圈

Tap4 AI WebUI:オープンソースの軽量AIツール・ナビゲーション・プロジェクト

包括的な紹介 Tap4 AI WebUIは、オープンソースの軽量AIツールナビゲーションウェブサイトプロジェクトです。このプロジェクトは、Next.jsとSupabase技術スタックを使用し、多言語SEO最適化をサポートし、AIツールの分類フィルタリング、検索、詳細表示機能を提供します。

CodeFormer:图像与视频面部复原,老照片修复,提供一键部署版-首席AI分享圈

CodeFormer: 画像とビデオの顔復元、古い写真の復元、ワンクリック展開版を提供

CodeFormer 概要 CodeFormerは、南洋理工大学S-Labの研究チームによって開発され、NeurIPS 2022で発表された、頑健なブラインド顔修正のためのコードベースである。このプロジェクトは、コードブック・ルックアップ・トランスフォーマー(Codebook Lookup Transformer)技術を利用し、...

GFPGAN:腾讯开源的人脸修复算法-首席AI分享圈

GFPGAN:テンセントのオープンソース顔修復アルゴリズム

包括的な紹介 GFPGAN (Generative Facial Prior GAN) は、Tencent ARC (Applied Research Center) によって開発されたオープンソースの顔修復アルゴリズムです。このアルゴリズムは、事前に訓練された顔GAN(StyleGAN2など)にカプセル化された豊富で多様な事前要素を利用して、ブラインド顔修復を行う。

Curiosity:使用LangGraph构建类似 Perplexity 的AI搜索工具-首席AI分享圈

好奇心:LangGraphを使ったパープレクシティのようなAI検索ツールの構築

一般的な紹介 Curiosityは、主にLangGraphとFastHTMLの技術スタックを使用し、PerplexityのようなAI検索製品を構築することを目標に、探求と実験を目的としたプロジェクトです。プロジェクトの中心は、Tavily検索を使ってテキスト生成を強化するシンプルなReActエージェントです。

Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型-首席AI分享圈

Moshi: 複数言語とアクセントをサポートするリアルタイム音声対話フレームワーク。

総合紹介 Moshi Chatは、フランスの非営利AI研究所Kyutaiが立ち上げたエンドツーエンドのリアルタイムAI音声アシスタントです。リアルタイムで話を聞くだけでなく、自然な会話に参加し、見る、聞く、話すといったマルチモーダルなインタラクションをサポートします。Moshi Chatはユーザーのイントネーションを理解し、...

QAnything:高度集成RAG处理流程的本地知识库问答系统-首席AI分享圈

QAnything: RAG処理フローを高度に統合したローカル知識ベースQ&Aシステム

QAnything 概要 QAnything(Question and Answer based on Anything)は、NetEaseが発表したローカルナレッジベースQ&Aシステムで、あらゆる種類のファイル形式とデータベースをサポートし、オフラインでインストールして使用することができます。QAnythingはPDF、Word、PPT、XLSやその他の形式のドキュメントを扱うことができ、クロス検索をサポートしています。

StickerBaker:用AI制作个性贴纸图片-首席AI分享圈

ステッカーベイカー:AIでパーソナライズされたステッカー画像を作る

概要 stickerbakerは、人工知能技術を使って様々な面白いステッカーを作成するオープンソースのステッカーメーカーです。シンプルな猫のステッカーが欲しい人も、様々な種類のステッカーを作りたい人も、stickerbakerにお任せください。欲しいステッカーを記述するだけです...

ALog:便携AI语音日记应用,支持语音转文字。-首席AI分享圈

ALog:音声読み上げ機能付きの携帯型AI音声日記アプリ。

一般的な紹介 ALogはAIベースの音声日記アプリケーションで、ユーザーが音声で日常生活を記録できるように設計されています。duxinsによって開発され、GitHubでオープンソース化されています。ユーザーは音声入力で日記を記録することができ、アプリは自動的に音声をテキストに変換し、インテリジェントに分析します...

ja日本語