
クローンボイス:Windows用のxtts_v2をベースにした多言語、サンプルレス音声クローンツール。
一般的な説明 Clone Voiceはオープンソースのサウンドクローニングツールで、ウェブベースのインターフェイスを提供し、ユーザーが任意のサウンドや個人的な声の録音を使用して声のクローンを作成することができます。このツールは使い方が簡単で、NVIDIA GPUがなくてもコンパイル済みのアプリケーションでローカルに実行できます。このツールは...
一般的な説明 Clone Voiceはオープンソースのサウンドクローニングツールで、ウェブベースのインターフェイスを提供し、ユーザーが任意のサウンドや個人的な声の録音を使用して声のクローンを作成することができます。このツールは使い方が簡単で、NVIDIA GPUがなくてもコンパイル済みのアプリケーションでローカルに実行できます。このツールは...
一般的な紹介 StreamingT2Vは、Picsart AI研究チームによって開発された公開プロジェクトで、テキストの説明文に基づいて、一貫性があり、ダイナミックでスケーラブルな長尺動画を生成することに重点を置いている。この技術は、動画の時間的一貫性を保証し、説明テキストに密接に対応し、高いフレーム品質を維持する高度な自己回帰的アプローチを使用しています...
ビルダーインテリジェントプログラミングモード、DeepSeek-R1とDeepSeek-V3の無制限の使用、海外版よりも滑らかな経験を有効にします。ただ、中国語のコマンドを入力し、プログラミングの知識はまた、独自のアプリケーションを書くためにゼロしきい値をすることはできません。
一般的な紹介 Text2Video-Zeroは、Picsart AI Researchチームによって開発されたGitHub用のサンプル数ゼロのテキストtoビデオジェネレータの公式実装です。このプロジェクトは、時間的一貫性と正しく従ったテキストキューを持つビデオを生成するためにテキストキューを使用する新しい方法を提供します。同チームはまた、...
包括的な導入検索ベースの音声変換WebUIは、シンプルで使いやすいVITSベースの音声変換フレームワークであり、曲のカバーやリアルタイムの音声変更を含む、任意のスピーカー間の音声変換を可能にします。低遅延、優れたボイスチェンジ効果、少量のデータトレーニングが特徴です。
包括的な紹介 VoiceCraftは、Neural Codec言語モデルをベースとしたオープンソースの音声編集・ゼロサンプル音声合成ツールです。革新的な符号シーケンス生成方法を採用しており、既存の音声シーケンスに対して挿入、削除、置換操作を行うことで、自然で首尾一貫した編集音声を生成することができます。同時に、...
概要 edge-tsは、Microsoft Edgeのオンライン音声合成サービスを、Microsoft Edgeブラウザ、Windowsオペレーティングシステム、APIキーを必要とせずにPythonコードで使用できるようにするオープンソースのPythonモジュールです。コマンドラインからのedge-ttsの直接使用とedge-...
概要 CoAI.Dev(旧Chat Nio)は、複数のAIモデルを統合し、分散ストリーミング、画像生成、クロスデバイスの会話同期と共有をサポートするチャットプラットフォームです。サブスクリプションとトークン課金システム、キートランジットサービス、マルチモデルサポートを実装し、コネクテッドサーチとAI...
包括的な紹介 ChatOllamaは、大規模言語モデル(LLM)に基づいたオープンソースのオンラインチャットアプリケーションプロジェクトです。ユーザは、モデル管理(リスト表示、ダウンロード、削除)、モデルとのチャットやその他の機能のためにプラットフォームを使用することができます。このプロジェクトは、Nuxt 3フレームワークを使用しています。
包括的な紹介 MinerUは、上海人工知能研究所のOpenDataLabチームによって開発されたオープンソースのデータ抽出ツールで、複雑なPDF文書、ウェブページ、電子ブックからコンテンツを効率的に抽出することに重点を置いています。画像、数式、表、その他の要素を含むマルチモーダルPDFドキュメントを、分析しやすいm...
包括的な紹介 DCT-Netは、DAMOアカデミーと北京大学王宣コンピューター技術研究所によって開発されたオープンソースプロジェクトで、画像のアニメ定型変換を目指している。このプロジェクトは、DCT(Domain-Calibrated Translation)によるディープラーニング技術を利用し、...
一般的な紹介 Diffusers Image Outpaintは、Hugging Faceコミュニティメンバーのfffiloniによって作成された強力なAI画像拡張ツールです。このツールは、高度な拡散モデリング技術を使用して、画像をシームレスに拡張(画像のエッジをアウトペイント)し、高品質な画像を作成します...
包括的な紹介 Tap4 AI WebUIは、オープンソースの軽量AIツールナビゲーションウェブサイトプロジェクトです。このプロジェクトは、Next.jsとSupabase技術スタックを使用し、多言語SEO最適化をサポートし、AIツールの分類フィルタリング、検索、詳細表示機能を提供します。
CodeFormer 概要 CodeFormerは、南洋理工大学S-Labの研究チームによって開発され、NeurIPS 2022で発表された、頑健なブラインド顔修正のためのコードベースである。このプロジェクトは、コードブック・ルックアップ・トランスフォーマー(Codebook Lookup Transformer)技術を利用し、...
包括的な紹介 GFPGAN (Generative Facial Prior GAN) は、Tencent ARC (Applied Research Center) によって開発されたオープンソースの顔修復アルゴリズムです。このアルゴリズムは、事前に訓練された顔GAN(StyleGAN2など)にカプセル化された豊富で多様な事前要素を利用して、ブラインド顔修復を行う。
一般的な紹介 Curiosityは、主にLangGraphとFastHTMLの技術スタックを使用し、PerplexityのようなAI検索製品を構築することを目標に、探求と実験を目的としたプロジェクトです。プロジェクトの中心は、Tavily検索を使ってテキスト生成を強化するシンプルなReActエージェントです。
総合紹介 Moshi Chatは、フランスの非営利AI研究所Kyutaiが立ち上げたエンドツーエンドのリアルタイムAI音声アシスタントです。リアルタイムで話を聞くだけでなく、自然な会話に参加し、見る、聞く、話すといったマルチモーダルなインタラクションをサポートします。Moshi Chatはユーザーのイントネーションを理解し、...
QAnything 概要 QAnything(Question and Answer based on Anything)は、NetEaseが発表したローカルナレッジベースQ&Aシステムで、あらゆる種類のファイル形式とデータベースをサポートし、オフラインでインストールして使用することができます。QAnythingはPDF、Word、PPT、XLSやその他の形式のドキュメントを扱うことができ、クロス検索をサポートしています。
概要 stickerbakerは、人工知能技術を使って様々な面白いステッカーを作成するオープンソースのステッカーメーカーです。シンプルな猫のステッカーが欲しい人も、様々な種類のステッカーを作りたい人も、stickerbakerにお任せください。欲しいステッカーを記述するだけです...
一般的な紹介 ALogはAIベースの音声日記アプリケーションで、ユーザーが音声で日常生活を記録できるように設計されています。duxinsによって開発され、GitHubでオープンソース化されています。ユーザーは音声入力で日記を記録することができ、アプリは自動的に音声をテキストに変換し、インテリジェントに分析します...