AIパーソナル・ラーニング
と実践的なガイダンス
讯飞绘镜
全39記事

Tags: AI 音声クローン

Seed-VC:支持少样本实时转换语音和歌声-首席AI分享圈

Seed-VC:少ないサンプル数で音声と歌のリアルタイム変換に対応

概要 Seed-VCはPlachtaaによって開発されたGitHub上のオープンソースプロジェクトです。1秒から30秒までのリファレンス音声を使用し、追加トレーニングなしで音声や曲の変換を素早く行うことができます。このプロジェクトはリアルタイムの音声変換をサポートしており、レイテンシは400ミリ秒程度と低く、オンライン会議に適しています。

CSM Voice Cloning:利用CSM-1B快速克隆声音-首席AI分享圈

CSMボイスクローニング:CSM-1Bによる高速ボイスクローニング

概要 CSM Voice Cloningは、Isaiah Bjorkによって開発され、GitHubでホストされているオープンソースプロジェクトです。Sesame CSM-1Bモデルに基づいており、ユーザーは音声サンプルを提供するだけで、自分の声のクローンを作成し、自分の特徴を持った声を生成することができます。このツールはネイティブ音声をサポートしています。

PlayHT:生成超真实语音的AI工具-首席AI分享圈

PlayHT:超リアルな音声を生成するAIツール

包括的な紹介 PlayHTはAI音声生成に特化した効率的なオンラインプラットフォームで、ユーザーがテキストを自然でリアルな音声に素早く変換できるようサポートします。600以上のAI音声を提供し、60以上の言語と多様なアクセントをサポートし、ポッドキャスト制作、教育コンテンツ、マーケティング、プロモーションなど様々なシナリオに適しています。使用方法...

Spark-TTS:生成自然语音的文本转语音工具-首席AI分享圈

Spark-TTS:自然な音声を生成する音声合成ツール

包括的な紹介 Spark-TTSは、SparkAudioチームによって開発されたオープンソースのText-to-Speech(TTS)ツールで、GitHubでホストされており、ユーザーがテキストを自然で滑らかな音声に効率的に変換できるように設計されています。高度なディープラーニング技術に基づいており、複数の言語と音声をサポートしています。

Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能-首席AI分享圈

Step-Audio:マルチモーダル音声インタラクションフレームワーク。

包括的な紹介 Step-Audioはオープンソースのインテリジェント音声対話フレームワークです。このフレームワークは、多言語会話(例:中国語、英語、日本語)、感情音声(例:嬉しい、悲しい)、地域方言(例:広東語、四川語)をサポートし、...

Zonos:高质量语音合成与语音克隆工具-首席AI分享圈

Zonos: 高品質音声合成と音声クローニングツール

一般的な紹介 Zonosは、Zyphraによって開発されたオープンソースの音声合成および音声クローンツールです。Zonos-v0.1バージョンは、高品質の音声出力を生成するために、高度なトランスフォーマーとブレンディングモデルを採用しています。このツールは、英語、日本語、中国語、フランス語、ドイツ語を含む複数の言語をサポートしています。

Weights:模仿声音翻唱歌曲和文本转语音的创作平台-首席AI分享圈

Weights:声真似カバーソングと音声合成オーサリングプラットフォーム

はじめに Weightsは、簡単な操作でボイスカバー、音声合成、画像、音楽、動画を作成できる、AIを活用したクリエイティビティのためのソーシャル・プラットフォームです。このプラットフォームは、ユーザーが素早く創作を始め、コミュニティで作品を共有できるよう、豊富なツールとテンプレートを提供している。

Llasa 1~8B:高品质语音生成和克隆的开源文本转语音模型-首席AI分享圈

Llasa 1~8B: 高品質音声生成とクローニングのためのオープンソース音声合成モデル

概要 Llasa-3Bは、香港科学技術大学オーディオ研究室(HKUST Audio)が開発したオープンソースの音声合成(TTS)モデルです。このモデルはLlama 3.2Bアーキテクチャをベースとしており、多言語に対応するだけでなく、感情表現や個性を表現できる高品質な音声生成を実現するために、入念なチューニングが施されています。

Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目-首席AI分享圈

フィッシュ・エージェント:エンド・ツー・エンドのAIボイス・クローン・アシスタント、リアルタイム音声対話アシスタント、フィッシュ・スピーチ・スピンオフ・プロジェクト

包括的な紹介 フィッシュ音声派生プロジェクト フィッシュエージェントは、V0.1 3Bモデルアーキテクチャに基づいて開発された革命的なエンドツーエンドのAI音声クローニングシステムです。完全なエンドツーエンドの音声クローニング処理システムとして、その最大の特徴は、Whisperに依存しない革新的なセマンティックタグレスアーキテクチャ設計です。

ViiTor AI:音频/视频多语言翻译合成与语音克隆服务-首席AI分享圈

ViiTor AI:音声・映像の多言語翻訳合成と音声クローン作成サービス

総合紹介 ViiTor AIは、高品質な動画翻訳、音声クローン、AI生成アバター動画、音声合成サービスの提供に特化した強力な人工知能プラットフォームです。このプラットフォームは多言語をサポートし、ユーザーが簡単に多言語コンテンツ作成を実現できるように設計されています。ViiTor AIの動画翻訳...

Voicemod:实时变声器,语音聊天、游戏变声-首席AI分享圈

Voicemod:リアルタイムボイスチェンジャー、ボイスチャット、ゲームボイス変更

概要 Voicemodは、WindowsとmacOS用のリアルタイムボイスチェンジャーとサウンドエフェクトソフトウェアのリーディングカンパニーです。ゲームでのロールプレイ、友達とのチャット、ライブストリーミングなど、Voicemodは豊富なボイスチェンジエフェクトを提供します。AI技術により、Voicemod...

Amphion MaskGCT:零样本文本到语音克隆模型(本地一键部署包)-首席AI分享圈

Amphion MaskGCT: ゼロサンプル音声合成クローンモデル (ローカルのワンクリックデプロイパッケージ)

包括的な紹介 MaskGCT (Masked Generative Codec Transformer)は、Funky Maru Technologyと香港中文大学が共同で導入した完全非自律回帰型音声合成(TTS)モデルである。このモデルは、明示的な音声合成情報を必要とせず、2段階の生成アプローチを採用しています。

趣丸千音:语音克隆并结合口型同步,一键翻译视频为多语言!-首席AI分享圈

ファンキー丸千代:声のクローンと口のシンクロを組み合わせ、ワンクリックでビデオを多言語に翻訳!

総合紹介 Funmaru Thousand Voicesは、リアルで自然な音声生成ソリューションを提供する多言語AI音声合成プラットフォームです。ユーザーは、テキストコンテンツを簡単にプロ級の音声に変換することができ、個人のニーズに合わせてゼロサンプルから専用のAIボイス(ボイスクローン)の作成をサポートします。また、このプラットフォームはビデオ翻訳機能も提供しており、...

CosyVoice:阿里推出的3秒急速语音克隆开源项目,支持情感控制标签-首席AI分享圈

CosyVoice:3秒間の突進ボイス・クローニング・オープンソース・プロジェクトがアリによって立ち上げられる。

包括的な紹介 CosyVoiceは、推論、トレーニングからデプロイまでフルスタックの機能を提供する多言語大規模音声生成モデルです。FunAudioLLMチームによって開発されたCosyVoiceは、高度な自己回帰変換器とODEベースの拡散モデルによって、高品質の音声合成を実現することを目的としています。

海螺AI视频生成器:文本或图像生成高质量视频,影视级镜头创作-首席AI分享圈

コンクAIビデオジェネレーター:テキストまたは画像から高品質のビデオ、映画、TVグレードの映像作成が可能

概要 Conch AI Video GeneratorはMiniMaxが開発した先進的なAIビデオ生成ツールです。ユーザーは簡単なテキストの説明や画像をアップロードするだけで、Conch AIは高品質のビデオコンテンツを素早く生成することができます。このツールは、クリエイター、マーケティング担当者、ストーリーテラーなどに広く利用されています。

Coqui TTS(xTTS):文本到语音生成的深度学习工具包,支持多种语言和声音克隆功能-首席AI分享圈

Coqui TTS (xTTS):多言語サポートと音声クローン機能を備えた音声合成用ディープラーニングツールキット

包括的な紹介 Coqui TTSは、ディープラーニング技術に基づいたオープンソースの高度な音声合成(TTS)ツールキットです。Coqui TTSは、ディープラーニング技術をベースとしたオープンソースの先進的な音声合成ツールキットであり、研究環境と実運用環境の両方でテストされ、複数の言語の音声合成をサポートする豊富な機能とモデルのセットを提供しています。

F5-TTS:少样本语音克隆,生成流畅且感情丰富的克隆声音-首席AI分享圈

F5-TTS: 滑らかで感情豊かなクローン音声を生成するサンプルレス・スピーチ・クローニング

Synthesis F5-TTSは、ストリームにマッチした拡散変換器(DiT)に基づく、新しい非自己回帰型音声合成(TTS)システムである。このシステムは、ConvNeXtモデルを使用してテキスト表現を最適化し、音声との整合を容易にすることで、合成品質を大幅に向上させます。

ボイスチェンジャー:お気に入りのアニメキャラクターを歌わせるリアルタイムボイスチェンジャー!

概要 Voice Changerは、MMVC、so-vits-svc、RVC、DDSP-SVC、Beatriceなど、幅広いAI音声モデルをサポートするオープンソースのリアルタイム音声変換ツールです。このツールは、Windows、Mac、Linux、Google Colabなど、多くのプラットフォームと互換性があり、ユーザーは以下のことができます。...

ja日本語