
Orate:よく知られた音声生成、音声トランスクリプション、音声モデリングを統合する統一API
概要 Orateは音声生成と文字起こしに特化したAIツールキットです。Orateは、OpenAI、ElevenLabs、AssemblyAIなどの主要なAIプロバイダーとシームレスに統合する統一APIを提供し、ユーザーがリアルで人間のような音声を作成したり、音声をテキストに書き起こしたりするのを支援します。
概要 Orateは音声生成と文字起こしに特化したAIツールキットです。Orateは、OpenAI、ElevenLabs、AssemblyAIなどの主要なAIプロバイダーとシームレスに統合する統一APIを提供し、ユーザーがリアルで人間のような音声を作成したり、音声をテキストに書き起こしたりするのを支援します。
はじめに Weightsは、簡単な操作でボイスカバー、音声合成、画像、音楽、動画を作成できる、AIを活用したクリエイティビティのためのソーシャル・プラットフォームです。このプラットフォームは、ユーザーが素早く創作を始め、コミュニティで作品を共有できるよう、豊富なツールとテンプレートを提供している。
ビルダーインテリジェントプログラミングモード、DeepSeek-R1とDeepSeek-V3の無制限の使用、海外版よりも滑らかな経験を有効にします。ただ、中国語のコマンドを入力し、プログラミングの知識はまた、独自のアプリケーションを書くためにゼロしきい値をすることはできません。
概論 AnyVoiceは高度なAI音声生成プラットフォームであり、超リアルな音声生成と音声クローンサービスを提供します。ユーザーはテキストを自然な音声に変換し、数百のプリセット音声から選択することができます。適切な音声が見つからない場合は、わずか3秒の録音で...
概論 Open NotebookLMは、あらゆるPDF文書をポッドキャストに変換するために設計されたオープンソースプロジェクトです。このツールは、オープンソースのLarge Language Model (LLM)とText-to-Speech (TTS)モデルを使用してPDFコンテンツを処理し、オーディオポッドキャストに適した自然なダイアログを生成し、MP3ファイルに出力します。このプロジェクトはN...
概要 Llasa-3Bは、香港科学技術大学オーディオ研究室(HKUST Audio)が開発したオープンソースの音声合成(TTS)モデルです。このモデルはLlama 3.2Bアーキテクチャをベースとしており、多言語に対応するだけでなく、感情表現や個性を表現できる高品質な音声生成を実現するために、入念なチューニングが施されています。
ココロ-ONNXは、ONNXランタイムをベースとしたオープンソースの音声合成(TTS)ツールです。Kokoro-ONNXは、英語を含む多言語をサポートしており、フランス語、日本語、韓国語をサポートする予定です。
一般的な紹介 OpenAI Edge TTSは、OpenAIと互換性のあるネイティブの音声合成(TTS)APIを提供するオープンソースプロジェクトです。このプロジェクトは、Microsoft Edgeのオンライン音声合成サービスを使用して、ユーザーが高品質の音声出力を生成できるようにします。
概要 Jellypodは、ユーザーが簡単に高品質のAIポッドキャストを作成、編集、公開できるように設計された強力なAIポッドキャストスタジオです。Jellypodを使えば、ユーザはパーソナライズされたポッドキャストホストをデザインし、スクリプトを洗練させ、ポッドキャストをSpotify、YouTube、Apple P...に公開することができます。
概要 sherpa-onnxは、Next-gen Kaldiチームによって開発されたオープンソースプロジェクトで、効率的なオフライン音声認識および音声合成ソリューションを提供します。Android、iOS、Raspberry Piなど様々なプラットフォームに対応し、ネットワーク接続がない環境でもリアルタイムに音声認識・音声合成を行うことができます。
概要 Audiblezは、電子書籍(.epub形式など)をオーディオブック(.m4b形式など)に変換するためのオープンソースプロジェクトです。このプロジェクトでは、Kokoroの高品質音声合成技術を利用して、複数の言語と音声をサポートしています。ユーザーは、簡単なコマンドラインで電子ブックを変換できます。
Acoustは、最新のAI技術を使ってリアルな音声を生成するオンラインAI音声生成・音声合成(TTS)サービスプラットフォームです。このプラットフォームはまた、ユーザーが複数のソフトウェアを使用することなくビデオを作成できる強力なビデオ編集ツールも提供しています。
包括的な紹介 Kokoro-FastAPIは、Kokoro-82M音声合成モデルのサポートを提供するために設計されたDockerベースのFastAPIパッケージです。このプロジェクトはNVIDIA GPUアクセラレーションをサポートし、生の成長したテキストの音声出力をより効率的で首尾一貫したものにするためのキュー処理と自動スプライシングを提供します。このプロジェクトは ...
一般的な紹介 ココロ82MはHugging Faceが提供する効率的な音声合成モデルで、少ないパラメータとデータで高品質な音声を生成するように設計されています。このモデルは8,200万個のパラメータを持ち、Apache 2.0ライセンスの下で配布され、幅広い音声パック(Voicepacks)をサポートしています。
一般的な紹介 ebook2audiobookは、強力なオープンソースの電子書籍からオーディオブックツールです。複数の形式の電子書籍を、完全なチャプターマーカーとメタデータ付きのオーディオブックに変換することができます。このツールは、電子書籍フォーマットの変換にCalibreを使用し、オーディオブックへの変換にCoquiのXTTSv2とFairseqを使用しています。
概要 Edge TTS Worker(depends on edge-tts )は、Microsoft Edge TTSサービスをOpenAIフォーマットと互換性のあるAPIインターフェースにカプセル化する、Cloudflare Worker上にデプロイされたプロキシサービスです。このプロジェクトにより、ユーザはMicrosoftの認証なしで簡単に利用することができます。
総合紹介 ViiTor AIは、高品質な動画翻訳、音声クローン、AI生成アバター動画、音声合成サービスの提供に特化した強力な人工知能プラットフォームです。このプラットフォームは多言語をサポートし、ユーザーが簡単に多言語コンテンツ作成を実現できるように設計されています。ViiTor AIの動画翻訳...
総合紹介 ワンダークラフトは、コンテンツクリエイターにワンストップのオーディオ/ビデオ制作ソリューションを提供する、AIを活用した画期的なオーディオ/ビデオ制作プラットフォームです。このプラットフォームは、高度なAI技術を使用してテキストコンテンツを自然で滑らかな音声に変換し、20以上の言語をサポートし、200以上のAI...
概要 NotebookLM Podcastは、人工知能技術を活用して、あらゆるテキストコンテンツをダイナミックで魅力的なオーディオポッドキャストに変換する革新的なプラットフォームです。NotebookLMポッドキャストは、学生、教育者、コンテンツ制作者、多忙なプロフェッショナルなど、どのような方にもパーソナライズされた...
概要 AivisSpeechは、VOICEVOXエディタUIをベースとした日本語音声合成ソフトウェアです。AivisSpeech Engineを統合しており、感情豊かな音声を簡単に生成することができます。AivisSpeechは幅広い音声合成モデルをサポートしており、高品質な音声を生成することができます。