AIパーソナル・ラーニング
と実践的なガイダンス
サイバーナイフ用ドローイングミラー

複数の高度な音声合成サービスを統合したオープンソース運用プロジェクト

はじめに

Open-VoiceCanvasは、ItusiAIチームによって開発されたオープンソースの音声合成プラットフォームです。50以上の言語をサポートし、テキストを自然な音声に変換し、音声をアップロードすることでパーソナライズされた音声をクローンすることができます。このプロジェクトは、OpenAI TTS、AWS Polly、MiniMax音声サービスを統合し、幅広い音色オプションとスピーチレート調整を提供しています。コード100%はオープンソースで、GitHubでホストされており、ユーザーは無料でダウンロードして修正することができる。また、GoogleとGitHubのログインをサポートし、高度な機能のロックを簡単に解除するためのStripe支払いもサポートしています。このツールは、開発者、コンテンツ制作者、一般ユーザーに適している。

オープンソースオペレーションプロジェクト-1の様々な高度音声合成モデルの統合


 

機能一覧

  • 50ヶ国語以上の音声合成に対応。
  • OpenAI TTS(自然音声)、AWS Polly(多言語)、MiniMax(中国語最適化)。
  • 男性用と女性用の音声選択をサポートし、発話速度を調整可能。
  • サウンドクローン機能を提供し、ユーザーはオーディオをアップロードして自分だけのトーンを作成できます。
  • テキストファイルのアップロードとオーディオファイルのダウンロードをサポート。
  • 統合されたGoogleとGitHubのログイン、多言語インターフェイス、ダーク/ライトテーマ。
  • Stripeでは、無料トライアル、月/年払い、ボリューム課金などのサブスクリプションサービスをご利用いただけます。

 

ヘルプの使用

Open-VoiceCanvasは強力なオープンソースツールです。ここでは、すぐに使い始められるように、インストールと使い方のガイドを詳しく説明します。

設置プロセス

  1. 環境を整える
    作業を始める前に、以下のツールがコンピュータにインストールされていることを確認してください:

    • Git: コードのダウンロード用。
    • Node.js (18.x以上推奨): フロントエンドとバックエンドを実行します。
    • npm: Node.js用パッケージ管理ツール。
      装着されているか確認する:
git --version
node --version
npm --version

もし見つからない場合は、公式サイトからダウンロードしてインストールすることができる。

  1. クローンコード
    ターミナルを開き、以下のコマンドを入力してプロジェクトをダウンロードする:
git clone https://github.com/ItusiAI/Open-VoiceCanvas.git

プロジェクト・カタログにアクセスする:

cd Open-VoiceCanvas
  1. 依存関係のインストール
    以下のコマンドを実行して、必要なライブラリをインストールする:
npm install

ネットワークが遅い場合は、国内のミラーを使用する:

npm install --registry=https://registry.npmmirror.com
  1. 環境変数の設定
    プロジェクトのルート・ディレクトリに .env ファイルに以下の設定を追加する(独自のキーに置き換える必要がある):
# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# 数据库
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"

これらの鍵は、OpenAI、AWS、MiniMax、Neon、Stripe、GitHub/Google OAuthなど、対応するサービスの公式ウェブサイトから入手する必要がある。

  1. データベース移行の実行
    データベースを設定し、実行する:
npx prisma migrate dev

これはPostgreSQLデータベースを初期化します。

  1. トリガ手順
    以下のコマンドを入力して、開発サーバーを起動する:
npm run dev

起動後、ブラウザは http://localhost:3000インターフェイスを見ることができる。

主な機能

音声合成

  1. ウェブページを開き、ログインしてメイン画面に進む。
  2. テキスト入力ボックスにテキストを入力してください。
  3. 言語を選択する(中国語、英語、日本語など、50以上の言語に対応)。
  4. 音声サービスを選択:OpenAI TTS、AWS Polly、MiniMax。
  5. 音色を選ぶ(OpenAIの "nova "やAWSの "Joanna "など、男性か女性か)。
  6. 話すスピードを調整する(範囲は0.5~2.0、1.0が通常)。
  7. Generate "をクリックすると、数秒後にオーディオがプレビューされます。
  8. ダウンロード」をクリックするとMP3ファイルとして保存されます。

サウンドクローニング

  1. サウンドクローニング "のページへ。
  2. Upload Audio "をクリックし、10~20秒のクリアなオーディオクリップ(WAVまたはMP3形式)を選択します。
  3. トーンの名前を入力します(例:"My Voice")。
  4. クローン」をクリックし、プロセスが完了するまで1〜2分待つ。
  5. クローンに成功すると、新しい音色が音色リストに表示されます。
  6. 音声合成ページに戻り、「クローントーン」を選択し、テキストを入力して音声を生成する。

文書処理

  1. メイン画面で「テキストファイルのアップロード」をクリックします。
  2. 1つ選択 .txt ファイルの内容が自動的に入力ボックスに読み込まれます。
  3. 言語、音質、発話速度を設定した後、音声を生成します。
  4. 長いテキストは自動的に分割されるため、スムーズな生成が可能です。

登録とログイン

  1. 右上の "Sign in "をクリックし、GoogleまたはGitHubのアカウント認証を選択します。
  2. キャラクタークォータとクローン数を表示するにはログインしてください。
  3. お申し込み」をクリックし、無料トライアル、月額プラン(月払い)、年間プラン(年払い)をお選びください。
  4. Stripe経由でお支払い情報を入力し、購読を完了すると、より多くの機能がアンロックされます。

ほら

  • オーディオ要件クローニングに使用する音声は、クリアでバックグラウンドノイズのないものでなければなりません。
  • キーセキュリティ手放してはいけない。 .env のキーを入力する。
  • ネットワーク要件ネットワークの安定性を保つため、初回走行時にはモデルのダウンロードが必要です。
  • テクニカルサポート問題が発生した場合は、GitHubにissueを提出してください。

以上の手順で、Open-VoiceCanvasの機能をフルに活用することができます。そのオープンソース設計は、新しい音声サービスの追加やインターフェースの調整など、開発者によるカスタマイズもサポートしています。

 

アプリケーションシナリオ

  1. コンテンツ制作
    キャスターはこれを使用して多言語のナレーションを作成し、収録時間を節約することができる。
    シナリオ説明: あるYouTuberが中国語と英語で解説ビデオを作成し、編集用に音声を直接ダウンロードする。
  2. 教育支援
    教師は教科書を音声に変換し、教育用音声を作成する。
    シナリオの説明: 英語教師がテキストをアップロードし、生徒のリスニング練習用にアメリカ語の発音音声を作成する。
  3. パーソナル・アプリケーション
    開発者は自分の声をクローンして、ユニークな音声アシスタントを作る。
    シナリオ説明:あるプログラマーが自分の声をクローンし、スマートホームシステムに組み込んで、自分の声で天気を放送する。
  4. 娯楽用
    ユーザーは面白い音声を生成して友人と共有する。
    シナリオ:誰かがサプライズプレゼントとして、友人の声で「ハッピーバースデー」の音声を生成する。

 

品質保証

  1. どのような音声サービスに対応していますか?
    OpenAI TTS(自然発話)、AWS Polly(多言語)、MiniMax(中国語最適化)をサポート。
  2. 声のクローンを作るには何が必要なのか?
    WAVまたはMP3フォーマットで、できるだけバックグラウンドノイズの少ない、10~20秒間のクリアな音声が必要。
  3. 無料版と有料版の違いは何ですか?
    無料版には文字数とクローンの制限があり、有料版にはより多くのクォータとトーンオプションがある。
  4. スタートアップの不具合を修正するには?
    Node.jsのバージョン(18.x推奨)を確認し、環境変数が正しく設定され、依存関係が完全にインストールされていることを確認する。
無断転載を禁じます:チーフAIシェアリングサークル " 複数の高度な音声合成サービスを統合したオープンソース運用プロジェクト
ja日本語