Projet opérationnel open source qui intègre plusieurs services avancés de synthèse vocale

Dernières ressources sur l'IAMise à jour il y a 6 mois Cercle de partage de l'IA

19.6K 00

Introduction générale

Open-VoiceCanvas est une plateforme de synthèse vocale open source développée par l'équipe ItusiAI. Elle prend en charge plus de 50 langues, convertit le texte en parole naturelle et permet de cloner une voix personnalisée en téléchargeant des fichiers audio. Le projet intègre les services vocaux OpenAI TTS, AWS Polly et MiniMax, et offre un large éventail d'options de timbre et d'ajustement du débit de parole. Le code 100% est open source et hébergé sur GitHub, où les utilisateurs peuvent le télécharger et le modifier gratuitement. Il prend également en charge les connexions Google et GitHub, ainsi que les paiements Stripe pour faciliter le déverrouillage des fonctionnalités avancées. Cet outil convient aux développeurs, aux créateurs de contenu et aux utilisateurs réguliers.

Liste des fonctions

Prise en charge de la conversion texte-parole dans plus de 50 langues.
Offre une variété de services vocaux : OpenAI TTS (parole naturelle), AWS Polly (multilingue), MiniMax (optimisé pour le chinois).
Prise en charge de la sélection des voix masculines et féminines avec réglage du débit de parole.
La fonction de clonage sonore permet aux utilisateurs de télécharger des fichiers audio pour créer des tonalités personnalisées.
Prise en charge du téléchargement de fichiers texte et de fichiers audio, traitement de textes longs sans pression.
Logins Google et GitHub intégrés, interface multilingue et thèmes sombres et clairs.
Des services d'abonnement sont disponibles via Stripe, y compris des essais gratuits, des paiements mensuels/annuels et la facturation au volume.

Utiliser l'aide

Open-VoiceCanvas est un puissant outil open source. Voici un guide d'installation et d'utilisation détaillé pour vous aider à démarrer rapidement.

Processus d'installation

Préparation de l'environnement
Avant de commencer, assurez-vous que les outils suivants sont installés sur votre ordinateur :
- Git : pour télécharger du code.
- Node.js (18.x ou plus recommandé) : exécute le front-end et le back-end.
- npm : outil de gestion de paquets pour Node.js.
  Vérifier s'il est installé :

git --version
node --version
npm --version

S'il est manquant, vous pouvez vous rendre sur le site officiel pour le télécharger et l'installer.

Clonage du code
Ouvrez un terminal et entrez la commande suivante pour télécharger le projet :

git clone https://github.com/ItusiAI/Open-VoiceCanvas.git

Accédez au catalogue de projets :

cd Open-VoiceCanvas

Installation des dépendances
Exécutez la commande suivante pour installer les bibliothèques requises :

npm install

Si le réseau est lent, utilisez un miroir domestique :

npm install --registry=https://registry.npmmirror.com

Configuration des variables d'environnement
Dans le répertoire racine du projet, créez le fichier .env ajoutez la configuration suivante (vous devez la remplacer par votre propre clé) :

# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# 数据库
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"

Ces clés doivent être obtenues sur les sites officiels des services correspondants, tels que OpenAI, AWS, MiniMax, Neon, Stripe et GitHub/Google OAuth.

Exécution d'une migration de base de données
Configurez la base de données et exécutez :

npx prisma migrate dev

Cela permet d'initialiser la base de données PostgreSQL.

procédure de déclenchement
Entrez la commande suivante pour démarrer le serveur de développement :

npm run dev

Après le lancement, le navigateur accède à la base de données http://localhost:3000Vous pouvez voir l'interface.

Principales fonctions

synthèse vocale

Ouvrez la page web, connectez-vous et accédez à l'écran principal.
Saisissez du texte dans la zone de saisie, par exemple "Bonjour, nous sommes mercredi".
Sélectionner la langue (plus de 50 langues prises en charge, par exemple le chinois, l'anglais, le japonais, etc.)
Choisissez un service vocal : OpenAI TTS, AWS Polly ou MiniMax.
Choisissez un timbre (masculin ou féminin, comme "nova" d'OpenAI ou "Joanna" d'AWS).
Ajustez la vitesse d'élocution (entre 0,5 et 2,0, 1,0 étant la vitesse normale).
Cliquez sur "Generate" pour avoir un aperçu de l'audio dans quelques secondes.
Cliquez sur "Télécharger" pour enregistrer un fichier MP3.

clonage du son

Allez à la page "Clonage sonore".
Cliquez sur "Upload Audio" et sélectionnez un clip audio clair de 10 à 20 secondes (format WAV ou MP3).
Entrez le nom de la tonalité, par exemple "Ma voix".
Cliquez sur "Cloner" et attendez 1 à 2 minutes pour que le processus se termine.
Une fois le clonage réussi, la nouvelle sonorité apparaît dans la liste des sonorités.
Revenez à la page de synthèse vocale, sélectionnez Clone Tone et entrez le texte pour générer la parole.

Traitement des documents

Cliquez sur "Télécharger un fichier texte" sur l'écran principal.
Sélectionnez une option .txt le contenu est automatiquement chargé dans la zone de saisie.
Générer de l'audio après avoir défini la langue, le timbre et la vitesse d'élocution.
Les textes longs sont automatiquement segmentés pour assurer une génération fluide.

S'abonner et se connecter

Cliquez sur "Se connecter" dans le coin supérieur droit et sélectionnez l'autorisation du compte Google ou GitHub.
Connectez-vous pour afficher les quotas de caractères et le nombre de clones.
Cliquez sur "S'abonner" et choisissez un essai gratuit, un plan mensuel (paiement mensuel) ou un plan annuel (paiement annuel).
Saisissez vos informations de paiement via Stripe et débloquez d'autres fonctionnalités lorsque vous terminez votre abonnement.

mise en garde

Exigences en matière d'audioLe son utilisé pour le clonage doit être clair et sans bruit de fond.
sécurité des clés: Ne le donnez pas. .env dans le fichier.
exigences en matière de réseauLes modèles doivent être téléchargés lors de la première exécution pour que le réseau reste stable.
Support techniqueVous pouvez déposer un problème sur GitHub si vous rencontrez des difficultés.

Ces étapes vous permettront de tirer pleinement parti des capacités d'Open-VoiceCanvas. Sa conception open source permet également aux développeurs de la personnaliser, par exemple en ajoutant de nouveaux services vocaux ou en modifiant l'interface.

scénario d'application

création de contenu
Les présentateurs peuvent l'utiliser pour générer une narration multilingue et gagner du temps lors de l'enregistrement.
Description du scénario : un YouTuber génère des commentaires vidéo en chinois et en anglais, et télécharge directement l'audio pour l'éditer.
Soutien à l'éducation
Les enseignants convertissent les manuels scolaires en discours pour créer des fichiers audio pédagogiques.
Description du scénario : un professeur d'anglais télécharge un texte et génère des fichiers audio de prononciation américaine pour que les élèves s'exercent à l'écoute.
Applications personnalisées
Les développeurs clonent leurs propres voix pour créer des assistants vocaux uniques.
Description du scénario : un programmeur clone une voix et l'intègre dans un système domestique intelligent pour diffuser la météo avec sa propre voix.
utilisation récréative
Les utilisateurs créent des voix amusantes qu'ils partagent avec leurs amis.
Scénario : quelqu'un génère un fichier audio "Joyeux anniversaire" avec la voix d'un ami, en guise de cadeau surprise.

QA

Quels sont les services vocaux pris en charge ?
Prise en charge d'OpenAI TTS (parole naturelle), d'AWS Polly (multilingue) et de MiniMax (optimisé pour le chinois).
Que faut-il pour cloner une voix ?
Il faut 10 à 20 secondes de son clair au format WAV ou MP3 avec le moins de bruit de fond possible.
Quelle est la différence entre la version gratuite et la version payante ?
La version gratuite limite le nombre de caractères et de clones, tandis que la version payante offre davantage de quotas et d'options de tonalité.
Comment résoudre un problème de démarrage ?
Vérifiez la version de Node.js (18.x recommandé) pour vous assurer que les variables d'environnement sont configurées correctement et que les dépendances sont entièrement installées.