OpenAI.fm : un outil de démonstration interactif présentant les API vocales d'OpenAI

Dernières ressources sur l'IAPosté il y a 5 mois Cercle de partage de l'IA

18.1K 00

Introduction générale

openai-fm est un projet open source hébergé sur GitHub dédié à la démonstration des capacités de l'API Text-to-Speech (TTS) d'OpenAI. Ce projet permet aux développeurs d'expérimenter visuellement les capacités de génération de parole d'OpenAI à travers une application web interactive. Il a été développé en utilisant le framework NextJS, combiné avec TailwindCSS et ShadcnUI pour créer une interface propre et moderne. Les utilisateurs peuvent saisir du texte, sélectionner différents styles vocaux et émotionnels pour générer une sortie vocale de haute qualité. Le code du projet est entièrement libre, conformément à la licence MIT, les développeurs sont encouragés à cloner, modifier et contribuer au code. openai-fm permet aux développeurs de comprendre et de tester rapidement l'API vocale OpenAI, et convient particulièrement aux scénarios de développement d'applications qui requièrent une fonctionnalité vocale.

Adresse de démonstration : https://www.openai.fm/

Liste des fonctions

Conversion texte-parole : convertit le texte saisi en une parole naturelle et fluide.
Options vocales multiples : offre plusieurs options vocales pour répondre aux besoins de différents scénarios.
Contrôle du style émotionnel : permet d'ajuster le ton émotionnel de la voix (amical, sérieux, etc.).
Présentation interactive en temps réel : génération et lecture de discours en temps réel par le biais d'une interface web.
Fonction de partage de la base de données : permet de se connecter à la base de données PostgreSQL pour enregistrer et partager les discours générés.
Support open source : le code source complet est fourni, ce qui permet aux développeurs de personnaliser et d'étendre les fonctionnalités.

Utiliser l'aide

Processus d'installation

Pour utiliser openai-fm, vous devez d'abord cloner le projet et configurer l'environnement. Voici les étapes détaillées :

Obtenir la clé API
Visitez le site web de l'OpenAI pour vous enregistrer ou vous connecter à votre compte. Dans le tableau de bord de votre compte, naviguez jusqu'à la page de gestion des clés API et cliquez sur "Créer une nouvelle clé" pour générer et enregistrer votre clé API. OPENAI_API_KEYCette clé est utilisée pour appeler l'API vocale d'OpenAI. Cette clé est utilisée pour appeler l'API vocale de l'OpenAI. note : la clé doit être gardée secrète pour éviter toute divulgation.
entrepôt de clones
Ouvrez un terminal et exécutez la commande suivante pour cloner le dépôt openai-fm :
```
git clone https://github.com/openai/openai-fm.git
```

Accédez au catalogue de projets :

cd openai-fm

Définition des variables d'environnement
Vous pouvez le mettre en place de deux manières OPENAI_API_KEY: :
- réglage globalAjouter les éléments suivants aux variables d'environnement de votre système OPENAI_API_KEY.
  - Linux/MacOS Exemple :
```
export OPENAI_API_KEY=<你的API密钥>
```
  - Les utilisateurs de Windows peuvent ajouter des variables d'environnement dans les paramètres du système.
- Cadre du projet: Créer l'espace de travail .env Documentation, référence .env.exampleajouter ce qui suit :
```
OPENAI_API_KEY=<你的API密钥>
```
Installation des dépendances
Le projet utilise Node.js et npm pour gérer les dépendances. Assurez-vous que Node.js est installé (version 16 ou supérieure recommandée). Exécutez-le à partir du répertoire racine du projet :
```
npm install
```
Ceci installera les dépendances nécessaires telles que NextJS, TailwindCSS, ShadcnUI et ainsi de suite.
(Facultatif) Base de données de configuration
Si vous souhaitez utiliser la fonction de partage, vous devez vous connecter à la base de données PostgreSQL. Dans la fenêtre .env pour ajouter les informations de connexion à la base de données, se référer au fichier .env.example: :
```
POSTGRES_URL="postgresql://用户名:密码@主机:端口/数据库名"
```
Assurez-vous que le service PostgreSQL fonctionne et que la base de données appropriée est créée. Si vous n'utilisez pas la fonction de partage, vous pouvez sauter cette étape.
Projets en cours
Une fois l'installation terminée, exécutez la commande suivante pour démarrer le serveur de développement :
```
npm run dev
```
Ouvrez votre navigateur et visitez http://localhost:3000Vous pouvez voir l'interface interactive d'openai-fm.

Principales fonctions

Le cœur d'openai-fm est la démo interactive de synthèse vocale. Voici le processus :

texte d'entrée
Saisissez le texte que vous souhaitez convertir en parole dans la zone de texte de l'interface web. Prend en charge plusieurs lignes de texte, ce qui convient aux longs dialogues ou aux scripts. Exemple :
```
你好！这是一个测试，展示如何将文本转为自然语音。
```
Choix de la voix et de l'émotion
L'interface propose des menus déroulants énumérant les options vocales disponibles (par exemple, homme, femme) et les styles émotionnels (par exemple, amical, sérieux). Ces options sont basées sur les data/voices.json répondre en chantant data/vibes.json Configuration du fichier. Après l'avoir sélectionné, cliquez sur le bouton "Generate", et le système appellera l'API OpenAI Speech pour générer l'audio.
Lecture et téléchargement
Le son généré est automatiquement diffusé sur la page. Vous pouvez également télécharger le fichier audio, qui est enregistré au format WAV par défaut et stocké dans le répertoire du projet dans le fichier output/ avec des noms de fichiers commençant par openaifm_ Début et horodatage.
Fonction de partage
Si une base de données PostgreSQL est configurée, la voix générée peut être enregistrée dans la base de données et un lien de partage peut être généré. En cliquant sur le bouton "Partager", vous obtiendrez une URL accessible où d'autres utilisateurs pourront voir et jouer votre voix.

Personnalisation du développeur

openai-fm est un projet open source, les développeurs peuvent modifier le code selon leurs besoins. Par exemple, les développeurs peuvent modifier le code selon leurs besoins :

Ajouter une nouvelle voix: : Editorial data/voices.json, en ajoutant de nouvelles configurations vocales.
Réglage de l'interfaceModifier les composants de NextJS (par ex. pages/index.js) ou les styles TailwindCSS.
Fonctionnalité étendueLes services d'aide à la décision : ajouter de nouveaux appels API ou intégrer d'autres services.

Pour contribuer au code, créez une branche dans le dépôt et soumettez une demande d'extraction. Lisez les directives de contribution du projet avant de vous engager afin de vous assurer que votre code est conforme. [](https://github.com/openai/openai-fm)[](https://github.com/fairy-root/ComfyUI-OpenAI-FM)

mise en garde

Frais d'APIL'utilisation de l'API OpenAI Speech est payante, en fonction de l'usage qui en est fait. Veuillez surveiller votre quota d'API dans le tableau de bord OpenAI.
la sécuritéEn cas de déploiement sur un serveur public, s'assurer que .env n'est pas rendu public afin d'éviter les fuites de clés API.
Soutien communautaireSi vous avez un problème, soumettez un problème sur GitHub et la communauté vous aidera.

scénario d'application

Les développeurs testent l'API vocale
Les développeurs peuvent utiliser openai-fm pour tester rapidement l'efficacité de l'API OpenAI Speech, valider les performances de différents styles de discours et d'émotions, et optimiser les solutions d'intégration d'applications.
Production de contenus éducatifs et de formation
Les enseignants ou les formateurs peuvent convertir les scripts de cours en paroles pour générer un son naturel et fluide à utiliser dans les cours en ligne ou les vidéos pédagogiques.
Aides à l'accessibilité
openai-fm génère des lectures vocales pour les utilisateurs malvoyants afin de les aider à accéder aux informations textuelles.
Création de contenu créatif
Les producteurs de podcasts ou les créateurs de contenu peuvent utiliser openai-fm pour générer des voix personnalisées et créer rapidement des échantillons d'audition.

QA

Dois-je payer pour openai-fm ?
Le projet lui-même est gratuit, mais l'utilisation de l'API OpenAI Speech nécessite une clé API valide et des frais basés sur l'utilisation. Nous vous recommandons de consulter le site officiel d'OpenAI pour connaître les tarifs.
Comment ajouter une nouvelle option vocale ?
Modifiez le répertoire du projet dans le fichier data/voices.json pour ajouter la nouvelle configuration vocale. Après le redémarrage du serveur, la nouvelle voix apparaît dans le menu déroulant.
Dois-je utiliser une base de données pour la fonction de partage ?
Oui, la fonction de partage nécessite la prise en charge de la base de données PostgreSQL. Si vous ne configurez pas la base de données, vous pouvez toujours générer et lire des discours normalement.
Est-il possible d'utiliser openai-fm sur mobile ?
L'interface web d'openai-fm prend en charge le responsive design et est accessible dans les navigateurs mobiles, à condition que vous disposiez d'une connexion internet stable.