Abogen : un outil pour convertir de multiples formats de texte en livres audio

Dernières ressources sur l'IAPosté il y a 5 mois Cercle de partage de l'IA

23.2K 00

Introduction générale

Abogen est un outil open source conçu pour convertir rapidement des fichiers ePub, PDF ou texte en audio de haute qualité. Il utilise le modèle Kokoro-82M pour générer une parole naturelle et fluide et prend en charge la génération simultanée de sous-titres, ce qui le rend adapté aux livres audio, au doublage vidéo ou aux aides à l'apprentissage. Les utilisateurs peuvent sélectionner plusieurs langues et des voix masculines et féminines, ajuster la granularité des sous-titres et même mélanger différents modèles vocaux pour créer des effets sonores uniques.Abogen prend en charge les formats audio tels que WAV, FLAC, MP3 et M4B, et est facile à utiliser et compatible avec Windows, Linux et macOS.

Liste des fonctions

Prise en charge de l'entrée des fichiers ePub, PDF et TXT et de l'extraction automatique du texte.
Génération d'une parole naturelle de haute qualité à l'aide du modèle Kokoro-82M.
Plusieurs langues et options de voix masculines et féminines sont disponibles, telles que l'anglais américain, l'anglais britannique, etc.
Prise en charge de la génération de sous-titres avec segmentation par phrase, mot ou granularité personnalisée.
Permet de mélanger différents modèles vocaux pour créer des voix personnalisées.
Les formats audio de sortie comprennent WAV, FLAC, MP3 et M4B (chapitres pris en charge).
Fournit un éditeur de texte intégré pour faciliter la saisie ou la modification directe du texte.
Prend en charge le déploiement Docker pour simplifier l'installation et l'exploitation.
Choisissez où enregistrer le fichier de sortie, par exemple sur le bureau ou dans un dossier personnalisé.

Utiliser l'aide

Processus d'installation

L'installation d'Abogen nécessite un certain nombre de dépendances, dont l'environnement Python et espeak-ng. Voici les étapes détaillées :

1. installer espeak-ng

Visitez la page de la dernière version d'espeak-ng pour télécharger une copie pour votre système d'exploitation. .msi (Windows) ou installer via le gestionnaire de paquets (Linux/macOS).
Utilisateurs de Windows : Exécutez le fichier téléchargé .msi et suivez les instructions pour terminer l'installation.
Utilisateurs de Linux : exécuter des commandes sudo apt-get install espeak-ng(Ubuntu/Debian) ou sudo yum install espeak-ng(CentOS).
Utilisateurs de macOS : utiliser Homebrew brew install espeak-ng.

2. installer Python et PyTorch

Assurez-vous que Python 3.8 ou une version ultérieure est installé sur votre système.

Installez PyTorch (les GPU NVIDIA sont recommandés pour l'accélération GPU) :

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

Si vous n'avez pas de GPU NVIDIA, exécutez la commande suivante pour installer la version CPU :
```
pip install torch torchvision torchaudio
```

3. installation d'Abogen

Exécutez la commande suivante pour installer Abogen :
```
pip install abogen
```
Une fois l'installation terminée, exécutez abogen lance l'interface graphique (GUI).

4. utiliser Docker (optionnel)

Si vous souhaitez exécuter Abogen via Docker, vous pouvez simplifier la gestion des dépendances :
- Assurez-vous que Docker est installé.
- Clonage du dépôt d'Abogen :
```
git clone https://github.com/denizsafak/abogen.git
cd abogen
```
- Construire l'image Docker :
```
docker build --progress plain -t abogen .
```
- Exécutez le conteneur Docker :
  - Fenêtres :
```
docker run --name abogen -v %CD%:/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
```
  - Linux :
```
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
```
  - macOS :
```
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 abogen
```
- Visitez Abogen :
  - Accès par navigateur http://localhost:5800.
  - ou se connecter à l'aide d'un client VNC localhost:5900.

Principales fonctions

1. convertir le texte en audio

Après avoir démarré Abogen, l'interface graphique s'ouvre.
Cliquez sur le bouton "Sélectionner un fichier" pour télécharger un fichier ePub, PDF ou TXT, ou utilisez l'éditeur de texte intégré pour saisir du texte.
Sélectionner la langue et la voix (par ex. a_m Indique une voix masculine en anglais américain.b_f (Indique une voix de femme anglaise britannique).
Configurez les options de sous-titres : sélectionnez "Phrase", "Phrase + virgule" ou divisez par nombre de mots (par exemple, 1 mot, 2 mots).
Cliquez sur le bouton Générer et attendez la fin du traitement. Le temps de traitement dépend de la taille du fichier et des performances matérielles (par exemple, 3000 caractères de texte prennent environ 11 secondes sur la RTX 2060).

2. discours personnalisé

Dans le mixeur vocal, réglez les proportions des différents modèles de voix pour créer des effets sonores uniques.
Enregistrez la configuration du mixage en tant que "profil vocal" afin de pouvoir la réutiliser facilement.
Testez l'effet vocal : cliquez sur le bouton "Aperçu" pour écouter le clip sonore généré.

3) Paramètres de sortie

Sélectionnez le format audio : WAV (sans perte), FLAC (compressé sans perte), MP3 (universel) ou M4B (format de livre audio avec prise en charge des chapitres).
Réglage de l'emplacement d'enregistrement : sélectionnez "Enregistrer sur le bureau", "Enregistrer à côté du fichier d'entrée" ou un dossier personnalisé.
Si des sous-titres sont nécessaires, cochez "Générer des sous-titres" et sélectionnez le format de sortie (par exemple, SRT).

4. le mode ligne de commande

En cas de problème avec l'interface graphique, il peut être exécuté à partir de la ligne de commande :
```
abogen --cli
```
Le mode ligne de commande affiche des messages d'erreur détaillés pour faciliter le dépannage.

mise en garde

Veillez à ce que le fichier d'entrée soit correctement formaté. Les fichiers PDF peuvent présenter une extraction de texte incomplète en raison d'une mise en page complexe.
L'accélération GPU est recommandée pour un traitement plus rapide, le traitement CPU peut être plus lent.
Si vous rencontrez des problèmes, consultez la page Issues sur GitHub ou soumettez un nouveau problème pour obtenir de l'aide.

scénario d'application

Production de livres audio
Les utilisateurs peuvent convertir des romans, des manuels ou des documents en livres audio pour les écouter facilement pendant les trajets ou l'exercice.
doublage vidéo
Les créateurs de contenu peuvent générer des voix off naturelles pour les vidéos YouTube, TikTok ou Instagram avec des sous-titres synchronisés pour renforcer le professionnalisme de leurs vidéos.
Aide à l'apprentissage
Les étudiants peuvent convertir des manuels ou des documents PDF en fichiers audio et les associer à des sous-titres pour faciliter l'écoute et l'apprentissage, ce qui convient aux personnes qui apprennent une langue ou aux malvoyants.
Production de podcasts
Les producteurs de podcasts peuvent convertir des scripts en audio, générer rapidement des clips d'audition et adapter le style de la voix au thème de l'émission.

QA

Quels sont les formats de fichiers pris en charge par Abogen ?
Abogen prend en charge les fichiers ePub, PDF et TXT en entrée, et produit des formats audio tels que WAV, FLAC, MP3 et M4B, avec des sous-titres au format SRT.
Comment améliorer la précision de l'extraction de texte ?
Pour les fichiers PDF, il est recommandé d'utiliser un document dont la mise en page est simple. Si l'extraction n'est pas précise, vous pouvez convertir le PDF en fichier TXT avant de le saisir.
Ai-je besoin d'un GPU pour faire fonctionner Abogen ?
Pas obligatoire, mais l'utilisation d'un GPU NVIDIA peut accélérer le traitement de manière significative. Un CPU fonctionnera également, mais à une vitesse plus lente.
Comment puis-je contribuer au code ou signaler un problème ?
Visitez le dépôt GitHub, soumettez une Pull Request pour contribuer au code, ou signalez un problème sur la page Issues avec des informations détaillées sur les erreurs.