WhisperChain : conversion de la parole en texte en temps réel et optimisation des mots prononcés

Introduction générale

WhisperChain est un projet open source basé sur l'IA, hébergé sur GitHub et dirigé par le développeur Chris Choy. Il est principalement utilisé pour convertir la parole en texte et optimiser automatiquement l'expression grâce à la technologie de l'IA, en supprimant les mots familiers redondants (par exemple les "ah" et les "hmm") afin d'améliorer la fluidité et le professionnalisme du texte. Cet outil est particulièrement adapté aux utilisateurs qui ont besoin d'organiser rapidement des transcriptions de réunions, des scripts de podcasts ou des présentations. Écrit en Python, le projet combine une technologie de reconnaissance vocale avancée avec des capacités de traitement du langage naturel, et la nature open source du projet permet aux développeurs de participer librement à son amélioration. L'objectif de WhisperChain est de créer un outil de traitement de la parole puissant et facile à utiliser qui permettra aux utilisateurs d'être plus productifs dans leur travail quotidien et dans leurs efforts créatifs.

WhisperChain:实时语音转文字并优化口语化词语

 

Liste des fonctions

  • de la parole au texteLa conversion rapide de fichiers audio en texte avec une grande précision de reconnaissance est possible.
  • Optimisation intelligente du texteL'intelligence artificielle permet de supprimer automatiquement les mots superflus et d'affiner les énoncés afin d'améliorer la lisibilité du texte.
  • Support multiformatCompatible avec les formats audio courants tels que MP3, WAV, etc.
  • Personnalisation open sourceLe code source est fourni afin que les utilisateurs puissent adapter la fonctionnalité à leurs besoins ou l'intégrer dans d'autres projets.
  • fichier de lotPermet de traiter plusieurs fichiers audio à la fois, ce qui convient aux tâches de grande envergure.
  • Aperçu de l'édition en directLe contenu du texte peut être visualisé et ajusté en temps réel pendant le processus de transcription.

 

Utiliser l'aide

WhisperChain est un outil open source dont l'installation et l'utilisation requièrent certaines bases techniques. Vous trouverez ci-dessous un guide d'installation et d'utilisation détaillé pour aider les utilisateurs à démarrer rapidement.

Processus d'installation

Comme WhisperChain est un projet open source sur GitHub, il nécessite un environnement local qui supporte Python et installe les dépendances nécessaires. Voici les étapes de l'installation :

  1. Préparation de l'environnement
    • Assurez-vous que Python 3.8 ou plus est installé sur votre ordinateur. Cela peut être fait avec la commande python --version Vérifier.
    • Installez Git pour télécharger le code de GitHub pour les utilisateurs Windows à partir du site officiel de Git, et pour les utilisateurs Mac à partir du site de GitHub. brew install git Installation.
  2. projet de clonage
    • Ouvrez un terminal ou une ligne de commande et entrez la commande suivante pour télécharger WhisperChain :
      git clone https://github.com/chrischoy/WhisperChain.git
      
    • Accédez au catalogue de projets :
      cd WhisperChain
      
  3. Installation des dépendances
    • Les dépendances du projet sont répertoriées dans le fichier requirements.txt exécutez la commande suivante pour l'installer :
      pip install -r requirements.txt
      
    • Si l'accélération GPU est requise (par exemple avec une carte graphique NVIDIA), vous devrez installer CUDA et la version correspondante de PyTorch en plus, voir Site officiel de PyTorch.
  4. Vérifier l'installation
    • Une fois l'installation terminée, exécutez la commande suivante pour vérifier si elle fonctionne :
      python -m whisperchain --help
      
    • Si un message d'aide est affiché, l'installation a réussi.

Comment l'utiliser

Une fois installé, les utilisateurs peuvent utiliser WhisperChain à partir de la ligne de commande ou l'intégrer dans leurs projets. Vous trouverez ci-dessous les détails de l'utilisation des principales fonctionnalités :

1. de la parole au texte

  • procédure: :
    1. Préparer le fichier audio (par ex. sample.mp3) dans le répertoire du projet ou dans un autre chemin accessible.
    2. Saisissez-le dans le terminal :
      python -m whisperchain transcribe --file sample.mp3 --output output.txt
      
    3. Le programme convertit automatiquement l'audio en texte et le résultat est sauvegardé dans l'application output.txt Au milieu.
  • Description des paramètres: :
    • --file: Spécifie le chemin d'accès au fichier audio.
    • --output: Indique le chemin d'accès au fichier texte de sortie, le format par défaut étant le texte brut.
  • mise en garde: :
    • Pour une meilleure reconnaissance, il est recommandé d'utiliser des fichiers audio au format WAV 16kHz mono. Pour la conversion, FFmpeg peut être utilisé :
      ffmpeg -i sample.mp3 -ar 16000 -ac 1 -c:a pcm_s16le sample.wav
      

2) Optimisation intelligente du texte

  • procédure: :
    1. En supposant qu'il existe déjà un texte transcrit (par ex. output.txt), exécutez la commande optimise :
      python -m whisperchain refine --input output.txt --output refined.txt
      
    2. L'IA analyse automatiquement le texte, supprime les mots de remplissage et optimise l'énoncé, et le résultat est sauvegardé en tant que refined.txt.
  • Description des paramètres: :
    • --input: Saisissez le fichier texte à optimiser.
    • --outputFichier de sortie optimisé.
  • Fonctions vedettes: :
    • La force de l'optimisation peut être ajustée via le fichier de configuration, par exemple en retenant certaines expressions spécifiques, comme décrit dans la documentation du projet.

3. traitement par lots

  • procédure: :
    1. Placer plusieurs fichiers audio dans un dossier (par ex. audio_files).
    2. Exécutez la commande de traitement par lots :
      python -m whisperchain batch --dir audio_files --output_dir results
      
    3. Le programme traite tous les fichiers audio du dossier un par un, en générant le fichier texte correspondant, qui est sauvegardé dans le dossier results Dossier.
  • Description des paramètres: :
    • --dirLe dossier dans lequel se trouvent les fichiers audio.
    • --output_dir: Dossier des résultats de sortie.

4. prévisualisation éditoriale en temps réel

  • procédure: :
    1. Activer le mode temps réel :
      python -m whisperchain live --file sample.mp3
      
    2. Le programme affiche la progression de la transcription sur le terminal et l'utilisateur peut appuyer sur la touche Ctrl+C Abandonner et sauvegarder le résultat actuel.
  • mise en garde: :
    • Le mode en temps réel est mieux adapté à l'audio court, l'audio long peut nécessiter plus de mémoire.

Exemple de déroulement des opérations

Supposons que vous ayez un enregistrement d'une réunion meeting.mp3Il s'agit de convertir le texte et de l'optimiser :

  1. Convertissez d'abord le format :

ffmpeg -i meeting.mp3 -ar 16000 -ac 1 meeting.wav

2. 转录:

python -m whisperchain transcribe --file meeting.wav --output meeting.txt

3. 优化:

python -m whisperchain refine --input meeting.txt --output meeting_refined.txt

4. 检查 `meeting_refined.txt`,即可看到优化后的文本。
### 进阶使用
- **自定义功能**:开发者可修改 `whisperchain.py` 文件,添加新功能或调整算法。
- **集成到项目**:将 WhisperChain 作为模块导入,例如:
```python
from whisperchain import transcribe, refine
text = transcribe("audio.mp3")
refined_text = refine(text)

problèmes courants

  • Que se passe-t-il si la reconnaissance audio n'est pas précise ?
    • Vérifiez la qualité audio afin d'éviter tout bruit de fond excessif.
    • La mise à jour des bibliothèques de dépendances peut nécessiter le dernier modèle vocal.
  • Que dois-je faire si j'obtiens une erreur d'exécution ?
    • Assurez-vous que les dépendances sont entièrement installées et vérifiez la compatibilité de la version de Python.

Avec ces étapes, les utilisateurs peuvent facilement utiliser WhisperChain pour traiter les tâches vocales et profiter de la commodité apportée par l'IA.

© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...