FunASR : boîte à outils de reconnaissance vocale open source, séparation du locuteur / reconnaissance vocale de dialogues multi-personnes

Dernières ressources sur l'IAPosté il y a 11 mois Cercle de partage de l'IA

23.7K 00

Introduction générale

FunASR est une boîte à outils de reconnaissance vocale open source développée par l'Institut Dharma d'Alibaba pour faire le lien entre la recherche universitaire et les applications industrielles. Il prend en charge un large éventail de fonctions de reconnaissance vocale, notamment la reconnaissance de la parole (ASR), la détection des terminaisons vocales (VAD), la récupération de la ponctuation, la modélisation du langage, la vérification du locuteur, la séparation du locuteur et la reconnaissance vocale des dialogues multi-personnes.

Prend en charge une variété de formats d'entrée audio et vidéo, peut identifier des dizaines d'heures de long audio et vidéo en texte avec ponctuation, prend en charge des centaines de demandes de transcription simultanée. Prend en charge le chinois, l'anglais, le japonais, le cantonais et le coréen.

Expérience en ligne : https://www.funasr.com/

Le logiciel de transcription de fichiers hors ligne FunASR fournit un puissant service de transcription de fichiers hors ligne. Grâce à un lien de reconnaissance vocale complet, combinant la détection des terminaisons vocales, la reconnaissance vocale, la ponctuation et d'autres modèles, il peut reconnaître des dizaines d'heures de longs fichiers audio et vidéo sous forme de texte ponctué, et prend en charge des centaines de demandes de transcription simultanées. Le résultat est un texte ponctué avec des horodatages au niveau des mots et prend en charge les ITN et les mots clés définis par l'utilisateur. Intégration côté serveur avec ffmpeg, prise en charge d'une variété de formats d'entrée audio et vidéo. Le logiciel fournit des clients en html, python, c++, java et c# et d'autres langages de programmation, que l'utilisateur peut utiliser directement et développer ultérieurement.

Le logiciel de dictée vocale en temps réel FunASR intègre des versions en temps réel de modèles de détection des terminaisons vocales, de reconnaissance vocale, de modèles de prédiction de la ponctuation, etc. Grâce à la synergie de plusieurs modèles, il peut non seulement effectuer la conversion de la parole en texte en temps réel, mais aussi corriger le texte de sortie avec une transcription de haute précision à la fin de la phrase, le texte de sortie avec la ponctuation, et prendre en charge des demandes multiples. En fonction des différents scénarios d'utilisation, il prend en charge trois modes de service : le service de dictée vocale en temps réel (en ligne), la transcription de phrases en temps différé (hors ligne) et la collaboration intégrée en temps réel et en temps différé (2pass). Le progiciel fournit une variété de langages de programmation tels que html, python, c++, java et le client c#, que les utilisateurs peuvent utiliser directement et développer davantage.

Liste des fonctions

Reconnaissance vocale (ASR) : permet la reconnaissance vocale en ligne et en temps réel.
Voice Endpoint Detection (VAD) : détecte le début et la fin du signal vocal.
Récupération de la ponctuation : ajoute automatiquement la ponctuation pour améliorer la lisibilité du texte.
Modèles linguistiques : permet l'intégration de plusieurs modèles linguistiques.
Vérification du locuteur : vérification de l'identité du locuteur.
Séparation des locuteurs : distinction de la parole de différents locuteurs.
Reconnaissance vocale pour plusieurs conversations : prend en charge la reconnaissance vocale pour plusieurs conversations simultanées.
Inférence et réglage fin du modèle : fournit des fonctions d'inférence et de réglage fin pour les modèles pré-entraînés.

Utiliser l'aide

Processus d'installation

Préparation de l'environnement: :
- Assurez-vous que Python 3.7 ou supérieur est installé.
- Installer les bibliothèques de dépendances nécessaires :
```
pip install -r requirements.txt
```
Télécharger les modèles: :
- Téléchargez des modèles pré-entraînés à partir de ModelScope ou HuggingFace :
```
git clone https://github.com/modelscope/FunASR.git
cd FunASR
```
Environnement de configuration: :
- Configurer les variables d'environnement :
```
export MODEL_DIR=/path/to/your/model
```

Processus d'utilisation

reconnaissance vocale: :

Utiliser la ligne de commande pour la reconnaissance vocale :

python recognize.py --model paraformer --input your_audio.wav

Reconnaissance vocale à l'aide du code Python :

from funasr import AutoModel
model = AutoModel.from_pretrained("paraformer")
result = model.recognize("your_audio.wav")
print(result)

détection des terminaux vocaux: :

Utilisez la ligne de commande pour la détection des terminaux vocaux :
```
python vad.py --model fsmn-vad --input your_audio.wav
```

Détection des terminaux vocaux à l'aide d'un code Python :

from funasr import AutoModel
vad_model = AutoModel.from_pretrained("fsmn-vad")
vad_result = vad_model.detect("your_audio.wav")
print(vad_result)

Récupération de la ponctuation: :

Utilisez la ligne de commande pour récupérer la ponctuation :
```
python punctuate.py --model ct-punc --input your_text.txt
```

Récupération de la ponctuation à l'aide du code Python :

from funasr import AutoModel
punc_model = AutoModel.from_pretrained("ct-punc")
punc_result = punc_model.punctuate("your_text.txt")
print(punc_result)

Vérification des orateurs: :

Utilisez la ligne de commande pour la vérification de l'orateur :

python verify.py --model speaker-verification --input your_audio.wav

Vérification du locuteur à l'aide d'un code Python :

from funasr import AutoModel
verify_model = AutoModel.from_pretrained("speaker-verification")
verify_result = verify_model.verify("your_audio.wav")
print(verify_result)

Reconnaissance vocale multi-talk: :

Reconnaissance vocale pour les dialogues multijoueurs utilisant la ligne de commande :
```
python multi_asr.py --model multi-talker-asr --input your_audio.wav
```

Reconnaissance vocale pour les conversations entre plusieurs personnes à l'aide d'un code Python :

from funasr import AutoModel
multi_asr_model = AutoModel.from_pretrained("multi-talker-asr")
multi_asr_result = multi_asr_model.recognize("your_audio.wav")
print(multi_asr_result)