Allgemeine Einführung
FunASR ist ein Open-Source-Spracherkennungs-Toolkit, das vom Dharma Institute von Alibaba entwickelt wurde, um akademische Forschung und industrielle Anwendungen zu verbinden. Es unterstützt eine breite Palette von Spracherkennungsfunktionen, einschließlich Spracherkennung (ASR), Voice Endpoint Detection (VAD), Interpunktionswiederherstellung, Sprachmodellierung, Sprecherverifizierung, Sprechertrennung und Spracherkennung für Dialoge mit mehreren Personen.FunASR bietet praktische Skripte und Tutorials zur Unterstützung der Inferenz und Feinabstimmung von vortrainierten Modellen und hilft Benutzern, schnell effiziente Spracherkennungsdienste zu erstellen.
Unterstützt eine Vielzahl von Audio- und Videoformaten, kann Dutzende von Stunden langer Audio- und Videodateien in Text mit Interpunktion umwandeln, unterstützt Hunderte von Anfragen zur gleichzeitigen Transkription Unterstützt Chinesisch, Englisch, Japanisch, Kantonesisch und Koreanisch.
Online-Erfahrung: https://www.funasr.com/
Funktionsliste
- Spracherkennung (ASR): unterstützt Offline- und Echtzeit-Spracherkennung.
- Voice Endpoint Detection (VAD): erkennt den Anfang und das Ende des Sprachsignals.
- Interpunktionswiederherstellung: Fügen Sie automatisch Interpunktion hinzu, um die Lesbarkeit des Textes zu verbessern.
- Sprachmodelle: Unterstützt die Integration von mehreren Sprachmodellen.
- Sprecherverifizierung: Verifiziert die Identität des Sprechers.
- Sprechertrennung: Unterscheidung der Sprache von verschiedenen Sprechern.
- Spracherkennung für mehrere Gespräche: unterstützt die Spracherkennung für mehrere gleichzeitige Gespräche.
- Modellinferenz und Feinabstimmung: bietet Inferenz- und Feinabstimmungsfunktionen für vorab trainierte Modelle.
Hilfe verwenden
Ablauf der Installation
- Vorbereitung der Umwelt::
- Stellen Sie sicher, dass Python 3.7 oder höher installiert ist.
- Installieren Sie die erforderlichen Abhängigkeits-Bibliotheken:
pip install -r anforderungen.txt
- Modelle herunterladen::
- Laden Sie bereits trainierte Modelle von ModelScope oder HuggingFace herunter:
git klonen. https://github.com/modelscope/FunASR.git cd FunASR
- Laden Sie bereits trainierte Modelle von ModelScope oder HuggingFace herunter:
- Konfiguration der Umgebung::
- Konfigurieren Sie die Umgebungsvariablen:
exportieren MODEL_DIR=/path/to/your/model
- Konfigurieren Sie die Umgebungsvariablen:
Verwendung Prozess
- Spracherkennung::
- Verwenden Sie die Befehlszeile für die Spracherkennung:
python recognise.py --model paraformer --input your_audio.wav
- Spracherkennung mit Python-Code:
von funasr importieren AutoModel model = AutoModel.from_pretrained("Paraformer") result = model.recognize("Ihr_Audio.wav") drucken(Ergebnis)
- Verwenden Sie die Befehlszeile für die Spracherkennung:
- Erkennung von Sprachendpunkten::
- Verwenden Sie die Befehlszeile für die Erkennung von Sprachendpunkten:
python vad.py --model fsmn-vad --input your_audio.wav
- Erkennung von Sprachendpunkten mit Python-Code:
von funasr importieren AutoModel vad_model = AutoModel.from_pretrained("fsmn-vad") vad_result = vad_model.detect("Ihr_Audio.wav") drucken(vad_result)
- Verwenden Sie die Befehlszeile für die Erkennung von Sprachendpunkten:
- Wiederherstellung der Zeichensetzung::
- Verwenden Sie die Befehlszeile zur Wiederherstellung der Interpunktion:
python punctuate.py --model ct-punc --input ihr_text.txt
- Wiederherstellung der Interpunktion mit Python-Code:
von funasr importieren AutoModel punc_model = AutoModel.from_pretrained("ct-punc") punc_result = punc_model.punctuate("ihr_text.txt") drucken(punc_result)
- Verwenden Sie die Befehlszeile zur Wiederherstellung der Interpunktion:
- Überprüfung des Sprechers::
- Verwenden Sie die Befehlszeile für die Lautsprecherüberprüfung:
python verify.py --model speaker-verification --input your_audio.wav
- Sprecherverifizierung mit Python-Code:
von funasr importieren AutoModel verify_model = AutoModel.from_pretrained("sprecher-überprüfung") verify_result = verify_model.verify("Ihr_Audio.wav") drucken(verify_result)
- Verwenden Sie die Befehlszeile für die Lautsprecherüberprüfung:
- Multi-Talk-Spracherkennung::
- Spracherkennung für Multiplayer-Dialoge über die Kommandozeile:
python multi_asr.py --model multi-talker-asr --input your_audio.wav
- Spracherkennung für Unterhaltungen mit mehreren Personen mit Python-Code:
von funasr importieren AutoModel multi_asr_model = AutoModel.from_pretrained("Multi-Talker-Asr") multi_asr_result = multi_asr_model.recognize("Ihr_Audio.wav") drucken(multi_asr_result)
- Spracherkennung für Multiplayer-Dialoge über die Kommandozeile: