Müssen Sie häufig Sitzungsaufzeichnungen oder Interviews in Text umwandeln? Da das Schreiben von wortwörtlichen Transkripten zeit- und arbeitsintensiv ist, möchten Sie vielleicht KI-Tools verwenden, um Audioaufnahmen in Text umzuwandeln. In diesem Artikel stellen wir Ihnen Whisper vor, ein System zur automatischen Spracherkennung (ASR) des OpenAI-Teams. Laut der Beschreibung von OpenAI auf Github ist Whisper ein Open-Source-Spracherkennungsmodell, das derzeit etwa 96 Sprachen auf der ganzen Welt erkennt und in Text umwandelt. Was die Erkennungsgenauigkeit von Chinesisch angeht, hat Whisper ein ziemlich hohes Niveau erreicht. Als Ergebnis von Flüstern Da es sich um eine Open-Source-Technologie handelt, benötigen Sie lediglich ein Google-Konto und einen Befehlscode, um sie einzurichten. Sobald Sie Whisper heruntergeladen und auf Ihrem Computer installiert haben, können Sie damit kostenlos und ohne Entwicklereinschränkungen Spracherkennungs- und Transkriptionsaufgaben durchführen.
Whisper Installationscode:
!pip install git+https://github.com/openai/whisper.git
Ffmpeg-Installationscode:
!sudo apt update && sudo apt install ffmpeg
Code zur Ausführung von Sprache in Text:
!whisper "Dateiname (muss ersetzt werden).mp3" --model medium
Schritt 1: Melden Sie sich bei Ihrem Google-Konto an, öffnen Sie Google Drive, klicken Sie oben links auf "+Neu", scrollen Sie nach unten, um "Mehr" zu finden, und klicken Sie dann auf "Weitere Apps verbinden".
Schritt 2: Wenn Sie dies zum ersten Mal tun, wird der Google Workspace App Marketplace geöffnet. Geben Sie "Google Colaboratory" in die Suchleiste ein und wählen Sie es aus.
Schritt 3: Klicken Sie auf "Installieren", um die Installation durchzuführen, und wählen Sie "Weiter", um fortzufahren. Sie werden aufgefordert, sich mit Ihrem Google-Konto anzumelden und den Anweisungen zu folgen, um die Installation abzuschließen.
Schritt 4: Gehen Sie zurück zur Google Drive-Startseite, klicken Sie erneut auf "+Neu" in der oberen linken Ecke und wählen Sie in den weiteren Optionen die App "Google Colaboratory".
Schritt 5: Nach dem Öffnen können Sie den Namen der Datei ändern, um sie später schnell wiederverwenden zu können.
Schritt 6: Klicken Sie in der oberen Spalte auf "Ausführungsphase" und wählen Sie "Ausführungsphasentyp ändern".
Schritt 7: An dieser Stelle können Sie verschiedene Lauftypen und Rechenressourcen auswählen. Bitte wählen Sie "Python 3" und "T4 GPU" und klicken Sie auf "Speichern".
Schritt 8: Suchen Sie das Wort "Verbinden" in der oberen rechten Ecke des Fensters, klicken Sie darauf und warten Sie, bis die Verbindung erfolgreich hergestellt wurde.
Schritt 9: Sobald die Verbindung hergestellt ist, können Sie die Parameter des Computers sehen, einschließlich der Informationen zu Grafikprozessor, Arbeitsspeicher und Festplatte.
Schritt 10: Um Whisper zu installieren, geben Sie den Whisper-Installationscode und den ffmpeg-Installationscode in die erste bzw. zweite Zeile der mittleren Leiste ein und klicken Sie auf Ausführen.
Schritt 11: Nachdem die Installation abgeschlossen ist, klicken Sie auf das Ordnersymbol auf der linken Seite, wählen Sie "Dateien hochladen" und laden Sie die MP3-Dateien hoch, die Sie transkribieren möchten.