AI Personal Learning
und praktische Anleitung
Ressource Empfehlung 1

CapsWriter-Offline: Spracheingabe- und Untertitel-Transkriptionstool für den PC

Allgemeine Einführung

CapsWriter-Offline ist ein Spracheingabe- und Untertitel-Transkriptionstool für PC, das auf GitHub gehostet und vom Entwickler HaujetZhao erstellt wurde. Es läuft komplett offline und benötigt keine Internetverbindung für die Transkription von Sprache in Text und von Audio-/Videodateien in Untertitel. Es unterstützt unbegrenzte Aufnahmezeit, gemischte chinesische und englische Eingaben und hochpräzise Erkennung. Die Software ist einfach und effizient zu bedienen, indem man die Tastenkombination (standardmäßig CapsLock) zur Aufnahme drückt und sie loslässt, um das Erkennungsergebnis automatisch einzugeben. Darüber hinaus können Audio- und Videodateien in den Client gezogen werden, um SRT-Untertitel zu generieren, die für Benutzer geeignet sind, die schnell transkribieren müssen.CapsWriter-Offline ist Open-Source und kostenlos für Windows, MacOS und Linux und ist ein Favorit unter denjenigen, die effiziente Eingabe und Untertitelproduktion benötigen.

CapsWriter-Offline: Spracheingabe und Untertitel-Transkription für PC-1


 

CapsWriter-Offline: Spracheingabe und Untertitel-Transkription für PC-1

 

Funktionsliste

  • Sprache-zu-Text-EingabeDrücken Sie die Schnelltaste zum Aufnehmen und lassen Sie sie los, um die Stimme automatisch in Texteingabe umzuwandeln, wobei gemischte chinesische und englische Inhalte unterstützt werden.
  • Unbegrenzte Stunden der TranskriptionAkkurate Transkription von sehr langen Sprachinhalten durch Segmentierungserkennung und Deduplizierungstechniken.
  • Audio- und Videotranskription mit UntertitelnUnterstützt das Ziehen von Audio- und Videodateien in den Client zur automatischen Erstellung von Untertiteln im SRT-Format.
  • Hot-Word-Ersatz: Chinesische, englische und regelbasierte Hot-Words können individuell angepasst werden, um die Erkennungsgenauigkeit bestimmter Wörter zu verbessern.
  • TagebuchfunktionAutomatisches Speichern der Aufzeichnungsergebnisse als Markdown-Dateien und Organisieren der Aufzeichnungen nach Datum.
  • Stichwort TagebuchErkennen Sie Sprache, die mit einem bestimmten Schlüsselwort beginnt, und speichern Sie sie als separate thematische Markdown-Datei.
  • Hochwertige Erhaltung der AufnahmenUnterstützt die Aufnahme mit 48000 Samples, Speichern im MP3-Format mit FFmpeg.
  • Plattformübergreifende UnterstützungEs ist mit Windows-, MacOS- und Linux-Systemen kompatibel und erfüllt die Anforderungen verschiedener Szenarien.

 

Hilfe verwenden

Ablauf der Installation

CapsWriter-Offline ist eine Open-Source-Software, die Benutzer von GitHub herunterladen und manuell installieren müssen. Nachfolgend finden Sie die detaillierten Schritte:

1. das Herunterladen von Software

  • Besuchen Sie die GitHub-Seite.
  • Wählen Sie im Abschnitt "Releases" die für Ihr System geeignete Version aus:
    • Windows 10 und höhere 64-Bit-Systeme: Download CapsWriter-Offline-Windows-64bit.zip(sowohl serverseitig als auch clientseitig) und Modelle.zip(Musterdatei).
    • Windows 7 und höhere 32-Bit-Systeme: Download CapsWriter-Offline-Windows-32bit-Client.zip(nur Client, muss mit anderen Servern im LAN verbunden werden).
    • MacOS/LinuxSie müssen den Quellcode selbst kompilieren oder auf die von der Gemeinschaft bereitgestellte Paketversion zurückgreifen.
  • Entpacken Sie die Datei nach dem Herunterladen und platzieren Sie die Modelle.zip Entpacken Sie sie und legen Sie sie in das Softwareverzeichnis unter Modelle Mappe.

2. die Vorbereitung der Umwelt

  • Windows-Benutzer::
    • Stellen Sie sicher, dass Ihr System Windows 10 oder höher ist (auf der Serverseite erforderlich), mit mindestens 4 GB RAM (64-Bit-Systeme).
    • Wenn Sie im MP3-Format aufnehmen möchten, müssen Sie FFmpeg installieren und Umgebungsvariablen konfigurieren.
  • MacOS-Benutzer::
    • Montage protobuf(läuft) brew install protobuf).
    • Der Kunde muss mit dem sudo Erlaubnis zum Ausführen, der Standard-Shortcut ist die rechte Umschalttaste.
  • Linux-Benutzer::
    • Montage xclip(läuft) sudo apt-get install xclip), um die Funktionalität der Zwischenablage zu unterstützen.

3. das Ausführen der Software

  • Server-seitigEntpacken und Doppelklick start_server.exe(Windows) oder führen Sie core_server.py(erfordert Python 3.8-3.10 und Abhängigkeiten). Das Modell wird nach dem Start geladen (benötigt etwa 2 GB Speicher und 50 Sekunden).
  • Klient (Computertechnik): Doppelklick start_client.exe(Windows) oder führen Sie core_client.py(MacOS/Linux erforderlich) sudo). Es hört auf das Standardmikrofon und die Standardverknüpfungen, wenn es gestartet wird.

Hauptfunktionen

Sprache-zu-Text-Eingabe

  1. Starten des ClientsNach dem Start des Clients hört die Software standardmäßig auf die CapsLock-Taste (rechte Umschalttaste bei MacOS).
  2. Aufnahmebetrieb::
    • Halten Sie die CapsLock-Taste gedrückt, um die Aufnahme zu starten (Aufnahmen, die kürzer als 0,3 Sekunden sind, werden ignoriert).
    • Nach dem Loslassen der Taste wandelt die Software die Sprache automatisch in Text um und gibt ihn an der aktuellen Cursorposition ein.
  3. Anpassung der Einstellungen::
    • existieren config.py Ändern Sie die Tastenkombinationen in der Datei (Abkürzung), ob die Ausgabe eingefügt werden soll (einfügen) und andere Parameter.
    • Um den CapsLock-Status wiederherzustellen, setzen Sie den wiederherstellen_Schlüssel einrichten als Wahr.

Audio- und Videotranskription mit Untertiteln

  1. Das Dokument vorbereitenVergewissern Sie sich, dass der Client läuft und der Server ordnungsgemäß funktioniert.
  2. Ziehen und Ablegen von DateienZiehen Sie Audio- und Videodateien (z. B. MP4, WAV) in den Bereich start_client.exe Auf.
  3. Erzeugen von UntertitelnDie Software erkennt den Audioinhalt automatisch und erzeugt eine SRT-Datei, die im selben Verzeichnis gespeichert wird.
  4. caveatWenn es sich um eine große Datei handelt, empfiehlt es sich, den Speicher- und Festplattenspeicherplatz vorher zu überprüfen, da die Erkennungszeit von der Länge der Datei abhängt.

Hot-Word-Ersatz

  1. Hotword-Datei bearbeiten: Suchen Sie im Software-Verzeichnis die Datei heiß-zh.txt(auf Chinesisch),hot-de.txt(Englisch),hot-rule.txt(benutzerdefinierte Regeln).
  2. Schlagwort hinzufügen::
    • Ein chinesisches Kurzwort pro Zeile (z. B. "künstliche Intelligenz"), basierend auf der Pinyin-Substitution.
    • Englische Hot-Words, eines pro Zeile (z. B. "AI"), basierend auf Ersetzungen in der Rechtschreibung.
    • Benutzerdefinierte Regeln werden durch ein Gleichheitszeichen getrennt (z. B. "Milliamperestunde = mAh").
  3. Art des InkrafttretensEs ist kein Neustart erforderlich, und der Client lädt dynamisch Hot-Words, um die Terminologieerkennung zu verbessern.

Tagebuchfunktion

  1. Freischaltung des TagebuchsStandardmäßig aktiviert, wird jedes Aufnahmeergebnis in der Datei Jahr/Monat/Datum.md Dokumentation.
  2. Konservierung von AufnahmenAudio-Dateien werden automatisch hinterlegt Jahr/Monat/Vermögenswerte Ordner, unterstützt das WAV- oder MP3-Format.
  3. Stichwort Tagebuch::
    • Compiler keywords.txtFügen Sie jeder Zeile ein Schlüsselwort (z. B. "Meeting") hinzu.
    • Wenn die Stimme mit einem Schlüsselwort beginnt, wird das Ergebnis separat als Jahr/Monat/Stichwort-Datum.md.
  4. Redundanzausgleich: Führen Sie das mitgelieferte Python-Skript aus, um Audiodateien zu entfernen, die nicht von Markdown referenziert werden.

Demonstration des Betriebsablaufs

  • Szenario 1: Schnelles Erfassen von Notizen
    Client öffnen -> CapsLock-Taste drücken und gedrückt halten -> "Besprechung heute Nachmittag zum Projektfortschritt" sagen -> Taste loslassen -> Text wird automatisch in das Dokument eingegeben -> als Tagebuchdatei speichern.
  • Szenario 2: Video zu Untertiteln
    MP4-Datei vorbereiten -> auf den Client ziehen -> Verarbeitung abwarten (der Fortschritt wird im Terminal angezeigt) -> erzeugte SRT-Datei prüfen -> zur Verwendung in eine Videobearbeitungssoftware importieren.

caveat

  • Wenn der Server nicht gestartet ist, zeigt der Client einen Verbindungsfehler an. Sie müssen sicherstellen, dass der Server auf dem 127.0.0.1:6016(Standardadresse).
  • MacOS-Benutzer müssen Mikrofonrechte zulassen und können das Mikrofon über das Terminal als sudo Führen Sie den Client aus.
  • Zu viele Hot Words können die Latenzzeit von 3ms/10.000 Einträgen erhöhen, es wird empfohlen, die gemeinsamen Wörter zu straffen.
Verwandte Dokumente Download-Adresse
© Download-Ressourcen Urheberrecht gehört dem Autor; alle Ressourcen auf dieser Website sind aus dem Netz, nur für Lernzwecke, bitte unterstützen Sie die ursprüngliche Version!
Inhalt3
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " CapsWriter-Offline: Spracheingabe- und Untertitel-Transkriptionstool für den PC

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)