Allgemeine Einführung
CapsWriter-Offline ist ein Spracheingabe- und Untertitel-Transkriptionstool für PC, das auf GitHub gehostet und vom Entwickler HaujetZhao erstellt wurde. Es läuft komplett offline und benötigt keine Internetverbindung für die Transkription von Sprache in Text und von Audio-/Videodateien in Untertitel. Es unterstützt unbegrenzte Aufnahmezeit, gemischte chinesische und englische Eingaben und hochpräzise Erkennung. Die Software ist einfach und effizient zu bedienen, indem man die Tastenkombination (standardmäßig CapsLock) zur Aufnahme drückt und sie loslässt, um das Erkennungsergebnis automatisch einzugeben. Darüber hinaus können Audio- und Videodateien in den Client gezogen werden, um SRT-Untertitel zu generieren, die für Benutzer geeignet sind, die schnell transkribieren müssen.CapsWriter-Offline ist Open-Source und kostenlos für Windows, MacOS und Linux und ist ein Favorit unter denjenigen, die effiziente Eingabe und Untertitelproduktion benötigen.
Funktionsliste
- Sprache-zu-Text-EingabeDrücken Sie die Schnelltaste zum Aufnehmen und lassen Sie sie los, um die Stimme automatisch in Texteingabe umzuwandeln, wobei gemischte chinesische und englische Inhalte unterstützt werden.
- Unbegrenzte Stunden der TranskriptionAkkurate Transkription von sehr langen Sprachinhalten durch Segmentierungserkennung und Deduplizierungstechniken.
- Audio- und Videotranskription mit UntertitelnUnterstützt das Ziehen von Audio- und Videodateien in den Client zur automatischen Erstellung von Untertiteln im SRT-Format.
- Hot-Word-Ersatz: Chinesische, englische und regelbasierte Hot-Words können individuell angepasst werden, um die Erkennungsgenauigkeit bestimmter Wörter zu verbessern.
- TagebuchfunktionAutomatisches Speichern der Aufzeichnungsergebnisse als Markdown-Dateien und Organisieren der Aufzeichnungen nach Datum.
- Stichwort TagebuchErkennen Sie Sprache, die mit einem bestimmten Schlüsselwort beginnt, und speichern Sie sie als separate thematische Markdown-Datei.
- Hochwertige Erhaltung der AufnahmenUnterstützt die Aufnahme mit 48000 Samples, Speichern im MP3-Format mit FFmpeg.
- Plattformübergreifende UnterstützungEs ist mit Windows-, MacOS- und Linux-Systemen kompatibel und erfüllt die Anforderungen verschiedener Szenarien.
Hilfe verwenden
Ablauf der Installation
CapsWriter-Offline ist eine Open-Source-Software, die Benutzer von GitHub herunterladen und manuell installieren müssen. Nachfolgend finden Sie die detaillierten Schritte:
1. das Herunterladen von Software
- Besuchen Sie die GitHub-Seite.
- Wählen Sie im Abschnitt "Releases" die für Ihr System geeignete Version aus:
- Windows 10 und höhere 64-Bit-Systeme: Download
CapsWriter-Offline-Windows-64bit.zip
(sowohl serverseitig als auch clientseitig) undModelle.zip
(Musterdatei). - Windows 7 und höhere 32-Bit-Systeme: Download
CapsWriter-Offline-Windows-32bit-Client.zip
(nur Client, muss mit anderen Servern im LAN verbunden werden). - MacOS/LinuxSie müssen den Quellcode selbst kompilieren oder auf die von der Gemeinschaft bereitgestellte Paketversion zurückgreifen.
- Windows 10 und höhere 64-Bit-Systeme: Download
- Entpacken Sie die Datei nach dem Herunterladen und platzieren Sie die
Modelle.zip
Entpacken Sie sie und legen Sie sie in das Softwareverzeichnis unterModelle
Mappe.
2. die Vorbereitung der Umwelt
- Windows-Benutzer::
- Stellen Sie sicher, dass Ihr System Windows 10 oder höher ist (auf der Serverseite erforderlich), mit mindestens 4 GB RAM (64-Bit-Systeme).
- Wenn Sie im MP3-Format aufnehmen möchten, müssen Sie FFmpeg installieren und Umgebungsvariablen konfigurieren.
- MacOS-Benutzer::
- Montage
protobuf
(läuft)brew install protobuf
). - Der Kunde muss mit dem
sudo
Erlaubnis zum Ausführen, der Standard-Shortcut ist die rechte Umschalttaste.
- Montage
- Linux-Benutzer::
- Montage
xclip
(läuft)sudo apt-get install xclip
), um die Funktionalität der Zwischenablage zu unterstützen.
- Montage
3. das Ausführen der Software
- Server-seitigEntpacken und Doppelklick
start_server.exe
(Windows) oder führen Siecore_server.py
(erfordert Python 3.8-3.10 und Abhängigkeiten). Das Modell wird nach dem Start geladen (benötigt etwa 2 GB Speicher und 50 Sekunden). - Klient (Computertechnik): Doppelklick
start_client.exe
(Windows) oder führen Siecore_client.py
(MacOS/Linux erforderlich)sudo
). Es hört auf das Standardmikrofon und die Standardverknüpfungen, wenn es gestartet wird.
Hauptfunktionen
Sprache-zu-Text-Eingabe
- Starten des ClientsNach dem Start des Clients hört die Software standardmäßig auf die CapsLock-Taste (rechte Umschalttaste bei MacOS).
- Aufnahmebetrieb::
- Halten Sie die CapsLock-Taste gedrückt, um die Aufnahme zu starten (Aufnahmen, die kürzer als 0,3 Sekunden sind, werden ignoriert).
- Nach dem Loslassen der Taste wandelt die Software die Sprache automatisch in Text um und gibt ihn an der aktuellen Cursorposition ein.
- Anpassung der Einstellungen::
- existieren
config.py
Ändern Sie die Tastenkombinationen in der Datei (Abkürzung
), ob die Ausgabe eingefügt werden soll (einfügen
) und andere Parameter. - Um den CapsLock-Status wiederherzustellen, setzen Sie den
wiederherstellen_Schlüssel
einrichten alsWahr
.
- existieren
Audio- und Videotranskription mit Untertiteln
- Das Dokument vorbereitenVergewissern Sie sich, dass der Client läuft und der Server ordnungsgemäß funktioniert.
- Ziehen und Ablegen von DateienZiehen Sie Audio- und Videodateien (z. B. MP4, WAV) in den Bereich
start_client.exe
Auf. - Erzeugen von UntertitelnDie Software erkennt den Audioinhalt automatisch und erzeugt eine SRT-Datei, die im selben Verzeichnis gespeichert wird.
- caveatWenn es sich um eine große Datei handelt, empfiehlt es sich, den Speicher- und Festplattenspeicherplatz vorher zu überprüfen, da die Erkennungszeit von der Länge der Datei abhängt.
Hot-Word-Ersatz
- Hotword-Datei bearbeiten: Suchen Sie im Software-Verzeichnis die Datei
heiß-zh.txt
(auf Chinesisch),hot-de.txt
(Englisch),hot-rule.txt
(benutzerdefinierte Regeln). - Schlagwort hinzufügen::
- Ein chinesisches Kurzwort pro Zeile (z. B. "künstliche Intelligenz"), basierend auf der Pinyin-Substitution.
- Englische Hot-Words, eines pro Zeile (z. B. "AI"), basierend auf Ersetzungen in der Rechtschreibung.
- Benutzerdefinierte Regeln werden durch ein Gleichheitszeichen getrennt (z. B. "Milliamperestunde = mAh").
- Art des InkrafttretensEs ist kein Neustart erforderlich, und der Client lädt dynamisch Hot-Words, um die Terminologieerkennung zu verbessern.
Tagebuchfunktion
- Freischaltung des TagebuchsStandardmäßig aktiviert, wird jedes Aufnahmeergebnis in der Datei
Jahr/Monat/Datum.md
Dokumentation. - Konservierung von AufnahmenAudio-Dateien werden automatisch hinterlegt
Jahr/Monat/Vermögenswerte
Ordner, unterstützt das WAV- oder MP3-Format. - Stichwort Tagebuch::
- Compiler
keywords.txt
Fügen Sie jeder Zeile ein Schlüsselwort (z. B. "Meeting") hinzu. - Wenn die Stimme mit einem Schlüsselwort beginnt, wird das Ergebnis separat als
Jahr/Monat/Stichwort-Datum.md
.
- Compiler
- Redundanzausgleich: Führen Sie das mitgelieferte Python-Skript aus, um Audiodateien zu entfernen, die nicht von Markdown referenziert werden.
Demonstration des Betriebsablaufs
- Szenario 1: Schnelles Erfassen von Notizen
Client öffnen -> CapsLock-Taste drücken und gedrückt halten -> "Besprechung heute Nachmittag zum Projektfortschritt" sagen -> Taste loslassen -> Text wird automatisch in das Dokument eingegeben -> als Tagebuchdatei speichern. - Szenario 2: Video zu Untertiteln
MP4-Datei vorbereiten -> auf den Client ziehen -> Verarbeitung abwarten (der Fortschritt wird im Terminal angezeigt) -> erzeugte SRT-Datei prüfen -> zur Verwendung in eine Videobearbeitungssoftware importieren.
caveat
- Wenn der Server nicht gestartet ist, zeigt der Client einen Verbindungsfehler an. Sie müssen sicherstellen, dass der Server auf dem
127.0.0.1:6016
(Standardadresse). - MacOS-Benutzer müssen Mikrofonrechte zulassen und können das Mikrofon über das Terminal als
sudo
Führen Sie den Client aus. - Zu viele Hot Words können die Latenzzeit von 3ms/10.000 Einträgen erhöhen, es wird empfohlen, die gemeinsamen Wörter zu straffen.