AI Personal Learning
und praktische Anleitung

AI no jimaku gumi: Automatische Generierung und Übersetzung von mehrsprachigen Untertiteln für Videos mit Hilfe von KI

Allgemeine Einführung

AI no jimaku gumi (AI no subtitle group) ist ein leistungsstarkes Kommandozeilen-Tool zur Verarbeitung von Videountertiteln, das sich auf die automatische Extraktion, Transkription und Übersetzung von Videountertiteln konzentriert. Das Tool integriert fortschrittliche KI-Technologien, darunter Flüstern Spracherkennungsmodelle und eine Vielzahl von Übersetzungs-Backends (z. B. DeepL, LLM usw.) ermöglichen eine effiziente Verarbeitung von Video- und Audioinhalten und die Erstellung von qualitativ hochwertigen Untertiteldateien. Es unterstützt die Konvertierung zwischen mehreren Sprachen, darunter Englisch, Japanisch, Chinesisch, Koreanisch und andere gängige Sprachen, und bietet flexible Optionen für die Ausgabe von Untertiteln. Als Open-Source-Projekt stellt es nicht nur den vollständigen Quellcode zur Verfügung, sondern unterstützt auch die plattformübergreifende Nutzung und kann unter Linux, macOS und anderen wichtigen Betriebssystemen ausgeführt werden.

 

Funktionsliste

  • Automatische Extraktion von Audioinhalten aus Videos und Erkennung von Sprache
  • Unterstützt mehrere Untertitelquellen: Audioerkennung, Container-Extraktion, OCR-Erkennung
  • Integration mit mehreren Übersetzungs-Backends: DeepL, LLM, etc.
  • Unterstützung für die Übersetzung aus und in viele gängige Sprachen
  • Konfigurierbares Untertitel-Ausgabeformat (derzeit wird das SRT-Format unterstützt)
  • Unterstützt das Abfangen und Verarbeiten von Videoclips
  • Bietet Debugging-Modi: nur Audioextraktion, nur Transkription, nur Übersetzung und andere Optionen
  • Unterstützung für benutzerdefinierte AI-Modellpfade und Konfigurationen
  • Plattformübergreifende Unterstützung (Linux, macOS, Windows werden unterstützt)

 

Hilfe verwenden

1. die Vorbereitung der Umwelt

Windows-Systeme in Vorbereitung...

 

Abhängigkeiten von der Linux-Systeminstallation:

  • Ubuntu-Benutzer:
apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-dev libswresample-dev libswscale-dev
  • Fedora-Benutzer:
dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config
  • Arch Linux Benutzer:
pacman -S clang cmake ffmpeg make pkgconf

macOS-Systeminstallationsabhängigkeiten:

Verwenden Sie den Homebrew-Paketmanager:

brew install cmake ffmpeg

2. die Installationsschritte

  1. Klonen Sie das Code-Repository:
git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd ai-no-jimaku-gumi
  1. Kompilieren Sie das Projekt:
Ladung bauen
  1. Laden Sie das Modell Whisper herunter:
wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin

3. grundlegende Verwendung

Das Tool bietet mehrere Konfigurationsmöglichkeiten:

  • --Eingangs-Video-Pfad: Geben Sie den Pfad der Eingangsvideodatei an (erforderlich)
  • --source-languageQuellsprache (Standard: ja)
  • ---ZielspracheSprache: Zielsprache (Standard: en)
  • --ggml-model-pathAI-Modellpfad (Standard: ggml-tiny.bin)
  • --subtitle-output-pathUntertitel: Untertitel-Ausgabepfad (Standard: output.srt)

4. die Backend-Konfiguration der Übersetzung

DeepL translation backend (Standard):

  1. Setzen von Umgebungsvariablen:
export DEEPL_API_KEY=Ihr API-Schlüssel
export DEEPL_API_URL=https://api.deepl.com # Erforderlich für die kostenpflichtige API-Version

LLM Translation Backend:

  1. Setzen von Umgebungsvariablen:
export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxx
  1. Beispiel für die Verwendung:
. /target/debug/ainojimakugumi --input-video-path video.webm \
---translator-backend llm \
--llm-api-base https://your-api-endpoint.com/v1/ \
--llm-prompt 'übersetze dies ins Englische' \
--llm-model-name 'gpt-4o-mini' \
--ggml-model-path ggml-small.bin

5. erweiterte Funktionen

  • ausnutzen-Startzeitim Gesang antworten--end-timeKann bestimmte Videoclips verarbeiten
  • --only-extract-audioNur Audio extrahieren (zur Fehlersuche)
  • --only-transcript: Nur Untertitel in der Originalsprache
  • --only-translateNur Übersetzungsfunktion
  • Unterstützt mehrere Optionen für Untertitelquellen: Audio (Standard), Container, OCR.

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " AI no jimaku gumi: Automatische Generierung und Übersetzung von mehrsprachigen Untertiteln für Videos mit Hilfe von KI

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)