Allgemeine Einführung
Video Analyzer ist ein umfassendes Videoanalysetool, das Computer Vision, Audiotranskription und Techniken zur Verarbeitung natürlicher Sprache kombiniert, um detaillierte Beschreibungen von Videoinhalten zu erstellen. Das Tool hilft Nutzern, Videoinhalte besser zu verstehen und zu analysieren, indem es Schlüsselbilder aus dem Video extrahiert, Audioinhalte transkribiert und Beschreibungen in natürlicher Sprache erstellt. Das Videoanalysetool kann vollständig lokal ausgeführt werden, ohne dass Cloud-Dienste oder API-Schlüssel erforderlich sind, oder es kann jeden OpenAI-API-kompatiblen Dienst nutzen, um Geschwindigkeit und Skalierbarkeit zu gewährleisten.
Funktionsliste
- Extraktion von VideobildernAutomatisches Erkennen und Extrahieren von Schlüsselbildern aus Videos.
- AudiotranskriptionTranskription von Audioinhalten mit Hilfe des Whisper-Modells.
- Beschreibung in natürlicher SpracheKonvertierung extrahierter Frames und transkribierter Audioinhalte in natürlichsprachliche Beschreibungen.
- Unterstützung mehrerer ModelleUnterstützung von Analysen mit verschiedenen groß angelegten Sprachmodellen (z.B. das Ollama Vision Modell).
- AusgabeergebnisGenerieren Sie eine JSON-Datei mit den Ergebnissen der Analyse zur weiteren Verwendung oder Überprüfung.
Hilfe verwenden
Ablauf der Installation
Um das Videoanalysetool zu verwenden, müssen Sie zunächst einige notwendige Software und Bibliotheken installieren:
- Klon-Lager::
- Verwenden Sie Git, um ein Projekt-Repository auf GitHub zu klonen:
git clone https://github.com/byjlw/video-analyzer.git cd video-analyzer
- Verwenden Sie Git, um ein Projekt-Repository auf GitHub zu klonen:
- Erstellen einer virtuellen Umgebung::
- Um Umgebungskonflikte zu vermeiden, empfiehlt es sich, eine neue virtuelle Umgebung zu erstellen:
python3 -m venv .venv source .venv/bin/activate # Verwendung von .venv\Scripts\activate unter Windows
- Um Umgebungskonflikte zu vermeiden, empfiehlt es sich, eine neue virtuelle Umgebung zu erstellen:
- Installation von Abhängigkeiten::
- Installieren Sie alle für das Projekt erforderlichen Python-Pakete:
pip install .
- Wenn Sie es im Entwicklungsmodus installieren möchten, können Sie dies tun:
pip install -e .
- Installieren Sie alle für das Projekt erforderlichen Python-Pakete:
- FFmpeg konfigurieren::
- Vergewissern Sie sich, dass Sie FFmpeg für die Video- und Audioverarbeitung auf Ihrem System installiert haben.
Einsatz von Videoanalysetools
- Operative Analyse::
- Am einfachsten ist es, die Videodatei direkt anzugeben:
video-analyzer pfad/zu/video.mp4
- Sie können weitere Parameter übergeben, um den Analyseprozess individuell zu gestalten:
video-analyzer video.mp4 --config custom_config.json --output . /custom_output --frames-per-minute 15 --duration 60
- Parameter Beschreibung:
--config
: Gibt den Pfad der Konfigurationsdatei an.--output
: Legen Sie den Ausgabepfad fest.--Bilder pro Minute
Legen Sie die Anzahl der extrahierten Bilder pro Minute fest.-Laufzeit
Begrenzen Sie die Länge des analysierten Videos in Sekunden.
- Am einfachsten ist es, die Videodatei direkt anzugeben:
- Ergebnis::
- Nach Abschluss der Analyse erstellt das Tool eine
analyse.json
Datei, die die Ergebnisse der Analyse jedes Keyframes und eine textliche Beschreibung der Audiotranskription enthält.
- Nach Abschluss der Analyse erstellt das Tool eine
- Erweiterte Konfiguration::
- Sie können benutzerdefinierte Profile verwenden, um detailliertere Parameter festzulegen, z. B. eine bestimmte Größe des Whisper-Modells (winzig, Basis, klein, mittel, groß), den Schwellenwert für die Spracherkennung festzulegen oder zu entscheiden, ob die extrahierten Einzelbilder erhalten bleiben sollen oder nicht.
Funktion Betriebsablauf
- Rahmenanalyse::
- Das Tool extrahiert Schlüsselbilder aus dem Video mit einer festgelegten Rate und führt dann eine Computer-Vision-Analyse der einzelnen Bilder durch, wobei der Zeitstempel und die Ergebnisse der Analyse aufgezeichnet werden.
- Audioverarbeitung::
- Der Ton wird vom Video getrennt und mit Hilfe des Whisper-Modells transkribiert. Die Transkription wird mit Informationen aus den Videobildern kombiniert, um eine vollständigere Beschreibung des Videos zu erstellen.
- Erzeugen einer Beschreibung::
- Das Tool kombiniert alle analysierten Daten zu einer kohärenten Beschreibung des Videos, indem es zuvor extrahierte Bilder und Audiotranskriptionen verwendet. Dieser Teil der Funktionalität nutzt Techniken zur Verarbeitung natürlicher Sprache, um die Beschreibung besser lesbar zu machen.
Die Verwendung dieses Tools hilft den Nutzern, den Videoinhalt schnell zu verstehen, insbesondere in Szenarien, in denen eine große Anzahl von Videos verarbeitet wird oder in denen eine Videozusammenfassung automatisch erstellt werden muss, was die Effizienz erheblich verbessert.