AI Personal Learning
und praktische Anleitung

FoleyCrafter: Stummes Video mit lebendigem, synchronisiertem Sound versehen

Allgemeine Einführung

FoleyCrafter ist ein Open-Source-Projekt, das von OpenMMLab entwickelt wurde, um lebendige und synchronisierte Soundeffekte für stumme Videos zu erzeugen. Das Projekt nutzt fortschrittliche Techniken der künstlichen Intelligenz, um Videoinhalte zu analysieren und semantisch relevante und zeitsynchrone Soundeffekte zu erzeugen, um den Realismus und die emotionale Tiefe des Videos zu verbessern. Das Ziel von FoleyCrafter ist es, hochwertige Soundlösungen für Filme, Spiele und andere Bereiche bereitzustellen, um das audiovisuelle Erlebnis des Publikums zu verbessern.

Automatisierte Synthese von Voiceover-Workflows: https://openart.ai/workflows/t8star/foleycrafter/wZyBSeaa2lvgU3c3NlcH


FoleyCrafter: Stummes Video mit lebendigem, synchronisiertem Ton versehen - 1

 

Funktionsliste

  • Video-zu-Audio-GenerierungGenerierung von semantisch relevanten und synchronisierten Soundeffekten auf der Grundlage von Videoinhalten.
  • Textalarm-TongenerierungGenerieren von szenenspezifischen Soundeffekten aus Textanweisungen.
  • ZeiteinstellungStellen Sie sicher, dass die erzeugten Soundeffekte zeitlich mit dem Videoinhalt synchronisiert sind.
  • Gradio-SchnittstelleBietet eine benutzerfreundliche Schnittstelle für die Tonerzeugung.
  • offene QuelleEine vollständige Code-Basis wird bereitgestellt, um Entwicklern die Sekundärentwicklung und Anpassung zu erleichtern.

 

Hilfe verwenden

Ablauf der Installation

  1. Vorbereiten der Umgebung::
    • Installieren Sie die Conda-Umgebung:conda env create -f requirements/environment.yaml
    • Aktivieren Sie die Umwelt:conda activate foleycrafter
    • Installieren Sie Git LFS:conda install git-lfsund führen Sie dann git lfs install
  2. Checkpoints herunterladen::
    • in Bewegung sein inferenz.py Automatisches Herunterladen von Kontrollpunkten oder manuelles Herunterladen und Ablegen in der Kontrollpunkte Katalog.
  3. Starten der Gradio-Schnittstelle::
    • in Bewegung sein python app.py --share Starten Sie die Gradio-Schnittstelle.

Verwendung Prozess

  1. Video-zu-Audio-Generierung::
    • in Bewegung sein python inference.py --save_dir=output/sora/speichern Sie die erzeugte Audiodatei im angegebenen Verzeichnis.
  2. Zeiteinstellung::
    • in Bewegung sein python inference.py --temporal_align --input=input/avsync --save_dir=output/avsync/Die erzeugten Soundeffekte werden mit der Zeit des Videoinhalts synchronisiert.
  3. Textalarm-Tongenerierung::
    • in Bewegung sein python inference.py --input=input/PromptControl/case1/ --seed=10201304011203481429 --prompt='noisy, people talking' --save_dir=output/ PromptControl/case1_prompt/Die Soundeffekte werden für bestimmte Szenen auf der Grundlage von Texthinweisen erzeugt.

Detaillierte Schritte

  1. Vorbereiten der Umgebung::
    • Conda herunterladen und installieren: https://docs.conda.io/en/latest/miniconda.html
    • Klonen Sie den Projektcode:git clone https://github.com/open-mmlab/foleycrafter.git
    • Rufen Sie den Projektkatalog auf:cd foleycrafter
    • Folgen Sie den obigen Schritten, um die Abhängigkeiten zu installieren und die Umgebung zu konfigurieren.
  2. Checkpoints herunterladen::
    • Laden Sie die Checkpoint-Datei herunter und platzieren Sie sie, wobei Sie darauf achten, dass die Verzeichnisstruktur wie folgt aussieht:
     └── Kontrollpunkte
    ├── semantisch
    │ ├── semantic_adapter.bin
    ├─── vocoder
    │ ├── vocoder.pt
    │ ├── config.json
    ├─ temporal_adapter.ckpt
    │ └── timestamp_detector.pth.tar
    
  3. Starten der Gradio-Schnittstelle::
    • in Bewegung sein python app.py --share Startet die Gradio-Schnittstelle, auf die der Benutzer über einen Browser zugreifen kann.
  4. Soundeffekte generieren::
    • Wählen Sie je nach Bedarf verschiedene Generierungsmodi (Video zu Audio, Zeitabgleich, Text-Cue) und führen Sie die entsprechenden Befehle aus, um Tondateien zu generieren.

Mit den oben genannten Schritten können die Benutzer mit FoleyCrafter ganz einfach lebendige und synchronisierte Soundeffekte zu stummen Videos hinzufügen, um das audiovisuelle Erlebnis zu verbessern. /n

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " FoleyCrafter: Stummes Video mit lebendigem, synchronisiertem Sound versehen

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)