AI Personal Learning
und praktische Anleitung

Voice-Pro: multifunktionales Open-Source-Videoübersetzungsprogramm, Sprachtranskription und Übersetzung in mehrere Sprachen, Windows-Installation mit einem Klick

Allgemeine Einführung

Voice-Pro ist ein multifunktionales Tool auf Basis der Gradio WebUI, das Sprache-zu-Text, Text-zu-Sprache, Echtzeit-Übersetzung, YouTube-Video-Downloads und die Trennung menschlicher Stimmen unterstützt. Es integriert die Technologien Whisper, Faster-Whisper und Whisper-Timestamped, um eine effiziente Audioverarbeitung und Übersetzung für mehrere Sprachen und Szenarien zu ermöglichen.

Voice-Pro: Audio-Dateien übersetzen, YouTube-Videos herunterladen, Sprache-zu-Text, Text-zu-Sprache, Echtzeit-Übersetzung-1


 

Voice-Pro: Audio-Dateien übersetzen, YouTube-Videos herunterladen, Sprache-zu-Text, Text-zu-Sprache, Echtzeit-Übersetzung-1

 

Funktionsliste

  • Sprache-zu-TextUnterstützt Whisper, Faster-Whisper und Whisper-Timestamped und bietet eine hochpräzise Spracherkennung.
  • Text-to-SpeechEdge-TTS- und F5-TTS-Unterstützung mit mehreren Sprach- und Sprachauswahlmöglichkeiten sowie Unterstützung für die Anpassung von Geschwindigkeit, Lautstärke und Tonhöhe.
  • Echtzeit-ÜbersetzungUnterstützt Echtzeit-Spracherkennung und Übersetzung für mehrere Sprachen.
  • YouTube HerunterladenSie können YouTube-Videos herunterladen und Audio (mp3, wav, flac) extrahieren.
  • StimmbruchVocal and background sound separation using MDX-Net and Demucs engines.
  • StapeldateiUnterstützt die Erstellung von Untertiteln, die Übersetzung und die Text-zu-Sprache-Verarbeitung von großen Dateimengen.
  • Untertitel GenerationUnterstützt die Erstellung und Bearbeitung von Untertiteln in über 90 Sprachen.
  • Unterstützung mehrerer FormateAlle von ffmpeg unterstützten Video- und Audioformate werden unterstützt.

 

Hilfe verwenden

Ablauf der Installation

  1. StartersetKlonen Sie oder laden Sie die neueste Version des Quellcodes von GitHub herunter.
    git clone https://github.com/abus-aikorea/voice-pro.git
  1. Installieren und Ausführen des Programms::
    • in Bewegung sein configure.bat Installieren Sie die erforderlichen Abhängigkeiten (z. B. git, ffmpeg und CUDA).
    • in Bewegung sein start.bat Starten Sie Voice-Pro und WebUI wird automatisch ausgeführt.
    • Beim ersten Start wird Voice-Pro zunächst installiert, was eine Stunde oder länger dauern kann.

Verwendungsfunktionen

  1. Sprache-zu-Text::
    • Wählen Sie auf der Registerkarte Studio Flüstern Modelle und Arten von Berechnungen.
    • Laden Sie eine Audiodatei hoch oder wählen Sie eine Audioeingangsquelle (z. B. ein Mikrofon).
    • Klicken Sie auf die Schaltfläche "Start" und warten Sie, bis die Spracherkennung und die Erstellung von Untertiteln abgeschlossen sind.
  2. Rendering::
    • Laden Sie die zu übersetzenden Text- oder Untertiteldateien auf der Registerkarte Übersetzen hoch.
    • Wählen Sie die Zielsprache und klicken Sie auf die Schaltfläche "Übersetzen".
    • Sobald die Übersetzung abgeschlossen ist, können Sie die übersetzte Datei herunterladen.
  3. Text-to-Speech::
    • Wählen Sie Edge-TTS oder F5-TTS auf der Registerkarte TTS.
    • Geben Sie den umzuwandelnden Text ein und wählen Sie die Sprachparameter (z. B. Geschwindigkeit, Lautstärke, Tonhöhe).
    • Klicken Sie auf die Schaltfläche "Stimme generieren" und warten Sie, bis die Stimmerzeugung abgeschlossen ist.
  4. YouTube Herunterladen::
    • Geben Sie den YouTube-Video-Link auf der Registerkarte YouTube-Downloader ein.
    • Wählen Sie das Audioformat (mp3, wav, flac) und klicken Sie auf die Schaltfläche "Herunterladen".
    • Sobald der Download abgeschlossen ist, finden Sie die Audiodatei in dem angegebenen Ordner.
  5. solide Trennung::
    • Laden Sie Audiodateien auf der Registerkarte "Vocal Remover" hoch.
    • Wählen Sie die MDX-Net- oder Demucs-Engine und klicken Sie auf die Schaltfläche Start.
    • Warten Sie, bis die Tontrennung abgeschlossen ist, und laden Sie die getrennte Audiodatei herunter.
  6. Stapeldatei::
    • Laden Sie mehrere Dateien auf der Registerkarte Batch hoch.
    • Wählen Sie die gewünschte Funktion (Untertitel, Übersetzung, Text-to-Speech).
    • Klicken Sie auf die Schaltfläche "Start" und warten Sie, bis die Stapelverarbeitung abgeschlossen ist.

allgemeine Probleme

  • Browser läuft nicht automatisch: Schließen Sie das Windows-Befehlsfenster und führen Sie erneut aus start.batoder geben Sie die angezeigte Adresse manuell in Ihren Browser ein (z. B. http://127.0.0.1:7892).
  • CUDA-Fehler wegen SpeichermangelsÜberprüfen Sie den GPU-Speicherstatus und passen Sie die Rauschunterdrückungsstufe oder den Berechnungstyp an.
  • Windows Defender-Warnung: Fügen Sie die Batch-Datei als Ausnahme hinzu oder deaktivieren Sie Windows Defender vorübergehend.
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Voice-Pro: multifunktionales Open-Source-Videoübersetzungsprogramm, Sprachtranskription und Übersetzung in mehrere Sprachen, Windows-Installation mit einem Klick

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)