AI Personal Learning
und praktische Anleitung

Voice-Pro: multifunktionales Open-Source-Videoübersetzungsprogramm, Sprachtranskription und Übersetzung in mehrere Sprachen, Windows-Installation mit einem Klick

Allgemeine Einführung

Voice-Pro ist ein multifunktionales Tool auf Basis der Gradio WebUI, das Sprache-zu-Text, Text-zu-Sprache, Echtzeit-Übersetzung, YouTube-Video-Downloads und die Trennung menschlicher Stimmen unterstützt. Es integriert die Technologien Whisper, Faster-Whisper und Whisper-Timestamped, um eine effiziente Audioverarbeitung und Übersetzung für mehrere Sprachen und Szenarien zu ermöglichen.

Voice-Pro: Audio-Dateien übersetzen, YouTube-Videos herunterladen, Sprache-zu-Text, Text-zu-Sprache, Echtzeit-Übersetzung-1


 

Voice-Pro: Audio-Dateien übersetzen, YouTube-Videos herunterladen, Sprache-zu-Text, Text-zu-Sprache, Echtzeit-Übersetzung-1

 

Funktionsliste

  • Sprache-zu-TextUnterstützt Whisper, Faster-Whisper und Whisper-Timestamped und bietet eine hochpräzise Spracherkennung.
  • Text-to-SpeechEdge-TTS- und F5-TTS-Unterstützung mit mehreren Sprach- und Sprachauswahlmöglichkeiten sowie Unterstützung für die Anpassung von Geschwindigkeit, Lautstärke und Tonhöhe.
  • Echtzeit-ÜbersetzungUnterstützt Echtzeit-Spracherkennung und Übersetzung für mehrere Sprachen.
  • YouTube HerunterladenSie können YouTube-Videos herunterladen und Audio (mp3, wav, flac) extrahieren.
  • StimmbruchVocal and background sound separation using MDX-Net and Demucs engines.
  • StapeldateiUnterstützt die Erstellung von Untertiteln, die Übersetzung und die Text-zu-Sprache-Verarbeitung von großen Dateimengen.
  • Untertitel GenerationUnterstützt die Erstellung und Bearbeitung von Untertiteln in über 90 Sprachen.
  • Unterstützung mehrerer FormateAlle von ffmpeg unterstützten Video- und Audioformate werden unterstützt.

 

Hilfe verwenden

Ablauf der Installation

  1. StartersetKlonen Sie oder laden Sie die neueste Version des Quellcodes von GitHub herunter.
    git clone https://github.com/abus-aikorea/voice-pro.git
  1. Installieren und Ausführen des Programms::
    • in Bewegung sein configure.bat Installieren Sie die erforderlichen Abhängigkeiten (z. B. git, ffmpeg und CUDA).
    • in Bewegung sein start.bat Starten Sie Voice-Pro und WebUI wird automatisch ausgeführt.
    • Beim ersten Start wird Voice-Pro zunächst installiert, was eine Stunde oder länger dauern kann.

Verwendungsfunktionen

  1. Sprache-zu-Text::
    • Wählen Sie das Whisper-Modell und den Berechnungstyp auf der Registerkarte Studio aus.
    • Laden Sie eine Audiodatei hoch oder wählen Sie eine Audioeingangsquelle (z. B. ein Mikrofon).
    • Klicken Sie auf die Schaltfläche "Start" und warten Sie, bis die Spracherkennung und die Erstellung von Untertiteln abgeschlossen sind.
  2. Rendering::
    • Laden Sie die zu übersetzenden Text- oder Untertiteldateien auf der Registerkarte Übersetzen hoch.
    • Wählen Sie die Zielsprache und klicken Sie auf die Schaltfläche "Übersetzen".
    • Sobald die Übersetzung abgeschlossen ist, können Sie die übersetzte Datei herunterladen.
  3. Text-to-Speech::
    • Wählen Sie Edge-TTS oder F5-TTS auf der Registerkarte TTS.
    • Geben Sie den umzuwandelnden Text ein und wählen Sie die Sprachparameter (z. B. Geschwindigkeit, Lautstärke, Tonhöhe).
    • Klicken Sie auf die Schaltfläche "Stimme generieren" und warten Sie, bis die Stimmerzeugung abgeschlossen ist.
  4. YouTube Herunterladen::
    • Geben Sie den YouTube-Video-Link auf der Registerkarte YouTube-Downloader ein.
    • Wählen Sie das Audioformat (mp3, wav, flac) und klicken Sie auf die Schaltfläche "Herunterladen".
    • Sobald der Download abgeschlossen ist, finden Sie die Audiodatei in dem angegebenen Ordner.
  5. solide Trennung::
    • Laden Sie Audiodateien auf der Registerkarte "Vocal Remover" hoch.
    • Wählen Sie die MDX-Net- oder Demucs-Engine und klicken Sie auf die Schaltfläche Start.
    • Warten Sie, bis die Tontrennung abgeschlossen ist, und laden Sie die getrennte Audiodatei herunter.
  6. Stapeldatei::
    • Laden Sie mehrere Dateien auf der Registerkarte Batch hoch.
    • Wählen Sie die gewünschte Funktion (Untertitel, Übersetzung, Text-to-Speech).
    • Klicken Sie auf die Schaltfläche "Start" und warten Sie, bis die Stapelverarbeitung abgeschlossen ist.

allgemeine Probleme

  • Browser läuft nicht automatisch: Schließen Sie das Windows-Befehlsfenster und führen Sie erneut aus start.batoder geben Sie die angezeigte Adresse manuell in Ihren Browser ein (z. B. http://127.0.0.1:7892).
  • CUDA-Fehler wegen SpeichermangelsÜberprüfen Sie den GPU-Speicherstatus und passen Sie die Rauschunterdrückungsstufe oder den Berechnungstyp an.
  • Windows Defender-Warnung: Fügen Sie die Batch-Datei als Ausnahme hinzu oder deaktivieren Sie Windows Defender vorübergehend.
AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Voice-Pro: multifunktionales Open-Source-Videoübersetzungsprogramm, Sprachtranskription und Übersetzung in mehrere Sprachen, Windows-Installation mit einem Klick

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)