Allgemeine Einführung
RapBank ist ein Datensatz und ein Toolset für die Erstellung von Rap-Texten. Das von NZqian ins Leben gerufene Projekt zielt darauf ab, Forschern und Entwicklern einen qualitativ hochwertigen Datensatz für Rap-Texte zur Verfügung zu stellen, indem es Rap-Songs von YouTube sammelt und verarbeitet. RapBank enthält mehr als 90.000 Rap-Songs in 84 Sprachen und bietet detaillierte Verarbeitungspipelines und Nutzungsanweisungen, die den Nutzern helfen, Daten effizient zu verarbeiten und Modelle zu trainieren. Die Daten und der Code des Projekts sind Open Source auf GitHub unter der CC BY-NC-SA 4.0 Lizenz.
Funktionsliste
- Datensatz-Download: Ein Datensatz mit über 90.000 Rap-Songs in mehreren Sprachen.
- Datenverarbeitungspipeline: Umfasst Schritte wie Quellentrennung, Segmentierung und Texterkennung, um den Benutzern eine effiziente Datenverarbeitung zu ermöglichen.
- Ausführliche Dokumentation: Vollständige Anleitungen und Beispielcode, um den Benutzern einen schnellen Einstieg zu ermöglichen.
- Offener Quellcode: Der gesamte Code und die Daten sind auf GitHub als Open Source verfügbar, was für die Sekundärentwicklung praktisch ist.
- Lizenzvereinbarung: Die Daten und der Code unterliegen der CC BY-NC-SA 4.0-Lizenzvereinbarung, die sicherstellt, dass die Nutzer die Grenzen der Legalität einhalten.
Hilfe verwenden
Ablauf der Installation
- Klonen des Projektlagers:
git clone https://github.com/NZqian/RapBank.git
cd RapBank
- Installieren Sie die Abhängigkeit:
pip install -r anforderungen.txt
- Laden Sie den Datensatz herunter und legen Sie ihn in dem angegebenen Ordner ab, z. B.
/pfad/zu/ihren/daten/wav
.
Datenverarbeitung
- Verwenden Sie die mitgelieferten Skripte, um die Daten zu verarbeiten:
bash pipeline.sh /pfad/zu/ihren/daten /pfad/zu/save/features start_stage stop_stage
start_stage
im Gesang antwortenstop_stage
Parameter werden verwendet, um den Beginn und das Ende der Verarbeitung zu spezifizieren und reichen von 0 bis 5.- Für eine schnellere Verarbeitung werden mehrere GPUs empfohlen.
Funktion Betriebsablauf
- Datensatz-Download: Besuchen Sie die GitHub-Seite, um die erforderlichen Datensatzdateien herunterzuladen.
- Datenverarbeitung: Folgen Sie den obigen Schritten, um die Abhängigkeiten zu installieren und die Verarbeitungsskripte auszuführen, um die erforderlichen Merkmalsdateien zu erzeugen.
- Modelltraining: Verwenden Sie die verarbeiteten Daten für das Modelltraining. Die genauen Schritte entnehmen Sie bitte dem Beispielcode im Projektdokument.
- Analyse der Ergebnisse: Erstellung von Rap-Texten anhand des erstellten Modells sowie Analyse und Optimierung der Ergebnisse.
Detaillierte Funktionen
- Datensatz DownloadEin Datensatz mit mehr als 90.000 Rap-Songs steht den Nutzern zum Download zur Verfügung und kann bei Bedarf für Forschung und Entwicklung verwendet werden.
- Pipeline für die DatenverarbeitungUmfasst mehrere Schritte wie Quellentrennung, Segmentierung und Texterkennung, um die Benutzer bei der effizienten Verarbeitung und Analyse von Daten zu unterstützen.
- Ausführliche DokumentationDas Projekt bietet vollständige Anleitungen und Beispielcode, um den Benutzern einen schnellen Einstieg und eine sekundäre Entwicklung zu ermöglichen.
- offene QuelleDer gesamte Code und die Daten sind Open Source auf GitHub und können von den Nutzern frei heruntergeladen und verwendet werden.
- LizenzDie Daten und der Code unterliegen der CC BY-NC-SA 4.0-Lizenzvereinbarung, die sicherstellt, dass der Nutzer sie innerhalb der rechtlichen Grenzen verwendet.