AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

Text2Voice: eine grafische Text-zu-Sprache-Schnittstelle auf der Grundlage von Silizium-basierten Flow-APIs

Allgemeine Einführung

Text2Voice ist ein Open-Source-Tool, das Text-zu-Sprache-Funktionen auf der Grundlage einer siliziumbasierten Mobilitäts-API bietet und sich durch eine übersichtliche grafische Benutzeroberfläche (GUI) auszeichnet. Es wurde vom Entwickler Sheldon Lee auf GitHub erstellt, um Benutzern die Möglichkeit zu geben, Text über eine Schnittstelle einfach in Sprache zu verwandeln. Das Projekt wurde in Python entwickelt und kombiniert das PyQt6-Framework, um eine intuitive Schnittstelle zu schaffen. Im Kern verwendet das Projekt eine API, um Text in Echtzeit in hörbaren Ton umzuwandeln, mit Unterstützung für mehrere Sprachen wie Chinesisch und Englisch sowie der Möglichkeit, verschiedene Töne auszuwählen. Der Code ist offen, jeder kann ihn herunterladen, ausführen oder verändern, geeignet für Menschen, die schnell Sprache oder Entwickler erzeugen wollen. Das Projekt hat eine stabile Version, praktische Funktionen, können Sie nach der Installation gestartet werden.

Text2Voice: Eine grafische Text-to-Speech-Schnittstelle auf Basis von Silicon Flow API-1


 

Funktionsliste

  • Konvertieren Sie Chinesisch, Englisch und andere mehrsprachige Texte über eine grafische Benutzeroberfläche in Sprache.
  • Bietet eine große Auswahl an Sprachtönen.
  • Unterstützt die Steuerung der Audiowiedergabe in Echtzeit, einschließlich Abspielen, Anhalten und Stoppen.
  • Zeigt ein einfaches und schönes grafisches Betriebsfenster an.
  • Automatische Verwaltung der erzeugten Audiodateien.
  • Unterstützung der Segmentierung langer Texte in Sprache.

 

Hilfe verwenden

Text2Voice basiert auf Python und der Silicon Flow API, und Sie müssen die Umgebung installieren und den Schlüssel konfigurieren, bevor Sie es verwenden können. Hier sind die detaillierten Schritte, damit Sie schnell loslegen können.

Einbauverfahren

  1. Vorbereiten der Systemumgebung
    Stellen Sie sicher, dass Ihr Computer die Anforderungen erfüllt: Windows, macOS oder Linux, 2 GB oder mehr RAM und eine stabile Internetverbindung.

    • Installation von Python: Zugriff auf https://www.python.org/Wenn Sie Python installieren möchten, laden Sie die Version 3.8 oder höher herunter und aktivieren Sie während der Installation das Kontrollkästchen "Python zu PATH hinzufügen".
    • Installation von Git: Besuchen Sie https://git-scm.com/, herunterladen und installieren.
  2. Projektcode herunterladen
    Öffnen Sie ein Terminal (CMD für Windows, Terminal für Mac/Linux) und führen Sie es aus:
git clone https://github.com/axdlee/text2voice.git

Wechseln Sie dann in das Projektverzeichnis:

cd text2voice
  1. Einrichten einer virtuellen Umgebung (empfohlen)
    Erstellen und aktivieren Sie virtuelle Umgebungen, um Abhängigkeitskonflikte zu vermeiden:
python -m venv venv
  • Fenster.
    venv\Scripts\activate
    
  • Mac/Linux.
    source venv/bin/activate
    
  1. Installation von Abhängigkeiten
    Die Projektabhängigkeiten sind in der Liste requirements.txt im Abschnitt "Installation", führen Sie den folgenden Befehl aus, um es zu installieren:
pip install -r requirements.txt

Dadurch werden die erforderlichen Bibliotheken wie PyQt6, Requests, Pygame usw. installiert.

  1. API-Schlüssel konfigurieren
    Erstellen Sie im Stammverzeichnis des Projekts die Datei .env Datei mit dem folgenden Inhalt:
SILICON_API_KEY=你的API密钥

Der API-Schlüssel muss von der Silicon Mobility-Website bezogen, ausgefüllt und gespeichert werden.

  1. laufendes Programm
    Geben Sie ihn in das Terminal ein:
python main.py

Wenn das Programm startet, erscheint eine grafische Benutzeroberfläche.

Verwendung der wichtigsten Funktionen

  1. Starten der grafischen Oberfläche
    in Bewegung sein python main.py Daraufhin wird ein Fenster mit einem Texteingabefeld und Schaltflächen angezeigt.
  2. Einstellen des API-Schlüssels
    Klicken Sie auf die Schaltfläche "Einstellungen" auf der Benutzeroberfläche und geben Sie .env Silicon Mobility API-Schlüssel in der Datei, um die Einstellungen zu speichern.
  3. Eingabetext
    Geben Sie den Text, den Sie in Sprache umwandeln möchten, in das Textfeld ein oder fügen Sie ihn ein, z. B. "Hallo, dies ist ein Test".
  4. Auswählen einer Klangfarbe
    Wählen Sie eine Stimmlage aus dem Dropdown-Menü, z. B. männlich oder weiblich (die genauen Optionen werden von der API festgelegt).
  5. in Sprache umwandeln
    Klicken Sie auf die Schaltfläche "In Sprache umwandeln", und das Programm wird den Text über die Silicon Mobility API verarbeiten, um den Ton zu erzeugen.
  6. Audio abspielen
    Nach Abschluss der Konvertierung können Sie mit der Schaltfläche "Abspielen" auf der Benutzeroberfläche die Audiodatei anhören, die mit "Pause" oder "Stopp" gesteuert werden kann.

Ausgewählte Funktionen Bedienung Ablauf

  • GUI-basierte Konvertierung von Langtext-Segmenten
    Wenn der Text mehr als 5000 Wörter umfasst, verarbeitet das Programm ihn automatisch in Segmenten. Geben Sie den kompletten Text direkt in die Benutzeroberfläche ein, klicken Sie auf "In Sprache umwandeln", und das Programm erzeugt Segment für Segment Audio. Mit der Schaltfläche "Abspielen" können Sie sich jedes Segment anhören.
  • Verwaltung von Audiodateien
    Das erzeugte Audio wird vorübergehend in der temp Ordner. Diese Dateien werden beim Beenden des Programms automatisch gelöscht. Wenn Sie sie speichern möchten, können Sie sie vor dem Beenden des Programms manuell an einen anderen Ort verschieben.
  • Wiedergabesteuerung in Echtzeit
    Die konvertierten Audiodateien können in Echtzeit abgespielt werden. Klicken Sie auf "Play", um mit dem Anhören zu beginnen, und "Pause" oder "Stop" zu jeder Zeit, alle Operationen werden in der grafischen Oberfläche durchgeführt.

caveat

  • Das Netz muss stabil sein, da die Funktionalität von der siliziumbasierten Mobilitäts-API abhängt.
  • Es wird empfohlen, dass eine einzelne Konvertierung 5000 Zeichen nicht überschreiten sollte, um API-Fehler zu vermeiden.
  • API-Schlüssel sollten geheim gehalten werden und nicht öffentlich zugänglich sein.
  • Wenn die Schnittstelle nicht antwortet, überprüfen Sie, ob Schlüssel, Netzwerk und Abhängigkeiten korrekt sind.

Mit diesen Schritten können Sie über die grafische Oberfläche von Text2Voice Text in Sprache umwandeln. Entwickler können den Code auch ändern, um die Schnittstelle oder die Funktionalität anzupassen.

 

Anwendungsszenario

  1. Pädagogische Hilfsmittel
    Konvertiert Text in Sprache mit einer grafischen Oberfläche zum einfachen Zuhören und Lernen.
  2. Erstellung von Inhalten
    Generieren Sie Sprache für Videos oder Podcasts mit einfacher, zeitsparender Bedienung.
  3. Unterstützung der Barrierefreiheit
    Helfen Sie sehbehinderten Menschen beim Zugang zu Informationen, indem Sie Text über eine Schnittstelle in Sprache umwandeln.

 

QA

  1. Welche Sprachen werden unterstützt?
    Es werden mehrere Sprachen unterstützt, darunter Chinesisch und Englisch, wie von der Silicon Mobility API festgelegt.
  2. Warum antwortet die Schnittstelle nicht?
    Es könnte sich um einen API-Schlüsselfehler, ein Netzwerkproblem oder eine Abhängigkeit handeln, die nicht ordnungsgemäß installiert wurde. Prüfen und erneut versuchen.
  3. Wo werden die Audiodateien gespeichert?
    Vorübergehend gespeichert in temp der nach Beendigung des Programms automatisch gelöscht wird.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Text2Voice: eine grafische Text-zu-Sprache-Schnittstelle auf der Grundlage von Silizium-basierten Flow-APIs
de_DEDeutsch