Text2Voice: una interfaz gráfica de texto a voz basada en API de flujo de silicio

Introducción general

Text2Voice es una herramienta de código abierto que ofrece funciones de conversión de texto en voz basadas en una API de movilidad de silicio, con una interfaz gráfica de usuario (GUI) limpia como mejor característica. Fue creada por el desarrollador Sheldon Lee en GitHub para permitir a los usuarios convertir fácilmente texto en voz a través de una interfaz. El proyecto está desarrollado en Python y combina el framework PyQt6 para crear una interfaz intuitiva. En esencia, el proyecto utiliza una API para convertir texto en audio audible en tiempo real, con soporte para múltiples idiomas como chino e inglés, así como la posibilidad de seleccionar diferentes tonos. El código es abierto, cualquiera puede descargarlo, ejecutarlo o modificarlo , adecuado para personas que quieran generar rápidamente voz o desarrolladores. El proyecto cuenta con una versión estable , características prácticas , usted puede comenzar después de la instalación .

Text2Voice:基于硅基流动API的文本转语音图形界面

 

Lista de funciones

  • Convierte texto chino, inglés y otros idiomas a voz mediante una interfaz gráfica.
  • Ofrece una amplia selección de tonos de voz.
  • Admite control de reproducción de audio en tiempo real, incluyendo reproducción, pausa y parada.
  • Muestra una ventana gráfica de funcionamiento sencilla y atractiva.
  • Gestión automática de los archivos de audio generados.
  • Soporta la segmentación de texto largo a voz.

 

Utilizar la ayuda

Text2Voice se basa en Python y en la API Silicon Flow, y es necesario instalar el entorno y configurar la clave antes de utilizarlo. Aquí tienes los pasos detallados para ayudarte a empezar rápidamente.

Proceso de instalación

  1. Preparación del entorno del sistema
    Asegúrese de que su ordenador cumple los requisitos: Windows, macOS o Linux, 2 GB o más de RAM y una conexión estable a Internet.

    • Instalación de Python: Acceso https://www.python.org/Si desea instalar Python, descargue la versión 3.8 o superior y marque la casilla "Añadir Python al PATH" durante la instalación.
    • Instalación de Git: Visita https://git-scm.com/descargar e instalar.
  2. Descargar el código del proyecto
    Abra un terminal (CMD para Windows, Terminal para Mac/Linux) y ejecútelo:
git clone https://github.com/axdlee/text2voice.git

A continuación, vaya al directorio del proyecto:

cd text2voice
  1. Configuración de un entorno virtual (recomendado)
    Cree y active entornos virtuales para evitar conflictos de dependencias:
python -m venv venv
  • Ventanas.
    venv\Scripts\activate
    
  • Mac/Linux.
    source venv/bin/activate
    
  1. Instalación de dependencias
    Las dependencias del proyecto se enumeran en requirements.txt en la sección "Instalación", ejecute el siguiente comando para instalarlo:
pip install -r requirements.txt

Esto instalará las librerías necesarias como PyQt6, Requests, Pygame, etc.

  1. Configuración de claves API
    En el directorio raíz del proyecto, cree el archivo .env con el siguiente contenido:
SILICON_API_KEY=你的API密钥

La clave API debe obtenerse en el sitio web de Silicon Mobility, rellenarse y guardarse.

  1. programa de carrera
    Introdúcelo en el terminal:
python main.py

Cuando se inicia el programa, aparece una interfaz gráfica.

Cómo utilizar las principales funciones

  1. Iniciar la interfaz gráfica
    estar en movimiento python main.py A continuación, aparecerá una ventana con un cuadro de introducción de texto y botones de control.
  2. Configuración de la clave API
    Haga clic en el botón "Configuración" de la interfaz e introduzca .env Clave API de Silicon Mobility en el archivo para guardar la configuración.
  3. texto introducido
    Escriba o pegue el texto que desea convertir a voz en el cuadro de texto, por ejemplo: "Hola, esto es una prueba".
  4. Seleccionar un tono
    Elige un tono de voz del menú desplegable, por ejemplo masculino o femenino (las opciones exactas las determina la API).
  5. convertir a voz
    Pulsa el botón "Convertir a voz" y el programa procesará el texto a través de la API de Silicon Mobility para generar el audio.
  6. Reproducir audio
    Una vez finalizada la conversión, utiliza el botón "Reproducir" de la interfaz para escuchar el audio, que puede controlarse mediante "Pausa" o "Detener".

Funciones destacadas Procedimiento de funcionamiento

  • Conversión de segmentación de texto largo basada en GUI
    Si el texto supera las 5000 palabras, el programa lo procesará automáticamente por segmentos. Introduce el texto completo directamente en la interfaz, haz clic en "Convertir a voz", el programa generará audio segmento a segmento. Puedes utilizar el botón de reproducción para escuchar cada segmento.
  • Gestión de archivos de audio
    El audio generado se almacena temporalmente en el temp carpeta. Estos archivos se borran automáticamente al salir del programa. Si desea guardarlos, puede moverlos manualmente a otro lugar antes de salir.
  • Control de reproducción en tiempo real
    El audio convertido admite el funcionamiento en tiempo real. Haz clic en "Reproducir" para empezar a escuchar, "Pausa" o "Detener" en cualquier momento, la operación se realiza en la interfaz gráfica.

advertencia

  • La red tiene que ser estable porque la funcionalidad depende de la API de movilidad basada en silicio.
  • Se recomienda que una sola conversión no supere los 5000 caracteres para evitar errores de la API.
  • Las claves API deben mantenerse en secreto y no compartirse públicamente.
  • Si la interfaz no responde, compruebe que la clave, la red y las dependencias son correctas.

Con estos pasos, puedes convertir texto en voz utilizando la interfaz gráfica de Text2Voice. Los desarrolladores también pueden modificar el código para ajustar la interfaz o la funcionalidad.

 

escenario de aplicación

  1. Ayudas educativas
    Convierte texto a voz con una interfaz gráfica para facilitar la escucha y el aprendizaje.
  2. creación de contenidos
    Genere voz para vídeos o podcasts de forma sencilla y ahorrando tiempo.
  3. Apoyo a la accesibilidad
    Ayuda a las personas con discapacidad visual a acceder a la información convirtiendo el texto en voz a través de una interfaz.

 

CONTROL DE CALIDAD

  1. ¿Qué idiomas se admiten?
    Se admiten varios idiomas, incluidos el chino y el inglés, según determine la API de Silicon Mobility.
  2. ¿Por qué no responde la interfaz?
    Podría tratarse de un error en la clave API, un problema de red o una dependencia que no se ha instalado correctamente. Compruébelo y vuelva a intentarlo.
  3. ¿Dónde se almacenan los archivos de audio?
    Almacenado temporalmente en temp que se limpia automáticamente al cerrar el programa.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...