Text2Voice: una interfaz gráfica de texto a voz basada en API de flujo de silicio
Últimos recursos sobre IAActualizado hace 4 meses Círculo de intercambio de inteligencia artificial 2.1K 00
Introducción general
Text2Voice es una herramienta de código abierto que ofrece funciones de conversión de texto en voz basadas en una API de movilidad de silicio, con una interfaz gráfica de usuario (GUI) limpia como mejor característica. Fue creada por el desarrollador Sheldon Lee en GitHub para permitir a los usuarios convertir fácilmente texto en voz a través de una interfaz. El proyecto está desarrollado en Python y combina el framework PyQt6 para crear una interfaz intuitiva. En esencia, el proyecto utiliza una API para convertir texto en audio audible en tiempo real, con soporte para múltiples idiomas como chino e inglés, así como la posibilidad de seleccionar diferentes tonos. El código es abierto, cualquiera puede descargarlo, ejecutarlo o modificarlo , adecuado para personas que quieran generar rápidamente voz o desarrolladores. El proyecto cuenta con una versión estable , características prácticas , usted puede comenzar después de la instalación .

Lista de funciones
- Convierte texto chino, inglés y otros idiomas a voz mediante una interfaz gráfica.
- Ofrece una amplia selección de tonos de voz.
- Admite control de reproducción de audio en tiempo real, incluyendo reproducción, pausa y parada.
- Muestra una ventana gráfica de funcionamiento sencilla y atractiva.
- Gestión automática de los archivos de audio generados.
- Soporta la segmentación de texto largo a voz.
Utilizar la ayuda
Text2Voice se basa en Python y en la API Silicon Flow, y es necesario instalar el entorno y configurar la clave antes de utilizarlo. Aquí tienes los pasos detallados para ayudarte a empezar rápidamente.
Proceso de instalación
- Preparación del entorno del sistema
Asegúrese de que su ordenador cumple los requisitos: Windows, macOS o Linux, 2 GB o más de RAM y una conexión estable a Internet.- Instalación de Python: Acceso
https://www.python.org/
Si desea instalar Python, descargue la versión 3.8 o superior y marque la casilla "Añadir Python al PATH" durante la instalación. - Instalación de Git: Visita
https://git-scm.com/
descargar e instalar.
- Instalación de Python: Acceso
- Descargar el código del proyecto
Abra un terminal (CMD para Windows, Terminal para Mac/Linux) y ejecútelo:
git clone https://github.com/axdlee/text2voice.git
A continuación, vaya al directorio del proyecto:
cd text2voice
- Configuración de un entorno virtual (recomendado)
Cree y active entornos virtuales para evitar conflictos de dependencias:
python -m venv venv
- Ventanas.
venv\Scripts\activate
- Mac/Linux.
source venv/bin/activate
- Instalación de dependencias
Las dependencias del proyecto se enumeran enrequirements.txt
en la sección "Instalación", ejecute el siguiente comando para instalarlo:
pip install -r requirements.txt
Esto instalará las librerías necesarias como PyQt6, Requests, Pygame, etc.
- Configuración de claves API
En el directorio raíz del proyecto, cree el archivo.env
con el siguiente contenido:
SILICON_API_KEY=你的API密钥
La clave API debe obtenerse en el sitio web de Silicon Mobility, rellenarse y guardarse.
- programa de carrera
Introdúcelo en el terminal:
python main.py
Cuando se inicia el programa, aparece una interfaz gráfica.
Cómo utilizar las principales funciones
- Iniciar la interfaz gráfica
estar en movimientopython main.py
A continuación, aparecerá una ventana con un cuadro de introducción de texto y botones de control. - Configuración de la clave API
Haga clic en el botón "Configuración" de la interfaz e introduzca.env
Clave API de Silicon Mobility en el archivo para guardar la configuración. - texto introducido
Escriba o pegue el texto que desea convertir a voz en el cuadro de texto, por ejemplo: "Hola, esto es una prueba". - Seleccionar un tono
Elige un tono de voz del menú desplegable, por ejemplo masculino o femenino (las opciones exactas las determina la API). - convertir a voz
Pulsa el botón "Convertir a voz" y el programa procesará el texto a través de la API de Silicon Mobility para generar el audio. - Reproducir audio
Una vez finalizada la conversión, utiliza el botón "Reproducir" de la interfaz para escuchar el audio, que puede controlarse mediante "Pausa" o "Detener".
Funciones destacadas Procedimiento de funcionamiento
- Conversión de segmentación de texto largo basada en GUI
Si el texto supera las 5000 palabras, el programa lo procesará automáticamente por segmentos. Introduce el texto completo directamente en la interfaz, haz clic en "Convertir a voz", el programa generará audio segmento a segmento. Puedes utilizar el botón de reproducción para escuchar cada segmento. - Gestión de archivos de audio
El audio generado se almacena temporalmente en eltemp
carpeta. Estos archivos se borran automáticamente al salir del programa. Si desea guardarlos, puede moverlos manualmente a otro lugar antes de salir. - Control de reproducción en tiempo real
El audio convertido admite el funcionamiento en tiempo real. Haz clic en "Reproducir" para empezar a escuchar, "Pausa" o "Detener" en cualquier momento, la operación se realiza en la interfaz gráfica.
advertencia
- La red tiene que ser estable porque la funcionalidad depende de la API de movilidad basada en silicio.
- Se recomienda que una sola conversión no supere los 5000 caracteres para evitar errores de la API.
- Las claves API deben mantenerse en secreto y no compartirse públicamente.
- Si la interfaz no responde, compruebe que la clave, la red y las dependencias son correctas.
Con estos pasos, puedes convertir texto en voz utilizando la interfaz gráfica de Text2Voice. Los desarrolladores también pueden modificar el código para ajustar la interfaz o la funcionalidad.
escenario de aplicación
- Ayudas educativas
Convierte texto a voz con una interfaz gráfica para facilitar la escucha y el aprendizaje. - creación de contenidos
Genere voz para vídeos o podcasts de forma sencilla y ahorrando tiempo. - Apoyo a la accesibilidad
Ayuda a las personas con discapacidad visual a acceder a la información convirtiendo el texto en voz a través de una interfaz.
CONTROL DE CALIDAD
- ¿Qué idiomas se admiten?
Se admiten varios idiomas, incluidos el chino y el inglés, según determine la API de Silicon Mobility. - ¿Por qué no responde la interfaz?
Podría tratarse de un error en la clave API, un problema de red o una dependencia que no se ha instalado correctamente. Compruébelo y vuelva a intentarlo. - ¿Dónde se almacenan los archivos de audio?
Almacenado temporalmente entemp
que se limpia automáticamente al cerrar el programa.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...