Text2Voice: una interfaz gráfica de texto a voz basada en API de flujo de silicio

Últimos recursos sobre IAActualizado hace 11 meses Círculo de intercambio de inteligencia artificial

53.4K 00

Introducción general

Text2Voice es una herramienta de código abierto que ofrece funciones de conversión de texto en voz basadas en una API de movilidad de silicio, con una interfaz gráfica de usuario (GUI) limpia como mejor característica. Fue creada por el desarrollador Sheldon Lee en GitHub para permitir a los usuarios convertir fácilmente texto en voz a través de una interfaz. El proyecto está desarrollado en Python y combina el framework PyQt6 para crear una interfaz intuitiva. En esencia, el proyecto utiliza una API para convertir texto en audio audible en tiempo real, con soporte para múltiples idiomas como chino e inglés, así como la posibilidad de seleccionar diferentes tonos. El código es abierto, cualquiera puede descargarlo, ejecutarlo o modificarlo , adecuado para personas que quieran generar rápidamente voz o desarrolladores. El proyecto cuenta con una versión estable , características prácticas , usted puede comenzar después de la instalación .

Lista de funciones

Convierte texto chino, inglés y otros idiomas a voz mediante una interfaz gráfica.
Ofrece una amplia selección de tonos de voz.
Admite control de reproducción de audio en tiempo real, incluyendo reproducción, pausa y parada.
Muestra una ventana gráfica de funcionamiento sencilla y atractiva.
Gestión automática de los archivos de audio generados.
Soporta la segmentación de texto largo a voz.

Utilizar la ayuda

Text2Voice se basa en Python y en la API Silicon Flow, y es necesario instalar el entorno y configurar la clave antes de utilizarlo. Aquí tienes los pasos detallados para ayudarte a empezar rápidamente.

Proceso de instalación

Preparación del entorno del sistema
Asegúrese de que su ordenador cumple los requisitos: Windows, macOS o Linux, 2 GB o más de RAM y una conexión estable a Internet.
- Instalación de Python: Acceso https://www.python.org/Si desea instalar Python, descargue la versión 3.8 o superior y marque la casilla "Añadir Python al PATH" durante la instalación.
- Instalación de Git: Visita https://git-scm.com/descargar e instalar.
Descargar el código del proyecto
Abra un terminal (CMD para Windows, Terminal para Mac/Linux) y ejecútelo:

git clone https://github.com/axdlee/text2voice.git

A continuación, vaya al directorio del proyecto:

cd text2voice

Configuración de un entorno virtual (recomendado)
Cree y active entornos virtuales para evitar conflictos de dependencias:

python -m venv venv

Ventanas.
```
venv\Scripts\activate
```
Mac/Linux.
```
source venv/bin/activate
```

Instalación de dependencias
Las dependencias del proyecto se enumeran en requirements.txt en la sección "Instalación", ejecute el siguiente comando para instalarlo:

pip install -r requirements.txt

Esto instalará las librerías necesarias como PyQt6, Requests, Pygame, etc.

Configuración de claves API
En el directorio raíz del proyecto, cree el archivo .env con el siguiente contenido:

SILICON_API_KEY=你的API密钥

La clave API debe obtenerse en el sitio web de Silicon Mobility, rellenarse y guardarse.

programa de carrera
Introdúcelo en el terminal:

python main.py

Cuando se inicia el programa, aparece una interfaz gráfica.

Cómo utilizar las principales funciones

Iniciar la interfaz gráfica
estar en movimiento python main.py A continuación, aparecerá una ventana con un cuadro de introducción de texto y botones de control.
Configuración de la clave API
Haga clic en el botón "Configuración" de la interfaz e introduzca .env Clave API de Silicon Mobility en el archivo para guardar la configuración.
texto introducido
Escriba o pegue el texto que desea convertir a voz en el cuadro de texto, por ejemplo: "Hola, esto es una prueba".
Seleccionar un tono
Elige un tono de voz del menú desplegable, por ejemplo masculino o femenino (las opciones exactas las determina la API).
convertir a voz
Pulsa el botón "Convertir a voz" y el programa procesará el texto a través de la API de Silicon Mobility para generar el audio.
Reproducir audio
Una vez finalizada la conversión, utiliza el botón "Reproducir" de la interfaz para escuchar el audio, que puede controlarse mediante "Pausa" o "Detener".

Funciones destacadas Procedimiento de funcionamiento

Conversión de segmentación de texto largo basada en GUI
Si el texto supera las 5000 palabras, el programa lo procesará automáticamente por segmentos. Introduce el texto completo directamente en la interfaz, haz clic en "Convertir a voz", el programa generará audio segmento a segmento. Puedes utilizar el botón de reproducción para escuchar cada segmento.
Gestión de archivos de audio
El audio generado se almacena temporalmente en el temp carpeta. Estos archivos se borran automáticamente al salir del programa. Si desea guardarlos, puede moverlos manualmente a otro lugar antes de salir.
Control de reproducción en tiempo real
El audio convertido admite el funcionamiento en tiempo real. Haz clic en "Reproducir" para empezar a escuchar, "Pausa" o "Detener" en cualquier momento, la operación se realiza en la interfaz gráfica.

advertencia

La red tiene que ser estable porque la funcionalidad depende de la API de movilidad basada en silicio.
Se recomienda que una sola conversión no supere los 5000 caracteres para evitar errores de la API.
Las claves API deben mantenerse en secreto y no compartirse públicamente.
Si la interfaz no responde, compruebe que la clave, la red y las dependencias son correctas.

Con estos pasos, puedes convertir texto en voz utilizando la interfaz gráfica de Text2Voice. Los desarrolladores también pueden modificar el código para ajustar la interfaz o la funcionalidad.

escenario de aplicación

Ayudas educativas
Convierte texto a voz con una interfaz gráfica para facilitar la escucha y el aprendizaje.
creación de contenidos
Genere voz para vídeos o podcasts de forma sencilla y ahorrando tiempo.
Apoyo a la accesibilidad
Ayuda a las personas con discapacidad visual a acceder a la información convirtiendo el texto en voz a través de una interfaz.

CONTROL DE CALIDAD

¿Qué idiomas se admiten?
Se admiten varios idiomas, incluidos el chino y el inglés, según determine la API de Silicon Mobility.
¿Por qué no responde la interfaz?
Podría tratarse de un error en la clave API, un problema de red o una dependencia que no se ha instalado correctamente. Compruébelo y vuelva a intentarlo.
¿Dónde se almacenan los archivos de audio?
Almacenado temporalmente en temp que se limpia automáticamente al cerrar el programa.

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Goedel-Prover-V2 - Modelo de demostración de teoremas de código abierto de Princeton en colaboración con Tsinghua y NVIDIA, entre otros.

Últimos recursos sobre IA

hace 8 meses

043.7K

RMBG-2-Studio：批量移除图像和视频背景的开源程序，基于RMBG 2.0优化

RMBG-2-Studio: programa de código abierto para la eliminación por lotes de fondos de imágenes y vídeos, optimizado para RMBG 2.0

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Teclado AI para cambiar fondos

hace 1 año

077.7K

Ollama+LangGraph Asistente local de generación de informes de investigación académica

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI Herramientas educativas

hace 1 año

051.8K

CYAN.AI（青色木偶科技）：动作生成大模型，实现2D视频生成3D动作数据的AI平台

CYAN.AI (Cyan Puppet Technology): gran modelo generador de acciones, plataforma de IA para generar datos de acciones en 3D a partir de vídeos en 2D.

Últimos recursos sobre IA # AI Ayudas para la generación de imágenes

hace 1 año

065K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Text2Voice: una interfaz gráfica de texto a voz basada en API de flujo de silicio

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Cómo utilizar las principales funciones

Funciones destacadas Procedimiento de funcionamiento

advertencia

escenario de aplicación

CONTROL DE CALIDAD

FreeAI: herramienta gratuita de IA basada en el paquete Pollinations.

BabelDOC: los documentos PDF se traducirán a herramientas bilingües de código abierto

Artículos relacionados

Goedel-Prover-V2 - Modelo de demostración de teoremas de código abierto de Princeton en colaboración con Tsinghua y NVIDIA, entre otros.

RMBG-2-Studio: programa de código abierto para la eliminación por lotes de fondos de imágenes y vídeos, optimizado para RMBG 2.0

Ollama+LangGraph Asistente local de generación de informes de investigación académica

CYAN.AI (Cyan Puppet Technology): gran modelo generador de acciones, plataforma de IA para generar datos de acciones en 3D a partir de vídeos en 2D.

Sin comentarios

Últimas colecciones

Últimos artículos

Text2Voice: una interfaz gráfica de texto a voz basada en API de flujo de silicio

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Cómo utilizar las principales funciones

Funciones destacadas Procedimiento de funcionamiento

advertencia

escenario de aplicación

CONTROL DE CALIDAD

FreeAI: herramienta gratuita de IA basada en el paquete Pollinations.

BabelDOC: los documentos PDF se traducirán a herramientas bilingües de código abierto

Artículos relacionados

Goedel-Prover-V2 - Modelo de demostración de teoremas de código abierto de Princeton en colaboración con Tsinghua y NVIDIA, entre otros.

RMBG-2-Studio: programa de código abierto para la eliminación por lotes de fondos de imágenes y vídeos, optimizado para RMBG 2.0

Ollama+LangGraph Asistente local de generación de informes de investigación académica

CYAN.AI (Cyan Puppet Technology): gran modelo generador de acciones, plataforma de IA para generar datos de acciones en 3D a partir de vídeos en 2D.

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos