OpenAI.fm: una herramienta de demostración interactiva de las API de voz de OpenAI

Últimos recursos sobre IAPublicado hace 11 meses Círculo de intercambio de inteligencia artificial

106.2K 00

Introducción general

openai-fm es un proyecto de código abierto alojado en GitHub dedicado a demostrar las capacidades de la API de conversión de texto a voz (TTS) de OpenAI. Este proyecto permite a los desarrolladores experimentar visualmente las capacidades de generación de voz de OpenAI a través de una aplicación web interactiva. Se desarrolló utilizando el framework NextJS, combinado con TailwindCSS y ShadcnUI para crear una interfaz limpia y moderna. Los usuarios pueden introducir texto, seleccionar diferentes estilos de voz y emociones para generar una salida de voz de alta calidad. El código del proyecto es completamente de código abierto, siguiendo la licencia MIT, se anima a los desarrolladores a clonar, modificar y contribuir al código. openai-fm es adecuado para que los desarrolladores entiendan y prueben rápidamente la API de voz OpenAI, especialmente adecuado para escenarios de desarrollo de aplicaciones que requieren funcionalidad de voz.

Dirección de demostración: https://www.openai.fm/

Lista de funciones

Conversión de texto a voz: Convierte el texto introducido en voz natural y fluida.
Múltiples opciones de voz: Ofrece múltiples opciones de voz para satisfacer las necesidades de diferentes escenarios.
Control del estilo emocional: permite ajustar el tono emocional de la voz, como amistoso, serio, etc.
Presentación interactiva en tiempo real: generar y reproducir discurso en tiempo real a través de una interfaz web.
Función de compartición de base de datos: admite la conexión a la base de datos PostgreSQL para guardar y compartir el discurso generado.
Soporte de código abierto: proporciona el código fuente completo, lo que permite a los desarrolladores personalizar y ampliar las funciones.

Utilizar la ayuda

Proceso de instalación

Para utilizar openai-fm, primero hay que clonar el proyecto y configurar el entorno. Aquí están los pasos detallados:

Obtener la clave API
Visite el sitio web de OpenAI para registrarse o iniciar sesión en su cuenta. En el panel de control de su cuenta, vaya a la página de gestión de claves de API y haga clic en "Crear una nueva clave" para generar y guardar su clave de API. OPENAI_API_KEYEsta clave se utiliza para llamar a la API de voz de OpenAI. Esta clave se utiliza para llamar a la API de voz de OpenAI. nota: la clave debe mantenerse en secreto para evitar su divulgación.
almacén de clones
Abra un terminal y ejecute el siguiente comando para clonar el repositorio openai-fm:
```
git clone https://github.com/openai/openai-fm.git
```

Vaya al catálogo de proyectos:

cd openai-fm

Configuración de variables de entorno
Puede configurarlo de dos maneras OPENAI_API_KEY::
- configuración globalAñada lo siguiente a las variables de entorno de su sistema OPENAI_API_KEY.
  - Linux/MacOS Ejemplo:
```
export OPENAI_API_KEY=<你的API密钥>
```
  - Los usuarios de Windows pueden añadir variables de entorno en la Configuración del sistema.
- Entorno del proyecto: Crear el .env Documentación, referencia .env.exampleañade lo siguiente:
```
OPENAI_API_KEY=<你的API密钥>
```
Instalación de dependencias
El proyecto utiliza Node.js y npm para gestionar las dependencias. Asegúrate de tener instalado Node.js (se recomienda la versión 16 o superior). Ejecútalo desde el directorio raíz del proyecto:
```
npm install
```
Esto instalará las dependencias necesarias como NextJS, TailwindCSS, ShadcnUI y así sucesivamente.
(Opcional) Base de datos de configuración
Si necesita utilizar la función de compartir, debe conectarse a la base de datos PostgreSQL. En la .env para añadir información sobre la conexión a la base de datos, consulte la sección .env.example::
```
POSTGRES_URL="postgresql://用户名:密码@主机:端口/数据库名"
```
Asegúrese de que el servicio PostgreSQL se está ejecutando y de que se ha creado la base de datos adecuada. Si no utiliza la función de uso compartido, puede omitir este paso.
Proyectos en curso
Una vez finalizada la instalación, ejecute el siguiente comando para iniciar el servidor de desarrollo:
```
npm run dev
```
Abra su navegador y visite http://localhost:3000Puedes ver la interfaz interactiva de openai-fm.

Funciones principales

El núcleo de openai-fm es la demostración interactiva de texto a voz. Este es el proceso:

texto introducido
Introduce el texto que quieras convertir a voz en el cuadro de texto de la interfaz web. Admite varias líneas de texto, por lo que es adecuado para diálogos o guiones largos. Ejemplo:
```
你好！这是一个测试，展示如何将文本转为自然语音。
```
Selección de voz y emoción
La interfaz ofrece menús desplegables con las opciones de voz disponibles (por ejemplo, hombre, mujer) y los estilos emocionales (por ejemplo, amable, serio). Estas opciones se basan en el data/voices.json responder cantando data/vibes.json Configuración del archivo. Después de seleccionarlo, haz clic en el botón "Generar", y el sistema llamará a la API de voz OpenAI para generar el audio.
Reproducción y descarga
El audio generado se reproduce automáticamente en la página. También puede descargar el archivo de audio, que se guarda por defecto en formato WAV y se almacena en el directorio del proyecto en la carpeta output/ con nombres de archivo que empiecen por openaifm_ Inicio y marca de tiempo.
Función Compartir
Si se configura una base de datos PostgreSQL, la voz generada se puede guardar en la base de datos y se puede generar un enlace para compartir. Al hacer clic en el botón "Compartir" aparecerá una URL accesible en la que otros usuarios podrán ver y reproducir tu voz.

Personalización para desarrolladores

openai-fm es un proyecto de código abierto , los desarrolladores pueden modificar el código según sea necesario . Por ejemplo:

Añadir nueva voz:: Editorial data/voices.jsonAñadir nuevas configuraciones de voz.
Ajuste de la interfazModificar los componentes de NextJS (p. ej. pages/index.js) o estilos TailwindCSS.
Funciones ampliadas: Añade nuevas llamadas a la API o integra otros servicios.

Para contribuir con código, haz un fork del repositorio, crea una rama y envía una pull request; lee las directrices del proyecto antes de contribuir para asegurarte de que tu código es compatible. [](https://github.com/openai/openai-fm)[](https://github.com/fairy-root/ComfyUI-OpenAI-FM)

advertencia

Tasas APIEl uso de la API OpenAI Speech conlleva una cuota, dependiendo del uso. Controle su cuota de API en el panel de control de OpenAI.
seguridadSi se despliega en un servidor público, asegúrese de que .env no se hace público para evitar fugas de claves API.
Apoyo comunitarioSi tiene algún problema, envíe una incidencia a GitHub y la comunidad le ayudará.

escenario de aplicación

Los desarrolladores prueban la API de voz
Los desarrolladores pueden utilizar openai-fm para probar rápidamente la eficacia de la API de voz de OpenAI, validar el rendimiento de distintos estilos de voz y emoción y optimizar las soluciones de integración de aplicaciones.
Producción de contenidos educativos y de formación
Los profesores o formadores pueden convertir los guiones de los cursos en voz para generar un audio natural y fluido para su uso en cursos en línea o vídeos didácticos.
Ayudas a la accesibilidad
openai-fm genera lecturas de voz para usuarios con discapacidad visual con el fin de ayudarles a acceder a la información de texto.
Creación de contenidos creativos
Los productores de podcasts o creadores de contenidos pueden utilizar openai-fm para generar voces personalizadas y crear rápidamente muestras de audición.

CONTROL DE CALIDAD

¿Tengo que pagar por openai-fm?
El proyecto en sí es gratuito, pero para utilizar la API de voz de OpenAI se necesita una clave de API válida y una tarifa basada en el uso. Recomendamos consultar el sitio web oficial de OpenAI para conocer los precios.
¿Cómo añado una nueva opción de voz?
Edite el directorio del proyecto en data/voices.json para añadir la nueva configuración de voz. Tras reiniciar el servidor, la nueva voz aparece en el menú desplegable.
¿Tengo que utilizar una base de datos para la función de compartir?
Sí, la función de compartir requiere soporte de base de datos PostgreSQL. Si no configuras la base de datos, podrás seguir generando y reproduciendo voz con normalidad.
¿Es posible utilizar openai-fm en el móvil?
La interfaz web de openai-fm es compatible con el diseño responsivo y se puede acceder a ella en navegadores móviles, siempre que se disponga de una conexión a Internet estable.