OpenAI.fm: una herramienta de demostración interactiva de las API de voz de OpenAI
Últimos recursos sobre IAPublicado hace 4 meses Círculo de intercambio de inteligencia artificial 1.8K 00
Introducción general
openai-fm es un proyecto de código abierto alojado en GitHub dedicado a demostrar las capacidades de la API de conversión de texto a voz (TTS) de OpenAI. Este proyecto permite a los desarrolladores experimentar visualmente las capacidades de generación de voz de OpenAI a través de una aplicación web interactiva. Se desarrolló utilizando el framework NextJS, combinado con TailwindCSS y ShadcnUI para crear una interfaz limpia y moderna. Los usuarios pueden introducir texto, seleccionar diferentes estilos de voz y emociones para generar una salida de voz de alta calidad. El código del proyecto es completamente de código abierto, siguiendo la licencia MIT, se anima a los desarrolladores a clonar, modificar y contribuir al código. openai-fm es adecuado para que los desarrolladores entiendan y prueben rápidamente la API de voz OpenAI, especialmente adecuado para escenarios de desarrollo de aplicaciones que requieren funcionalidad de voz.

Dirección de demostración: https://www.openai.fm/
Lista de funciones
- Conversión de texto a voz: Convierte el texto introducido en voz natural y fluida.
- Múltiples opciones de voz: Ofrece múltiples opciones de voz para satisfacer las necesidades de diferentes escenarios.
- Control del estilo emocional: permite ajustar el tono emocional de la voz, como amistoso, serio, etc.
- Presentación interactiva en tiempo real: generar y reproducir discurso en tiempo real a través de una interfaz web.
- Función de compartición de base de datos: admite la conexión a la base de datos PostgreSQL para guardar y compartir el discurso generado.
- Soporte de código abierto: proporciona el código fuente completo, lo que permite a los desarrolladores personalizar y ampliar las funciones.
Utilizar la ayuda
Proceso de instalación
Para utilizar openai-fm, primero hay que clonar el proyecto y configurar el entorno. Aquí están los pasos detallados:
- Obtener la clave API
Visite el sitio web de OpenAI para registrarse o iniciar sesión en su cuenta. En el panel de control de su cuenta, vaya a la página de gestión de claves de API y haga clic en "Crear una nueva clave" para generar y guardar su clave de API.OPENAI_API_KEY
Esta clave se utiliza para llamar a la API de voz de OpenAI. Esta clave se utiliza para llamar a la API de voz de OpenAI. nota: la clave debe mantenerse en secreto para evitar su divulgación. - almacén de clones
Abra un terminal y ejecute el siguiente comando para clonar el repositorio openai-fm:git clone https://github.com/openai/openai-fm.git
Vaya al catálogo de proyectos:
cd openai-fm
- Configuración de variables de entorno
Puede configurarlo de dos manerasOPENAI_API_KEY
::- configuración globalAñada lo siguiente a las variables de entorno de su sistema
OPENAI_API_KEY
.- Linux/MacOS Ejemplo:
export OPENAI_API_KEY=<你的API密钥>
- Los usuarios de Windows pueden añadir variables de entorno en la Configuración del sistema.
- Linux/MacOS Ejemplo:
- Entorno del proyecto: Crear el
.env
Documentación, referencia.env.example
añade lo siguiente:OPENAI_API_KEY=<你的API密钥>
- configuración globalAñada lo siguiente a las variables de entorno de su sistema
- Instalación de dependencias
El proyecto utiliza Node.js y npm para gestionar las dependencias. Asegúrate de tener instalado Node.js (se recomienda la versión 16 o superior). Ejecútalo desde el directorio raíz del proyecto:npm install
Esto instalará las dependencias necesarias como NextJS, TailwindCSS, ShadcnUI y así sucesivamente.
- (Opcional) Base de datos de configuración
Si necesita utilizar la función de compartir, debe conectarse a la base de datos PostgreSQL. En la.env
para añadir información sobre la conexión a la base de datos, consulte la sección.env.example
::POSTGRES_URL="postgresql://用户名:密码@主机:端口/数据库名"
Asegúrese de que el servicio PostgreSQL se está ejecutando y de que se ha creado la base de datos adecuada. Si no utiliza la función de uso compartido, puede omitir este paso.
- Proyectos en curso
Una vez finalizada la instalación, ejecute el siguiente comando para iniciar el servidor de desarrollo:npm run dev
Abra su navegador y visite
http://localhost:3000
Puedes ver la interfaz interactiva de openai-fm.
Funciones principales
El núcleo de openai-fm es la demostración interactiva de texto a voz. Este es el proceso:
- texto introducido
Introduce el texto que quieras convertir a voz en el cuadro de texto de la interfaz web. Admite varias líneas de texto, por lo que es adecuado para diálogos o guiones largos. Ejemplo:你好!这是一个测试,展示如何将文本转为自然语音。
- Selección de voz y emoción
La interfaz ofrece menús desplegables con las opciones de voz disponibles (por ejemplo, hombre, mujer) y los estilos emocionales (por ejemplo, amable, serio). Estas opciones se basan en eldata/voices.json
responder cantandodata/vibes.json
Configuración del archivo. Después de seleccionarlo, haz clic en el botón "Generar", y el sistema llamará a la API de voz OpenAI para generar el audio. - Reproducción y descarga
El audio generado se reproduce automáticamente en la página. También puede descargar el archivo de audio, que se guarda por defecto en formato WAV y se almacena en el directorio del proyecto en la carpetaoutput/
con nombres de archivo que empiecen poropenaifm_
Inicio y marca de tiempo. - Función Compartir
Si se configura una base de datos PostgreSQL, la voz generada se puede guardar en la base de datos y se puede generar un enlace para compartir. Al hacer clic en el botón "Compartir" aparecerá una URL accesible en la que otros usuarios podrán ver y reproducir tu voz.
Personalización para desarrolladores
openai-fm es un proyecto de código abierto , los desarrolladores pueden modificar el código según sea necesario . Por ejemplo:
- Añadir nueva voz:: Editorial
data/voices.json
Añadir nuevas configuraciones de voz. - Ajuste de la interfazModificar los componentes de NextJS (p. ej.
pages/index.js
) o estilos TailwindCSS. - Funciones ampliadas: Añade nuevas llamadas a la API o integra otros servicios.
Para contribuir con código, haz un fork del repositorio, crea una rama y envía una pull request; lee las directrices del proyecto antes de contribuir para asegurarte de que tu código es compatible. [](https://github.com/openai/openai-fm)[](https://github.com/fairy-root/ComfyUI-OpenAI-FM)
advertencia
- Tasas APIEl uso de la API OpenAI Speech conlleva una cuota, dependiendo del uso. Controle su cuota de API en el panel de control de OpenAI.
- seguridadSi se despliega en un servidor público, asegúrese de que
.env
no se hace público para evitar fugas de claves API. - Apoyo comunitarioSi tiene algún problema, envíe una incidencia a GitHub y la comunidad le ayudará.
escenario de aplicación
- Los desarrolladores prueban la API de voz
Los desarrolladores pueden utilizar openai-fm para probar rápidamente la eficacia de la API de voz de OpenAI, validar el rendimiento de distintos estilos de voz y emoción y optimizar las soluciones de integración de aplicaciones. - Producción de contenidos educativos y de formación
Los profesores o formadores pueden convertir los guiones de los cursos en voz para generar un audio natural y fluido para su uso en cursos en línea o vídeos didácticos. - Ayudas a la accesibilidad
openai-fm genera lecturas de voz para usuarios con discapacidad visual con el fin de ayudarles a acceder a la información de texto. - Creación de contenidos creativos
Los productores de podcasts o creadores de contenidos pueden utilizar openai-fm para generar voces personalizadas y crear rápidamente muestras de audición.
CONTROL DE CALIDAD
- ¿Tengo que pagar por openai-fm?
El proyecto en sí es gratuito, pero para utilizar la API de voz de OpenAI se necesita una clave de API válida y una tarifa basada en el uso. Recomendamos consultar el sitio web oficial de OpenAI para conocer los precios. - ¿Cómo añado una nueva opción de voz?
Edite el directorio del proyecto endata/voices.json
para añadir la nueva configuración de voz. Tras reiniciar el servidor, la nueva voz aparece en el menú desplegable. - ¿Tengo que utilizar una base de datos para la función de compartir?
Sí, la función de compartir requiere soporte de base de datos PostgreSQL. Si no configuras la base de datos, podrás seguir generando y reproduciendo voz con normalidad. - ¿Es posible utilizar openai-fm en el móvil?
La interfaz web de openai-fm es compatible con el diseño responsivo y se puede acceder a ella en navegadores móviles, siempre que se disponga de una conexión a Internet estable.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...