Dejar que el texto hable por sí mismo: ¿cuál es la mejor manera de elegir entre la vertiginosa variedad de herramientas TTS?

Noticias AIPublicado hace 12 meses Círculo de intercambio de inteligencia artificial

65.6K 00

Hoy vamos a hablar de una tecnología que cada vez está más de moda: el texto a voz, también conocido como TTS (Text-to-Speech). En pocas palabras, consiste en dejar que el ordenador lea en voz alta el texto, y que lo haga como el habla humana. En los últimos años, desde el doblaje de vídeos cortos, la producción de audiolibros hasta el servicio inteligente de atención al cliente, pasando por los asistentes virtuales, la figura del TTS es omnipresente. En el mercado hay un sinfín de herramientas, unas gratuitas, otras de pago, unas de código abierto, otras de código cerrado; hay servicios en línea sencillos y fáciles de usar, y también bibliotecas de desarrollo que requieren un cierto umbral técnico. Ante tantas opciones, ¿cómo debe elegir el usuario o desarrollador medio la que más le conviene?

No se preocupe, hoy echaremos un vistazo a algunas de las herramientas TTS más populares y representativas del mercado, y veremos de qué son capaces y dónde pueden utilizarse.

Fácil de usar, tipo "listo para usar

Para los usuarios que no quieren tirar de código y sólo quieren generar discurso rápidamente, son preferibles varios servicios en línea y herramientas empaquetadas.

Creador de TTS: Se trata de una herramienta en línea gratuita (disponible comercialmente). La ventaja es que admite un gran número de idiomas, más de 50, e incluso incluye dialectos como el nordestino y el cantonés, con una amplia selección de tonos. Es un buen punto de partida para creadores que hagan vídeos cortos, podcasts o que necesiten contenidos multilingües. Sin embargo, el modelo técnico específico que hay detrás no está claramente establecido, y puede que su sonido no sea tan natural y controlable como el de herramientas más profesionales.
Edge-TTS: En realidad no se trata de un servicio independiente, sino que alguien ha encapsulado la funcionalidad TTS integrada en el navegador Edge de Microsoft en una biblioteca Python. Lo bueno es que es fácil de llamar y gratis, y la calidad de voz es bastante buena, después de todo, es la tecnología de Microsoft detrás. También hay un montón de idiomas y tonos soportados (más de 40 idiomas, más de 300 tonos). La desventaja es que depende de la interfaz de Microsoft, la estabilidad y la disponibilidad a largo plazo pueden ser variables, y las posibilidades de personalización son limitadas. Es adecuado para aplicaciones ligeras o proyectos personales de integración rápida.

Gigantes empresariales y servicios profesionales

Si necesitas una calidad de voz de primera, un alto grado de estabilidad y una gran cantidad de opciones de personalización, entonces un servicio comercial suele ser la mejor opción, pero, por supuesto, eso también suele implicar pagar por él.

Microsoft Azure TTS: Es una de las referencias reconocidas del sector. Basado en la tecnología de redes neuronales, el habla sintetizada es tan natural y suave que casi no se puede desordenar. Ofrece ricas opciones de control de las emociones y la posibilidad de afinar la pronunciación, la velocidad del habla, las pausas, etc. con SSML (Speech Synthesis Markup Language). Compatible con más de 140 idiomas y 400 tonos, es la primera opción para aplicaciones empresariales, audiolibros de alta calidad y asistentes virtuales profesionales. Y, por supuesto, el precio es de clase empresarial.
Semilla-TTSEsta es una tecnología desarrollada por ByteDance, que por el momento no parece haber abierto totalmente su modelo básico. Según el informe técnico, se caracteriza por la capacidad de editar el contenido de voz y el control fino de la velocidad del habla, lo que suena muy adecuado para la postproducción de audiolibros o escenarios que requieran un ajuste fino del contenido de voz. En la actualidad, principalmente para el chino, la forma específica del producto y el acceso a la versión oficial de seguimiento.
Motor de voz (¿de OpenAI?)El artículo original menciona este nombre, pero debe tenerse en cuenta que OpenAI no parece haber publicado oficialmente el nombre de este sistema. Voice Engine Puede haber implementaciones de terceros basadas en la tecnología de OpenAI (por ejemplo, GPT) en el mercado o hacer referencia a sus proyectos de investigación internos. Puede haber implementaciones de terceros en el mercado basadas en la tecnología de OpenAI (por ejemplo, GPT) o referirse a sus proyectos de investigación interna.OpenAI es fuerte en tecnología del habla, con mucha atención a sus capacidades de clonación y generación de voz, pero aún no existe un servicio explícitamente llamado Voice Engine Los productos públicos están disponibles para uso directo de todo el mundo, y las fuentes de información deben ser examinadas cuando se utilizan.

El poder de las comunidades de código abierto: libertad y personalización

Para desarrolladores e investigadores, las herramientas TTS de código abierto ofrecen mayor libertad y margen de personalización. Puedes conocer a fondo los principios del modelo y modificarlo y entrenarlo según tus necesidades.

PaddleSpeechUn proyecto de código abierto de Baidu Flying Paddle, especialmente optimizado para el soporte del idioma chino. Uno de sus aspectos más destacados es el apoyo a la síntesis de streaming , lo que significa que se puede generar mientras se reproduce , baja latencia , muy adecuado para la necesidad de respuesta en tiempo real a la escena , como la radiodifusión de voz en tiempo real , servicio al cliente inteligente. Se basa en FastSpeech2 responder cantando HiFiGAN y otros modelos convencionales.
Coqui TTS: Se trata de un proyecto de código abierto muy activo, anteriormente conocido como Mozilla TTS, cuya mayor ventaja es una gran biblioteca de modelos preentrenados que soportan más de 1100 idiomas (basados en su modelo XTTS), lo que resulta muy valioso para aplicaciones que necesitan tratar con múltiples idiomas, especialmente idiomas de bajos recursos. La comunidad es activa y está bien documentada.
Corteza: By Suno AI (conocido por su generación de música), y lo que lo hace más especial es que no sólo genera habla, sino también sonidos que no son de habla, como clips de música, ruido de fondo, risas, gritos, etc., y admite la mezcla de varios idiomas. Esto le confiere un potencial único para su uso en proyectos creativos de audio, diseño de sonido para juegos y otras áreas. Se basa en Transformador Arquitectura.
TensorFlowTTSComo su nombre indica, se trata de un conjunto de herramientas TTS basadas en TensorFlow. Es compatible con una variedad de modelos TTS populares como Tacotron 2yFastSpeech2 etc., junto con MelGAN y el uso de vocoder. Esta es una gran opción para los desarrolladores familiarizados con el ecosistema TensorFlow y los que realizan investigación académica para facilitar la experimentación de modelos y el desarrollo personalizado.
Discurso del pez: Este proyecto se centra en la generación multilingüe mixta, como el cambio natural entre chino, inglés y japonés en una misma frase. Es compatible con VITS2yBert-VITS2 y otras arquitecturas de modelos más recientes. Atractivo para producir escenarios como podcasts multilingües, doblaje de películas y TV, etc.
ChatTTSModelo de código abierto optimizado específicamente para diálogos. Funciona bien tanto en diálogos en inglés como en chino, generando habla con características emocionales naturales (por ejemplo, risas, vacilaciones, pausas en el tono), lo que hace que los diálogos sintetizados suenen más realistas e interactivos. Se afirma que ha sido preentrenado con 40.000 horas de datos.

Clonación de voz: tenga una voz exclusiva

La tecnología de clonación de voz permite utilizar una pequeña cantidad (a veces sólo unos segundos o un minuto) de una muestra de la voz de alguien para sintetizar una voz que hable con la voz de esa persona. Esta tecnología es interesante, pero entraña riesgos éticos, y es importante respetar las leyes, la normativa y la ética a la hora de utilizarla.

GPT-SoVITS: Es una combinación de SoVITS (un modelo popular para la síntesis de canciones y la conversión de voz) y GPT Se trata de un proyecto de código abierto para esta tecnología. Afirma conseguir un buen efecto de clonación con 1 minuto de voz, y también tiene cierto soporte para dialectos chinos. Actualmente es una de las soluciones de clonación de voz más populares en la comunidad.
OpenVoice: By MyShell.ai Código abierto que no sólo clona voces, sino que también proporciona un control preciso sobre las voces clonadas, como el ajuste de la emoción, el acento y la entonación. Esto lo hace útil en escenarios que requieren personalización y expresividad, como el doblaje de anuncios y los asistentes virtuales multilingües.
Clonación de voz en tiempo realEste proyecto proporciona una interfaz gráfica de usuario (GUI) que facilita a los usuarios no técnicos la realización de experimentos de clonación del habla. Se basa en el SV2TTS que quizá no funcionen tan bien como los modelos más recientes, pero superan en facilidad de uso.
F5-TTSEste proyecto introduce la tecnología del transformador de difusión (DiT) para la clonación de voz sin disparo, lo que significa que puede ser posible realizar cierto grado de imitación o transformación de la voz sin los datos del habla del hablante objetivo, y apoyar el control de las emociones. Se trata de una línea de investigación relativamente nueva.
Pájaro burlónTambién es un proyecto anterior de clonación de voz de código abierto que atrajo mucha atención. Aunque técnicamente puede haber sido superado por programas más recientes, sigue siendo informativo para comprender el desarrollo de la tecnología de clonación del habla.

Otras herramientas de interés

También hay una serie de herramientas que son exclusivas de cada uno:

VoiceVox: Principalmente para japoneses, es particularmente bueno generando tonos secundarios y de estilo anime. Es muy popular en la comunidad japonesa VTuber y creativo.
EmotiVoice: NetEaseYouDao de código abierto, centrado en la síntesis del habla emocional, puede generar habla con una variedad de emociones como felicidad, ira, tristeza y alegría.
MetaVoz-1BUn modelo de código abierto con 1B (mil millones) de parámetros suele implicar una mayor potencia expresiva y una mayor calidad del habla, pero también requiere más recursos informáticos.
So-VITS-SVC: Se utiliza principalmente para la conversión de voz cantada, que permite cantar una canción con la voz de otra persona. SoVITS Una importante rama de la tecnología.

¿Cómo elegir?

Después de leer todo esto, puede que estés aún más confuso. No te preocupes, aquí tienes una idea sencilla para elegir:

Usuarios habituales, voces rápidasPruébalo. TTS Maker O averigüe en qué se basa Edge-TTS de herramientas en línea.
Desarrolladores, que se integrarán en la aplicación:
- Para una alta calidad y coherencia con un presupuesto ajustado. Microsoft Azure TTS.
- Necesita optimización china y baja latencia. PaddleSpeech.
- Requiere la más amplia gama de idiomas. Coqui TTS.
- Quiero jugar con ideas de sonido y paisaje sonoro. Bark.
- familiaridad con TensorFlow Ecología. TensorFlowTTS.
- Necesidad de gestionar la mezcla multilingüe. Fish Speech.
- Centrarse en escenarios de diálogo. ChatTTS.
Quieres jugar a clonar la voz:
- Búsqueda de resultados y calor comunitario: la GPT-SoVITS tal vez OpenVoice.
- Necesita GUI, sencillo de probar. Real-Time-Voice-Cloning.
- Centrarse en la tecnología punta. F5-TTS.
requisito particular:
- Voces secundarias japonesas. VoiceVox.
- Rica expresión emocional. EmotiVoice.

Es importante tener en cuenta que los proyectos de código abierto suelen requerir ciertos conocimientos técnicos para su despliegue y uso, y los resultados también pueden requerir autodepuración y optimización. Los servicios comerciales, por su parte, ofrecen interfaces más estables y fáciles de usar, pero incurren en costes.

La tecnología TTS evoluciona muy deprisa, con nuevos modelos y herramientas en constante desarrollo. La herramienta que elija dependerá en última instancia de sus necesidades específicas, su presupuesto y sus conocimientos técnicos. Esperamos que este compendio le ayude a encontrar el punto de partida adecuado en este campo en rápida evolución.

Resumen de enlaces a recursos relacionados

Para que te resulte más fácil encontrarlas, aquí tienes una recopilación de las direcciones oficiales o del código base de algunas de las herramientas mencionadas en el artículo:

Creador de TTS: https://ttsmaker.com/zh-cn (servicios en línea)
Microsoft Azure TTS:: https://azure.microsoft.com/en-us/products/cognitive-services/text-to-speech/ (servicios a empresas)
PaddleSpeech: https://github.com/PaddlePaddle/PaddleSpeech (código abierto)
VoiceVox: https://github.com/VOICEVOX/voicevox (código abierto)
TensorFlowTTS: https://github.com/TensorSpeech/TensorFlowTTS (código abierto)
Edge-TTS: https://github.com/rany2/edge-tts (biblioteca de código abierto)
ChatTTS: https://github.com/2noise/ChatTTS (código abierto)
Semilla-TTS:: Informes técnicos, documentos, herramientas de evaluación (modelo básico no totalmente de código abierto)
Discurso del pez: https://github.com/fishaudio/fish-speech (código abierto)
GPT-SoVITS: https://github.com/RVC-Boss/GPTSoVITS (código abierto)
OpenVoice: https://github.com/myshell-ai/OpenVoice (código abierto)
Corteza: https://github.com/suno-ai/bark (código abierto)
Coqui TTS: https://github.com/coqui-ai/tts (código abierto)
Clonación de voz en tiempo real: https://github.com/CorentinJ/Real-Time-Voice-Cloning (código abierto)
F5-TTS: https://github.com/SWivid/F5-TTS (código abierto)
EmotiVoice: https://github.com/netease-youdao/EmotiVoice (código abierto)
MetaVoz-1B: https://github.com/metavoiceio/metavoice-src (código abierto)
So-VITS-SVC: https://github.com/svc-develop-team/so-vits-svc (código abierto)
Pájaro burlón: https://github.com/babysor/MockingBird (código abierto)
FUNAudioLLM-CosyVoice: https://github.com/FunAudioLLM/CosyVoice (código abierto)
VoiceCraft: https://github.com/jasonppy/VoiceCraft (código abierto)
Parler-TTS: https://github.com/huggingface/parler-tts (código abierto)
MáscaraGCT:: https://hf-mirror.com/amphion/MaskGCT (espejos de código abierto)