Amazon lanza BASE TTS, el mayor modelo de IA de texto a voz disponible, que muestra sus "capacidades potenciales"

Los investigadores de Amazon han entrenado el mayor modelo de conversión de texto a voz hasta la fecha, del que se afirma que muestra cualidades "latentes" que permiten una salida de voz más natural de frases complejas. Este avance puede ser la clave para dejar atrás la falta de naturalidad en este ámbito tecnológico.
El crecimiento y perfeccionamiento de tales modelos ha continuado, y los investigadores esperan específicamente ver el salto de capacidad que hemos presenciado cuando el conjunto de modelos lingüísticos aumenta hasta cierto nivel. Por alguna razón desconocida, cuando los modelos lingüísticos largos (LLM) se amplían más allá de cierto punto, se vuelven más potentes y flexibles, capaces de asumir tareas no entrenadas.
Esto no significa que los modelos adquirieran conciencia de sí mismos o atributos similares, sino que, a partir de cierto punto de trascendencia, su rendimiento en tareas específicas de IA conversacional mostraba una marcada tendencia al alza. El equipo de Inteligencia Artificial General (AGI) de Amazon -cuyo objetivo no es ningún secreto- pensó que podría ocurrir lo mismo a medida que evolucionaran los modelos de texto a voz, y su investigación demuestra que así fue.
El nuevo modelo se denomina [Conversión de texto a voz en flujo adaptable a gran escala con capacidades potenciales(Big Adaptive Streamable TTS with Emergent abilities), o BASE TTS para abreviar.La versión más grande del modelo utiliza 100.000 horas de material de habla de dominio público, de las cuales 90% son en inglés, y el resto incluye alemán, holandés y español.
Con 9,8 millones de parámetros, BASE-large es el modelo más grande del sector. A modo de comparación, también entrenaron modelos con 400 millones y 150 millones de parámetros basados en 10.000 y 1.000 horas de material de audio, respectivamente. El motivo es que si un modelo muestra comportamientos potenciales y el otro no, es posible identificar las zonas críticas en las que empiezan a surgir estos comportamientos.
Los resultados mostraron que el modelo mediano demostró el salto de competencia que el equipo esperaba, no sólo en la calidad del habla ordinaria (aunque las puntuaciones mejoraron, pero sólo ligeramente), sino en una serie de competencias potenciales que el equipo observó y evaluó. He aquí algunos ejemplos de textos difíciles mencionados en el documento:
sustantivo compuesto (gramática)Los Beckham decidieron alquilar una encantadora casa rural tradicional de piedra.
necesidades emocionales"¡Dios mío! ¿De verdad vamos a las Maldivas? Es increíble!" chilló Jenny, saltando de emoción.
vocabulario de lenguas extranjeras:: "El Sr. Henry es famoso por sus magníficas preparaciones culinarias, y ha orquestado un festín de siete platos, cada uno de los cuales es una exquisitez poco común.
Paleolingüística(como en la parte no textual descifrable): "Calla, Lucy, estate quieta, no debemos despertar a tu hermano", susurró Tom, mientras caminaban con cuidado por el cuarto de los niños.
un signo de puntuaciónLa madre recibe un extraño mensaje de texto de su hermano: "Emergencia en casa; ¡llama lo antes posible! Mamá y papá están preocupados. . # Family First".
Cómo formular una pregunta: Pero las preguntas sobre la salida británica de la Unión Europea siguen en el aire: después de todas las pruebas y tribulaciones, ¿encontrarán los ministros respuestas a tiempo?
Complejidad sintácticaDe Moya, recientemente galardonado con el Lifetime Achievement Award, protagonizó en 2022 una película que fue un éxito de taquilla a pesar de recibir críticas dispares.
"Estas frases se diseñaron cuidadosamente para incluir las desafiantes tareas de analizar frases estructuradas complejas, aplicar el acento frasal a sustantivos compuestos largos, producir pronunciaciones emotivas o susurradas, o pronunciar correctamente palabras o signos de puntuación en lenguas extranjeras como 'qi' o '@', todas ellas tareas para las que BASE TTS no se entrena explícitamente", dijeron los autores. Pronunciar correctamente palabras o signos de puntuación son tareas difíciles, tareas para las que BASE TTS no se entrena explícitamente", afirman los autores.
Estas características suelen frustrar a los motores de conversión de texto a voz, que pueden pronunciar mal las palabras, omitirlas, utilizar una entonación inadecuada o cometer otros errores. Aunque BASE TTS también encuentra dificultades, su capacidad de procesamiento supera con creces la de modelos contemporáneos como Tortoise y VALL-E.
El sitio web oficial ofrece muchos ejemplos de cómo leer en voz alta estos textos difíciles con naturalidad y fluidez.Compruébalo en el sitio web que crearon para el modelo] Por supuesto, estos ejemplos fueron examinados por investigadores, así que deben haber sido seleccionados a mano, pero sigue siendo impresionante. Aquí tienes algunos ejemplos por si no quieres hacer clic:
Como los tres modelos BASE TTS comparten la misma arquitectura, el tamaño de los modelos y la adecuación de sus datos de entrenamiento son claramente la razón por la que los modelos son capaces de manejar la complejidad descrita anteriormente. Tenga en cuenta que, por el momento, se trata de un modelo y un flujo de procesamiento experimentales, no de un modelo comercial o un producto similar. La investigación de seguimiento deberá determinar el punto de inflexión en el que se demuestren las capacidades potenciales y cómo entrenar e implantar eficientemente el modelo final.
Lo interesante es que el modelo puede "transmitirse", como su nombre indica, lo que significa que no tiene que generar toda la frase a la vez, sino que puede generarla de forma incremental a una velocidad de bits relativamente baja. El equipo también está intentando empaquetar metadatos del habla, como el estado de ánimo y el ritmo, en un flujo independiente de bajo ancho de banda, que podría reproducirse sincronizado con el audio normal.
Parece que el modelado de texto a voz puede estar a punto de dar un vuelco en 2024, ¡justo a tiempo para las elecciones! Sin embargo, la utilidad de la tecnología es innegable, sobre todo cuando se trata de mejorar la accesibilidad. Es importante señalar que el equipo ha optado por no revelar el código fuente del modelo ni otros datos, dado el riesgo de que el modelo pueda ser explotado por incautos. Sin embargo, tarde o temprano, la verdad saldrá a la luz.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...