ZipVoice: la familia de modelos de síntesis de voz de código abierto de Xiaomi

堆友AI

Qué es ZipVoice

ZipVoice es una serie de modelos de síntesis de voz (TTS) basados en la arquitectura Flow Matching lanzada por Xiaomi, que incluye ZipVoice (un modelo de síntesis de voz con un único interlocutor y muestra cero) y ZipVoice-Dialog (un modelo de síntesis de voz con diálogo y muestra cero). La familia de modelos ZipVoice consigue un modelado ligero y una aceleración de la inferencia mediante la introducción de la arquitectura Zipformer, diseñada originalmente para el Reconocimiento Automático del Habla (ASR), como red troncal. En comparación con los modelos de síntesis del habla basados en DiT, ZipVoice reduce la cantidad de parámetros en unos 63% con un rendimiento similar. La serie de modelos destaca en métricas objetivas como la similitud del hablante, la tasa de error de palabra y UTMOS, así como en métricas subjetivas como CMOS, SMOS, etc., y alcanza el nivel de rendimiento SOTA de los modelos de síntesis del habla de muestra cero.

ZipVoice - 小米开源的语音合成系列模型

Características de ZipVoice

  • Ligero y rápidoZipVoice-Distill: Con sólo 123M parámetros de modelo, ZipVoice-Distill es rápido y adecuado para su despliegue en entornos con recursos limitados. La versión destilada, ZipVoice-Distill, es más rápida, con una ligera degradación del rendimiento, pero sigue manteniendo una salida de alta calidad.
  • Clonación de discursos de alta calidadEl sistema de reconocimiento de voz de la UE: destaca por la similitud con el hablante, la naturalidad del habla y la inteligibilidad, ya que genera un habla muy parecida a la del hablante original y es adecuado para una amplia gama de situaciones de interacción por voz.
  • Soporte multilingüe: Es compatible con los idiomas chino e inglés, lo que puede satisfacer las necesidades de síntesis de voz en distintos entornos lingüísticos.
  • Generación de voz multimodalZipVoice-Dialog genera conversaciones entre dos personas en mono, mientras que ZipVoice-Dialog-Stereo genera conversaciones en estéreo asignando un canal independiente a cada interlocutor, lo que mejora la naturalidad y la inmersión de la conversación.
  • Código abierto y facilidad de usoLos archivos del modelo, el código de entrenamiento y el código de inferencia son de código abierto para facilitar el desarrollo secundario y la personalización por parte de los desarrolladores. Se proporcionan directrices detalladas de instalación y uso para reducir el umbral de utilización.

Principales ventajas de ZipVoice

  • Modelización eficiente basada en ZipformerPor primera vez, la arquitectura Zipformer, diseñada originalmente para el reconocimiento automático del habla (ASR), se ha introducido en la tarea TTS, una innovación que ha permitido a ZipVoice reducir drásticamente el número de parámetros del modelo y mejorar la eficacia del entrenamiento y la inferencia del modelo, manteniendo al mismo tiempo una síntesis del habla de alta calidad.
  • estrategia de muestreo ascendente medioEl método de muestreo ascendente medio de la alineación del texto hablado se utiliza para simplificar el proceso de alineación, mejorar la estabilidad y la velocidad de convergencia de la alineación, mejorar eficazmente la inteligibilidad y la claridad del habla, y hacer que el habla sintetizada refleje con mayor precisión el contenido del texto de entrada.
  • Método de destilación por corriente: La técnica de destilación de flujos reduce aún más los pasos de muestreo y elimina la sobrecarga de inferencia asociada a la guía del clasificador sin clasificar, lo que permite al modelo alcanzar velocidades cercanas al tiempo real (RTF ≈ 1) en un único hilo de la CPU utilizando inferencia de código PyTorch, lo que mejora enormemente la naturaleza en tiempo real de la síntesis del habla.
  • pequeño pero rápidoZipVoice-Distill: Con sólo 123M parámetros de modelo, ZipVoice-Distill es rápido y adecuado para su despliegue en entornos con recursos limitados. Su versión destilada, ZipVoice-Distill, es aún más rápida, con una ligera degradación del rendimiento, pero sigue manteniendo una salida de alta calidad.
  • Clonación de discursos de alta calidadEste sistema destaca por su similitud con el hablante, la naturalidad y la inteligibilidad del habla, y es capaz de generar un habla muy similar a la del hablante original, lo que resulta idóneo para diversos escenarios de interacción por voz.

Cuál es la web oficial de ZipVoice

  • Página web del proyecto:: https://zipvoice.github.io/
  • Repositorio GitHub:: https://github.com/k2-fsa/ZipVoice
  • Biblioteca de modelos HuggingFace:: https://huggingface.co/k2-fsa/ZipVoice
  • Documento técnico arXiv:: https://arxiv.org/pdf/2506.13053

Para quién es ZipVoice

  • Desarrolladores de tecnologías del hablaLos archivos de modelo, el código de entrenamiento y el código de inferencia de código abierto de ZipVoice proporcionan a los desarrolladores abundantes recursos para el desarrollo secundario y la personalización, adecuados para personas con cierta base técnica que deseen innovar y desarrollarse en el campo de la síntesis de voz.
  • investigador en inteligencia artificialEl modelo de síntesis del habla: las prácticas innovadoras del modelo en el campo de la síntesis del habla, como la introducción de la arquitectura Zipformer y la adopción del método de destilación de flujos, proporcionan a los investigadores nuevas ideas de investigación y plataformas experimentales, que contribuyen a promover el desarrollo de la tecnología de síntesis del habla.
  • Desarrolladores de asistentes de voz inteligentesLa capacidad de síntesis de voz de alta calidad de ZipVoice y su compatibilidad multilingüe pueden proporcionar una experiencia de interacción de voz más natural y fluida para los asistentes de voz inteligentes, lo que resulta idóneo para desarrollar aplicaciones de asistentes de voz inteligentes para usuarios de distintos idiomas.
  • Creadores de contenidos de audioZipVoice puede generar rápidamente voz de alta calidad para audiolibros, radionovelas y otros contenidos de audio, lo que ayuda a los creadores a aumentar la eficacia de la producción de contenidos y reducir los costes de producción.
  • Profesionales de la educaciónEn escenarios de aprendizaje de idiomas y educación en línea, ZipVoice puede generar demostraciones de voz estándar para asistir en la enseñanza y ayudar a los estudiantes a aprender mejor la pronunciación y expresión del idioma, lo cual es adecuado para escenarios que requieren soporte de enseñanza multilingüe.
  • Desarrolladores de aplicaciones empresarialesEl diseño ligero de ZipVoice y su capacidad de razonamiento rápido permiten implantarlo con eficacia en entornos empresariales y mejorar la experiencia de usuario de las empresas que necesitan integrar la síntesis de voz en aplicaciones empresariales, como sistemas de atención al cliente, visitas guiadas inteligentes, etc.
© declaración de copyright

Puestos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...