VoxCPM 1.5 - Modelado de texto a voz de código abierto de extremo a extremo de Faceted Intelligence
Últimos recursos sobre IAPublicado hace 3 semanas Círculo de intercambio de inteligencia artificial 14.1K 00
Qué es VoxCPM 1.5
VoxCPM 1.5 es un modelo de generación de voz de código abierto lanzado por Facade Intelligence, basado en la tecnología de conversión de texto a voz (TTS) sin necesidad de splitter, con varias innovaciones y mejoras. Adoptando una arquitectura autorregresiva de difusión de extremo a extremo, genera formas de onda de habla continua directamente a partir del texto, evitando las limitaciones de los métodos tradicionales de segmentación. La calidad de audio del modelo ha mejorado notablemente, ya que la frecuencia de muestreo ha pasado de 16 kHz a 44,1 kHz, lo que preserva más detalles de alta frecuencia y hace que la clonación del habla sea más realista. Además, se ha optimizado la eficacia de la generación, se ha reducido la frecuencia de muestreo a 6,25 Hz, se ha reducido el coste computacional y se admite la síntesis del habla en tiempo real, lo que resulta idóneo para aplicaciones en tiempo real.

Características de VoxCPM 1.5
- Generación de audio de alta frecuencia de muestreoLa frecuencia de muestreo se ha aumentado de 16 kHz a 44,1 kHz, lo que da como resultado un sonido más detallado, claro y natural, y una mejor reproducción del tono y la emoción, especialmente durante la clonación de voz.
- Generación eficiente de capacidadmodelización del lenguaje ficha La velocidad se reduce de 12,5 Hz a 6,25 Hz, lo que reduce significativamente el coste computacional al tiempo que mantiene el rendimiento de la generación para aplicaciones de síntesis de voz en tiempo real.
- clonación del habla con muestra ceroEl tono, la entonación, la emoción y otras características del orador pueden clonarse con precisión a partir de un breve audio de referencia (≥3 segundos) sin formación adicional ni registro de una identificación del orador.
- Generación de voz en función del contexto: El modelo comprende el contenido del texto y ajusta de forma adaptativa la rima y el estilo del discurso, generando un flujo del habla más expresivo y natural.
- Ayuda a la personalizaciónSFT y LoRA permiten a los usuarios entrenar modelos de voz personalizados basados en sus propios datos para satisfacer necesidades específicas.
- Soporte multilingüeEl programa está diseñado principalmente para la formación en inglés y chino, pero su arquitectura también ofrece una base para ampliaciones multilingües y se espera que admita más idiomas en el futuro.
- Código abierto y apoyo comunitarioEl modelo es de código abierto en plataformas como Hugging Face, donde los desarrolladores pueden utilizarlo, modificarlo y ampliarlo libremente, y la comunidad proporciona abundantes recursos y documentación de apoyo.
Principales ventajas de VoxCPM 1.5
- Generación de audio de alta fidelidadLa frecuencia de muestreo de 44,1 kHz produce un habla con mayor claridad y detalle, especialmente en términos de timbre y emoción, que se acerca más a la voz humana real.
- Eficacia de la inferenciaLa tasa de generación de tokens se incrementa hasta 6,25 Hz, se reduce el coste de cálculo, la velocidad de inferencia es mayor y el RTF (factor de tiempo real) es tan bajo como 0,17, lo que resulta adecuado para escenarios de síntesis de voz en tiempo real.
- clonación del habla con muestra ceroEl resultado: clonación precisa del habla con sólo 3 segundos de audio de referencia, sin entrenamiento adicional y generación rápida de habla muy coherente con el audio de referencia.
- capacidad sensible al contextoEl modelo puede ajustar automáticamente la rima y el estilo del habla en función del contenido del texto, generando un habla más expresiva y natural, y adaptándose a distintos escenarios textuales.
- PersonalizaciónSe admiten los ajustes SFT (ajuste fino completo) y LoRA (adaptación de bajo rango), lo que permite a los usuarios entrenar modelos de voz personalizados basados en sus propios datos para satisfacer necesidades específicas.
- Soporte multilingüeEl núcleo: inglés y chino, y al mismo tiempo un cierto grado de capacidad de expansión multilingüe, para que el futuro soporte más idiomas para sentar las bases.
- Baja dependencia de los recursosLa generación de voz directamente a partir de texto no requiere complejos pasos de preprocesamiento o postprocesamiento, lo que reduce el umbral de uso y simplifica el proceso de desarrollo.
¿Cuál es la web oficial de VoxCPM 1.5?
- Biblioteca de modelos HuggingFace:: https://huggingface.co/openbmb/VoxCPM1.5
¿A quién va dirigido VoxCPM 1.5?
- Desarrollador de síntesis de vozDesarrolladores que necesitan funciones de generación de voz eficientes y de alta calidad para desarrollar aplicaciones como asistentes de voz, atención al cliente inteligente y radiodifusión de voz.
- creador de contenidosLos productores de podcasts de audio y audiolibros pueden utilizar VoxCPM 1.5 para generar rápidamente contenidos de voz de alta calidad y mejorar la eficacia de su creación.
- investigador lingüístico: Investigadores y académicos interesados en la tecnología de síntesis del habla y que deseen estudiar ámbitos como la generación del habla y la clonación del habla.
- Empresa y marcaEmpresas que quieren mejorar su imagen de marca mediante la voz personalizada y añadir funciones de interacción por voz a sus productos o servicios, como hardware inteligente y sistemas para vehículos.
- educador: Se utiliza para crear contenidos de audio educativos, como cursos en línea, herramientas de aprendizaje de idiomas, etc., para ofrecer una experiencia de enseñanza de audio más vívida.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




