Step-Audio-EditX - El primer gran modelo de edición de audio de código abierto a nivel LLM de Step-Star

堆友AI

¿Qué es Step-Audio-EditX?

Step-Audio-EditX es un gran modelo de edición de audio de código abierto, desarrollado por el equipo Step-Audio-Star, que se centra en la manipulación fina del contenido de audio mediante tecnología de inteligencia artificial. El modelo puede ajustar dinámicamente el estado de ánimo, el estilo de habla (por ejemplo, petulancia, acento de anciano, etc.) y los elementos paralingüísticos (por ejemplo, risas, suspiros) del audio, y admite múltiples idiomas, como chino, inglés, sichuanés, cantonés, etc. La tecnología central reside en el uso de entrenamiento de datos de síntesis a gran escala. La tecnología principal se basa en el uso de datos sintéticos a gran escala para lograr una edición muy expresiva de las voces sin depender de los conocimientos a priori tradicionales. Los experimentos demuestran que el modelo supera a herramientas similares como Minimax-2.6-HD y DouBao-Seed-TTS-2.0 en tareas como la edición de emociones. El modelo y las herramientas que lo acompañan están a disposición de los usuarios a través de Hugging Face y GitHub.

Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Características de Step-Audio-EditX

  • El primer editor de audio LLM de código abierto del mundo:Una sola tarjeta con 8 GB puede funcionar, y 4×A800 consigue un sonido de calidad cinematográfica.
  • 30+ Deslizadores Emocionales: La intensidad de la ira, la alegría, la tristeza, etc. puede repetirse muchas veces, y cuanto más la sintonizas, más se te sube a la cabeza.
  • 15 Estilos de expresión oral: Mimado, susurrado, anciano, niño, serio, generoso, exagerado interruptor de un clic, superposición de soporte.
  • 10 clase sublengua token: Respiraciones, risas, suspiros, oh, en, hnn, uhm insertados con la misma precisión que los subtítulos.
  • Muestra cero TTS: Una pista para clonar cualquier tono, texto más "[Cantonés]" "[Szechuan]" para producir un dialecto en segundos.
  • código abierto de enlace completo (OLOS)Código de inferencia, código de entrenamiento, pesos cuantificados de 8 bits, demostración de Gradio, espacio HF, todo a la vez.
  • Datos a intervalos grandes: No se necesita ningún codificador/adaptador adicional, SFT+PPO consigue desacoplar los atributos y el control iterativo.
  • Marco unificadoLa creación de audio es una ventanilla única para TTS, edición de emociones, migración de estilos, reducción de ruido y ajuste de la velocidad del habla.

Principales ventajas de Step-Audio-EditX

  • El primer editor de audio LLM de código abierto del mundoEl primero en utilizar el modelo 3B Big Language Model para la edición de voz, con código fuente abierto, pesos, guiones de formación y demostraciones en línea, y una única tarjeta de 8 GB que puede ejecutar 4×A800 para obtener una calidad de sonido de nivel de publicación.
  • Datos sintéticos a grandes intervalosSFT+PPO: SFT+PPO se realiza sólo con datos de pares "mismo texto, distinto atributo", sin codificador ni adaptador adicional, para lograr el desacoplamiento de atributos y el control iterativo, lo que reduce significativamente la complejidad del sistema y el coste de inferencia.
  • Control iterativo de precisión de tres ejesLa emoción (más de 30 etiquetas), el estilo de habla (más de 15 etiquetas) y el paralenguaje (10 tipos de tokens) pueden superponerse o debilitarse varias veces, con un ajuste de la barra deslizante para una intensidad cada vez mejor.
  • TTS de muestra cero + corte dialectalA continuación se muestra un ejemplo de cómo clonar cualquier tono: una sola pista puede clonar cualquier tono; se añaden etiquetas como "[Szechuan]" y "[Cantonés]" delante del texto para emitir el dialecto directamente, sin formación adicional.
  • Supera a los competidores de código cerradoEn la revisión de Precisión Emocional, una ronda de edición impulsó el habla clonada de MiniMax-2.6-hd y Beanbag Seed-TTS-2.0 de una puntuación de 50 a 70+, y sigue en cabeza después de tres rondas de su propia iteración.

¿Cuál es la página web oficial de Step-Audio-EditX?

  • Página web del proyecto:: https://stepaudiollm.github.io/step-audio-editx/
  • Repositorio Github:: https://github.com/stepfun-ai/Step-Audio-EditX
  • Biblioteca de modelos HuggingFace:: https://huggingface.co/stepfun-ai/Step-Audio-EditX
  • Documento técnico arXiv:: https://arxiv.org/pdf/2511.03601

¿A quién va dirigido Step-Audio-EditX?

  • Cortometrajes / Cine y TV: Timbre de clonación de muestra cero + iteración emocional para generar rápidamente locuciones de varios caracteres y emociones, ahorrando costes de grabación y postproducción.
  • Productor de podcasts y audiolibrosSuperposición con un solo clic de estilos "susurrante/dulce/serio", salida por lotes de distintas versiones de audio e inmersión mejorada en el contenido.
  • Planificación del juego y funcionamiento del ídolo virtualInserta risas, respiraciones y suspiros en tiempo real para NPCs y VTuber para crear voces de personajes más vibrantes e interactivas.
  • Equipo de publicidad y marketingEl mismo texto puede doblarse en "apasionado/alto/dialecto" sin necesidad de contratar a un actor de doblaje, por lo que puede adaptarse a distintos canales de difusión.
  • Desarrollador de contenidos educativos y aprendizaje de idiomas: Genere lecturas adecuadas a la edad y al lugar utilizando etiquetas "antiguo/niño/dialecto" para reducir la carga de trabajo de grabación de los profesores.
  • Proveedores de servicios inteligentes de atención al cliente/asistente de vozEl TTS se puede editar directamente sobre el estado de ánimo y el estilo originales del TTS, y se puede utilizar para lanzar rápidamente múltiples escenarios, como "relajante, promocional y serio".
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...