Step-Audio-EditX - El primer gran modelo de edición de audio de código abierto a nivel LLM de Step-Star

Últimos recursos sobre IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial

31.2K 00

¿Qué es Step-Audio-EditX?

Step-Audio-EditX es un gran modelo de edición de audio de código abierto, desarrollado por el equipo Step-Audio-Star, que se centra en la manipulación fina del contenido de audio mediante tecnología de inteligencia artificial. El modelo puede ajustar dinámicamente el estado de ánimo, el estilo de habla (por ejemplo, petulancia, acento de anciano, etc.) y los elementos paralingüísticos (por ejemplo, risas, suspiros) del audio, y admite múltiples idiomas, como chino, inglés, sichuanés, cantonés, etc. La tecnología central reside en el uso de entrenamiento de datos de síntesis a gran escala. La tecnología principal se basa en el uso de datos sintéticos a gran escala para lograr una edición muy expresiva de las voces sin depender de los conocimientos a priori tradicionales. Los experimentos demuestran que el modelo supera a herramientas similares como Minimax-2.6-HD y DouBao-Seed-TTS-2.0 en tareas como la edición de emociones. El modelo y las herramientas que lo acompañan están a disposición de los usuarios a través de Hugging Face y GitHub.

Características de Step-Audio-EditX

El primer editor de audio LLM de código abierto del mundo:Una sola tarjeta con 8 GB puede funcionar, y 4×A800 consigue un sonido de calidad cinematográfica.
30+ Deslizadores Emocionales: La intensidad de la ira, la alegría, la tristeza, etc. puede repetirse muchas veces, y cuanto más la sintonizas, más se te sube a la cabeza.
15 Estilos de expresión oral: Mimado, susurrado, anciano, niño, serio, generoso, exagerado interruptor de un clic, superposición de soporte.
10 clase sublengua token: Respiraciones, risas, suspiros, oh, en, hnn, uhm insertados con la misma precisión que los subtítulos.
Muestra cero TTS: Una pista para clonar cualquier tono, texto más "[Cantonés]" "[Szechuan]" para producir un dialecto en segundos.
código abierto de enlace completo (OLOS)Código de inferencia, código de entrenamiento, pesos cuantificados de 8 bits, demostración de Gradio, espacio HF, todo a la vez.
Datos a intervalos grandes: No se necesita ningún codificador/adaptador adicional, SFT+PPO consigue desacoplar los atributos y el control iterativo.
Marco unificadoLa creación de audio es una ventanilla única para TTS, edición de emociones, migración de estilos, reducción de ruido y ajuste de la velocidad del habla.

Principales ventajas de Step-Audio-EditX

El primer editor de audio LLM de código abierto del mundoEl primero en utilizar el modelo 3B Big Language Model para la edición de voz, con código fuente abierto, pesos, guiones de formación y demostraciones en línea, y una única tarjeta de 8 GB que puede ejecutar 4×A800 para obtener una calidad de sonido de nivel de publicación.
Datos sintéticos a grandes intervalosSFT+PPO: SFT+PPO se realiza sólo con datos de pares "mismo texto, distinto atributo", sin codificador ni adaptador adicional, para lograr el desacoplamiento de atributos y el control iterativo, lo que reduce significativamente la complejidad del sistema y el coste de inferencia.
Control iterativo de precisión de tres ejesLa emoción (más de 30 etiquetas), el estilo de habla (más de 15 etiquetas) y el paralenguaje (10 tipos de tokens) pueden superponerse o debilitarse varias veces, con un ajuste de la barra deslizante para una intensidad cada vez mejor.
TTS de muestra cero + corte dialectalA continuación se muestra un ejemplo de cómo clonar cualquier tono: una sola pista puede clonar cualquier tono; se añaden etiquetas como "[Szechuan]" y "[Cantonés]" delante del texto para emitir el dialecto directamente, sin formación adicional.
Supera a los competidores de código cerradoEn la revisión de Precisión Emocional, una ronda de edición impulsó el habla clonada de MiniMax-2.6-hd y Beanbag Seed-TTS-2.0 de una puntuación de 50 a 70+, y sigue en cabeza después de tres rondas de su propia iteración.

¿Cuál es la página web oficial de Step-Audio-EditX?

Página web del proyecto:: https://stepaudiollm.github.io/step-audio-editx/
Repositorio Github:: https://github.com/stepfun-ai/Step-Audio-EditX
Biblioteca de modelos HuggingFace:: https://huggingface.co/stepfun-ai/Step-Audio-EditX
Documento técnico arXiv:: https://arxiv.org/pdf/2511.03601

¿A quién va dirigido Step-Audio-EditX?

Cortometrajes / Cine y TV: Timbre de clonación de muestra cero + iteración emocional para generar rápidamente locuciones de varios caracteres y emociones, ahorrando costes de grabación y postproducción.
Productor de podcasts y audiolibrosSuperposición con un solo clic de estilos "susurrante/dulce/serio", salida por lotes de distintas versiones de audio e inmersión mejorada en el contenido.
Planificación del juego y funcionamiento del ídolo virtualInserta risas, respiraciones y suspiros en tiempo real para NPCs y VTuber para crear voces de personajes más vibrantes e interactivas.
Equipo de publicidad y marketingEl mismo texto puede doblarse en "apasionado/alto/dialecto" sin necesidad de contratar a un actor de doblaje, por lo que puede adaptarse a distintos canales de difusión.
Desarrollador de contenidos educativos y aprendizaje de idiomas: Genere lecturas adecuadas a la edad y al lugar utilizando etiquetas "antiguo/niño/dialecto" para reducir la carga de trabajo de grabación de los profesores.
Proveedores de servicios inteligentes de atención al cliente/asistente de vozEl TTS se puede editar directamente sobre el estado de ánimo y el estilo originales del TTS, y se puede utilizar para lanzar rápidamente múltiples escenarios, como "relajante, promocional y serio".

Últimos recursos sobre IA

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

ChatGPT Unli: Acceso ilimitado y gratuito a ChatGPT y a más de 60 asistentes de escritura creativa basados en GPT.

Últimos recursos sobre IA Plataforma de diálogo multimodelo integrada # AI

hace 1 año

061.5K

FireRedASR: un modelo de código abierto para el reconocimiento multilingüe de voz de alta precisión

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI Voz a texto

hace 1 año

0100.6K

rStar2-Agent: el eficiente modelo de inferencia de IA de código abierto de Microsoft

Últimos recursos sobre IA

hace 7 meses

038K

PixVerse V5 - Aishi Technologies lanza un modelo de vídeo con inteligencia artificial de desarrollo propio

Últimos recursos sobre IA

hace 7 meses

046.5K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Step-Audio-EditX - El primer gran modelo de edición de audio de código abierto a nivel LLM de Step-Star

¿Qué es Step-Audio-EditX?

Características de Step-Audio-EditX

Principales ventajas de Step-Audio-EditX

¿Cuál es la página web oficial de Step-Audio-EditX?

¿A quién va dirigido Step-Audio-EditX?

Open-o3 Video - Un modelo de razonamiento en vídeo de código abierto de la Universidad de Pekín United Bytes

SmartResume - Herramienta de código abierto de Alibaba para el análisis sintáctico y la optimización de currículos con inteligencia artificial

Artículos relacionados

ChatGPT Unli: Acceso ilimitado y gratuito a ChatGPT y a más de 60 asistentes de escritura creativa basados en GPT.

FireRedASR: un modelo de código abierto para el reconocimiento multilingüe de voz de alta precisión

rStar2-Agent: el eficiente modelo de inferencia de IA de código abierto de Microsoft

PixVerse V5 - Aishi Technologies lanza un modelo de vídeo con inteligencia artificial de desarrollo propio

Sin comentarios

Últimas colecciones

Últimos artículos

Step-Audio-EditX - El primer gran modelo de edición de audio de código abierto a nivel LLM de Step-Star

¿Qué es Step-Audio-EditX?

Características de Step-Audio-EditX

Principales ventajas de Step-Audio-EditX

¿Cuál es la página web oficial de Step-Audio-EditX?

¿A quién va dirigido Step-Audio-EditX?

Open-o3 Video - Un modelo de razonamiento en vídeo de código abierto de la Universidad de Pekín United Bytes

SmartResume - Herramienta de código abierto de Alibaba para el análisis sintáctico y la optimización de currículos con inteligencia artificial

Artículos relacionados

ChatGPT Unli: Acceso ilimitado y gratuito a ChatGPT y a más de 60 asistentes de escritura creativa basados en GPT.

FireRedASR: un modelo de código abierto para el reconocimiento multilingüe de voz de alta precisión

rStar2-Agent: el eficiente modelo de inferencia de IA de código abierto de Microsoft

PixVerse V5 - Aishi Technologies lanza un modelo de vídeo con inteligencia artificial de desarrollo propio

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos