InfinityStar - Marco de generación de vídeo autorregresivo espaciotemporal unificado de código abierto Byte
Últimos recursos sobre IAPublicado hace 1 mes Círculo de intercambio de inteligencia artificial 13.5K 00
Qué es InfinityStar
InfinityStar es un marco autorregresivo espaciotemporal unificado de código abierto de ByteDance, diseñado para la generación de imágenes y vídeos de alta resolución. Utilizando un enfoque autorregresivo discreto, puede gestionar simultáneamente tareas de texto a imagen, texto a vídeo e imagen a vídeo en un único modelo. El marco obtiene una puntuación de 83,74 en la prueba comparativa VBench, con lo que supera a los modelos autorregresivos existentes y es 10 veces más rápido que los modelos de difusión. Entre las tecnologías básicas se incluyen el modelado de pirámides espaciotemporales (que descompone el vídeo en imágenes de primer fotograma y clips dinámicos), un eficaz desambiguador visual discreto (que acelera profundamente el entrenamiento mediante la herencia de conocimientos y cuantificadores estocásticos) y arquitecturas Transformer optimizadas (por ejemplo, repetición de escala semántica y atención dispersa espaciotemporal). Los usuarios pueden experimentar sus capacidades a través de la comunidad Discord, que admite la generación minuto a minuto de vídeos 720p de 5 segundos con una sola GPU.

Características de InfinityStar
- Generación de vídeo de alta resolución: Admite la generación de vídeo 720p de alta calidad, capaz de componer rápidamente escenas dinámicas complejas para satisfacer las exigencias de los contenidos de alta resolución.
- soporte multitarea: Cubre una amplia gama de tareas de generación, como texto a imagen, texto a vídeo, imagen a vídeo, etc., y satisface necesidades diversificadas de creación de contenidos.
- Generación eficiente de capacidadLa generación de un vídeo 720p de 5 segundos sólo lleva 58 segundos, lo que es mucho más rápido que el modelo de difusión tradicional y mejora significativamente la eficiencia de la generación.
- Modelización Espacio-Temporal Unificada (UTM): Captura eficiente de dependencias espaciales y temporales mediante una estructura piramidal espacio-temporal que desacopla eficazmente la información de apariencia y la dinámica.
- Estrategias de herencia de conocimientosConstrucción basada en un Auto-Encodificador Variable (VAE) preentrenado que utiliza estrategias de herencia de conocimiento para acortar el tiempo de entrenamiento y reducir el consumo de recursos computacionales.
- Código abierto y facilidad de usoTodos los códigos y modelos son de código abierto para facilitar a los investigadores y desarrolladores la rápida puesta en marcha y el posterior desarrollo de investigaciones y aplicaciones.
- Generación de resultados de alta calidad: Excelente rendimiento en las pruebas de referencia VBench, generando vídeo e imágenes de alta calidad con gran riqueza de detalles para satisfacer las necesidades de una amplia gama de escenarios de aplicación.
Principales ventajas de InfinityStar
- Velocidad de generación eficienteEl generador de vídeo tarda sólo 58 segundos en generar un vídeo 720p de 5 segundos, lo que es 10 veces más rápido que el modelo de difusión tradicional y mejora notablemente la eficacia de la generación de vídeo.
- Alta calidad: Obtiene una puntuación muy superior a la de otros modelos en la prueba de referencia VBench, generando vídeos e imágenes de alta calidad con gran riqueza de detalles y excelentes efectos visuales.
- soporte multitarea: Naturalmente admite una amplia gama de tareas de generación, como texto a imagen, texto a vídeo, imagen a vídeo, etc., para satisfacer diversas necesidades de creación de contenidos.
- Modelización Espacio-Temporal Unificada (UTM)El objetivo de este proyecto es crear una estructura piramidal espacio-temporal que desvincule eficazmente la información dinámica y la relativa a la apariencia, lo que permite capturar eficazmente las dependencias espaciales y temporales y mejorar el rendimiento del modelo.
- Estrategias de herencia de conocimientosConstrucción basada en un Auto-Encodificador Variable (VAE) preentrenado que utiliza estrategias de herencia de conocimiento para acortar el tiempo de entrenamiento y reducir el consumo de recursos computacionales.
- Código abierto y facilidad de usoTodos los códigos y modelos son de código abierto para facilitar a los investigadores y desarrolladores la rápida puesta en marcha y el posterior desarrollo de investigaciones y aplicaciones.
- Capacidad de generación de vídeo de larga duración: Prepara el camino para la generación de vídeos largos, ya que permite generar contenidos de vídeo más largos y de alta calidad y amplía la gama de aplicaciones para la generación de vídeo.
¿Cuál es el sitio web oficial de InfinityStar?
- Repositorio Github:: https://github.com/FoundationVision/InfinityStar
- Biblioteca de modelos HuggingFace:: https://huggingface.co/FoundationVision/InfinityStar
- Documento técnico arXiv:: https://arxiv.org/pdf/2511.04675
¿A quién va dirigido InfinityStar?
- creador de contenidos: Incluidos productores de vídeo, animadores, creativos publicitarios, etc., puede generar rápidamente contenidos de vídeo de alta calidad y mejorar la eficacia de la creación.
- desarrollador de juegosPermite desarrollar juegos interactivos y aplicaciones de Realidad Virtual (RV)/Realidad Aumentada (RA) que admiten la generación de vídeo interactivo para mejorar la experiencia del usuario.
- educadorPermite crear vídeos didácticos que mejoran la eficacia de la enseñanza y la participación de los alumnos mediante la generación de animaciones o vídeos relacionados con el contenido.
- Operadores de redes sociales: Proporcione contenidos de vídeo ricos y variados para las plataformas de medios sociales, ayude a los usuarios a generar rápidamente vídeos atractivos y mejore la distribución de contenidos.
- investigador (científico): Investigación en los ámbitos de la visión por ordenador y la inteligencia artificial para explorar nuevas aplicaciones y ampliar los límites de las técnicas de generación de vídeo.
- Equipo de marketing corporativo: Se utiliza para crear anuncios y vídeos promocionales, generando rápidamente contenidos que se ajustan al tono de la marca, mejorando la eficacia del marketing y el impacto de la marca.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




