Kaleido - Un modelo de generación de vídeo de referencia multisujeto de código abierto creado por Smart Spectrum AI en colaboración con la Universidad de Tsinghua y otras instituciones.

堆友AI

¿Qué es Kaleido?

Kaleido es un modelo de generación de vídeos de referencia multisujeto de código abierto desarrollado conjuntamente por la Universidad Tecnológica de Hefei, la Universidad de Tsinghua y Smart Spectrum AI. Kaleido genera datos de entrenamiento de alta calidad a través de un proceso especializado de construcción de datos que incluye el filtrado de muestras de baja calidad y la síntesis de datos diversos. Su innovador mecanismo de codificación de posición de rotación de referencia (R-RoPE) integra de forma estable y precisa múltiples imágenes de referencia para mantener la coherencia en escenarios multisujeto.Kaleido obtiene buenos resultados en múltiples pruebas comparativas y supera significativamente los enfoques anteriores en términos de coherencia, fidelidad y capacidad de generalización.

Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Características de Kaleido

  • Los datos generan innovaciónEl objetivo es mejorar la diversidad y la calidad de los datos, así como proporcionar muestras de alta calidad para el entrenamiento de modelos.
  • Mecanismo R-RoPECodificación de posición rotacional de referencia (R-RoPE): se introduce la codificación de posición rotacional de referencia (R-RoPE) para dar una codificación de posición rotacional única a las imágenes de referencia y lograr una integración estable de imágenes de referencia múltiples, lo que mejora significativamente la coherencia en escenas con múltiples sujetos y evita la confusión de los sujetos.
  • rendimiento superiorEn varias pruebas de referencia, Kaleido supera con creces a los métodos existentes en cuanto a coherencia del sujeto, desacoplamiento del fondo y calidad del vídeo, y obtiene buenos resultados, acercándose especialmente al nivel de los modelos de código cerrado en cuanto a calidad estética y suavidad del vídeo.

Puntos fuertes de Kaleido

  • Diversidad y calidad de los datosEl proceso de construcción de datos en varias etapas permite filtrar muestras de baja calidad y sintetizar datos diversos para garantizar la riqueza y la alta fidelidad de los datos de entrenamiento, sentando las bases para mejorar el rendimiento de los modelos.
  • Coherencia multisujetoEl innovador mecanismo R-RoPE integra eficazmente múltiples imágenes de referencia, mejora significativamente la coherencia en escenas multisujeto, evita la confusión de sujetos y genera vídeos multisujeto de alta calidad.
  • Capacidad de desacoplamiento de fondo: Supera en desacoplamiento del fondo, separando claramente el sujeto del fondo, evitando la contaminación del fondo y mejorando la naturalidad y el realismo de la generación de vídeo.
  • Rendimiento superiorEn varias pruebas de referencia, Kaleido supera con creces a los métodos existentes en cuanto a coherencia de los sujetos, desacoplamiento del fondo, calidad de vídeo, calidad estética y suavidad de vídeo, acercándose o incluso superando el nivel de los modelos de código cerrado.
  • El código abierto impulsa la ecología: Como proyecto de código abierto, Kaleido proporciona un fuerte apoyo a la investigación y la aplicación en el campo de la generación de vídeo, y promueve el desarrollo tecnológico y la construcción ecológica de todo el campo, con una amplia gama de perspectivas de aplicación.

Cuál es la web oficial de Kaleido

  • Página web del proyecto:: https://criliasmiller.github.io/Kaleido_Project/
  • Repositorio GitHub:: https://github.com/zai-org/Kaleido
  • Biblioteca de modelos HuggingFace:: https://huggingface.co/zai-org/Kaleido-14B-S2V
  • Documento técnico arXiv:: https://arxiv.org/pdf/2510.18573

¿A quién va dirigido Kaleido?

  • Creadores de contenidos de vídeoKaleido: Genere vídeos de alta calidad rápidamente con Kaleido para ahorrar costes de rodaje y postproducción, adecuados para la creación de contenidos en publicidad, comercio electrónico, cine y televisión.
  • Investigadores en inteligencia artificial: Como modelo de código abierto, Kaleido proporciona a los investigadores ricos datos experimentales y marcos técnicos avanzados para facilitar el trabajo de investigación relacionado con la generación de vídeo.
  • Desarrolladores e ingenierosKaleido: Puede integrar Kaleido en sus propios proyectos, desarrollar nuevas aplicaciones u optimizar los sistemas existentes para el desarrollo de software y plataformas que requieran capacidades de generación de vídeo.
  • Diseñador creativoLa capacidad de generación de vídeo multisujeto de Kaleido permite la realización rápida de ideas creativas, proporcionando nuevas ideas y materiales para el trabajo de diseño.
  • Educadores y estudiantesEl vídeo: puede utilizarse en la enseñanza y el aprendizaje para ayudar a los estudiantes a comprender los principios y las aplicaciones de la tecnología de generación de vídeo y desarrollar las habilidades y la creatividad pertinentes.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...