LLaVA-OneVision-1.5 - Modelo multimodal gratuito y de código abierto para una comprensión multimodal de alto rendimiento
LLaVA-OneVision-1.5 es un modelo multimodal de código abierto del equipo EvolvingLMMS-Lab, que utiliza la escala de parámetros 8B, mediante un proceso de entrenamiento compacto en tres etapas (alineación lenguaje-imagen, equilibrio conceptual e inyección de conocimientos, y ajuste fino de instrucciones) en 128 A800....


































































































