Hugging Face presenta SmolVLM, un pequeño modelo multimodal que puede ejecutarse en dispositivos finales

SmolVLM es un pequeño modelo multimodal con un número de parámetros de 2.000 millones que acepta la entrada de cualquier combinación de imágenes y texto y genera una salida textual.

Hugging Face 推出可在终端设备上运行的小型多模态模型 SmolVLM

Tras lanzar en julio el modelo de lenguaje ligero SmolLM, la plataforma de desarrollo de aplicaciones de IA Hugging Face ha lanzado esta semana SmolVLM, un modelo multimodal ligero que se centra en la ligereza y el alto rendimiento, y que se suma a su línea de pequeños modelos de lenguaje.

SmolVLM es un pequeño modelo multimodal con 2.000 millones de referencias, y es conocido como el líder en rendimiento de su clase (State-of-the-Art, SOTA). SmolVLM puede responder a preguntas sobre imágenes, describir el contenido de imágenes, contar historias basadas en varias imágenes o utilizarse como modelo puramente lingüístico. Según el equipo de desarrollo, SmolVLM se basa en una arquitectura ligera muy adecuada para funcionar en dispositivos sin dejar de realizar bien las tareas multimodales.

La arquitectura de SmolVLM se basa en el modelo de visión introducido anteriormente por Hugging Face, IDEFICS 3, e incluso Transformador La aplicación es la misma. Sin embargo, Cara de abrazo no es una buena opción para el IDEFICS Se han introducido varias mejoras. En primer lugar, el núcleo del modelo lingüístico se ha sustituido de Llama 3.1 8B a SmolLM2 1.7B. En segundo lugar, SmolVLM utiliza técnicas de compresión de imágenes más avanzadas, como la estrategia de barajado de píxeles y parches más grandes para la compresión visual. Ficha lo que mejora la eficacia de la codificación, acelera la inferencia y reduce el uso de memoria.

Hugging Face destaca las ventajas de SmolVLM en cuanto a eficiencia y uso de memoria y publica datos de pruebas comparativas con modelos paramétricos equivalentes. SmolVLM supera a modelos como InternVL2, PaliGemma, MM1.5, moondream y MiniCPM-V-2 en comprensión multimodal, razonamiento, matemáticas y comprensión de textos. También supera a la mayoría de los modelos en términos de eficiencia de uso de la memoria de la GPU. En comparación con Qwen2-V2 de Alibaba, SmolVLM ofrece un rendimiento de prepoblación entre 3,3 y 4,5 veces superior y un rendimiento de generación entre 7,5 y 16 veces superior.

Hugging Face ha lanzado tres versiones de modelos de la familia SmolVLM: SmolVLM-Base para el ajuste fino, SmolVLM-Synthetic para el ajuste fino basado en conjuntos de datos sintéticos, y una versión ajustada mediante comandos, SmolVLM Instruct, que está lista para la interacción del usuario final. Todos los puntos de control del modelo, los conjuntos de datos de entrenamiento, los métodos de entrenamiento y las herramientas de SmolVLM se basan en el Apache 2.0licencia de código abierto.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...