Hugging Face presenta SmolVLM, un pequeño modelo multimodal que puede ejecutarse en dispositivos finales

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

33.7K 00

SmolVLM es un pequeño modelo multimodal con un número de parámetros de 2.000 millones que acepta la entrada de cualquier combinación de imágenes y texto y genera una salida textual.

Hugging Face 推出可在终端设备上运行的小型多模态模型 SmolVLM

Tras lanzar en julio el modelo de lenguaje ligero SmolLM, la plataforma de desarrollo de aplicaciones de IA Hugging Face ha lanzado esta semana SmolVLM, un modelo multimodal ligero que se centra en la ligereza y el alto rendimiento, y que se suma a su línea de pequeños modelos de lenguaje.

SmolVLM es un pequeño modelo multimodal con 2.000 millones de referencias, y es conocido como el líder en rendimiento de su clase (State-of-the-Art, SOTA). SmolVLM puede responder a preguntas sobre imágenes, describir el contenido de imágenes, contar historias basadas en varias imágenes o utilizarse como modelo puramente lingüístico. Según el equipo de desarrollo, SmolVLM se basa en una arquitectura ligera muy adecuada para funcionar en dispositivos sin dejar de realizar bien las tareas multimodales.

La arquitectura de SmolVLM se basa en el modelo de visión introducido anteriormente por Hugging Face, IDEFICS 3, e incluso Transformador La aplicación es la misma. Sin embargo, Cara de abrazo no es una buena opción para el IDEFICS Se han introducido varias mejoras. En primer lugar, el núcleo del modelo lingüístico se ha sustituido de Llama 3.1 8B a SmolLM2 1.7B. En segundo lugar, SmolVLM utiliza técnicas de compresión de imágenes más avanzadas, como la estrategia de barajado de píxeles y parches más grandes para la compresión visual. Ficha lo que mejora la eficacia de la codificación, acelera la inferencia y reduce el uso de memoria.

Hugging Face destaca las ventajas de SmolVLM en cuanto a eficiencia y uso de memoria y publica datos de pruebas comparativas con modelos paramétricos equivalentes. SmolVLM supera a modelos como InternVL2, PaliGemma, MM1.5, moondream y MiniCPM-V-2 en comprensión multimodal, razonamiento, matemáticas y comprensión de textos. También supera a la mayoría de los modelos en términos de eficiencia de uso de la memoria de la GPU. En comparación con Qwen2-V2 de Alibaba, SmolVLM ofrece un rendimiento de prepoblación entre 3,3 y 4,5 veces superior y un rendimiento de generación entre 7,5 y 16 veces superior.

Hugging Face ha lanzado tres versiones de modelos de la familia SmolVLM: SmolVLM-Base para el ajuste fino, SmolVLM-Synthetic para el ajuste fino basado en conjuntos de datos sintéticos, y una versión ajustada mediante comandos, SmolVLM Instruct, que está lista para la interacción del usuario final. Todos los puntos de control del modelo, los conjuntos de datos de entrenamiento, los métodos de entrenamiento y las herramientas de SmolVLM se basan en el Apache 2.0licencia de código abierto.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Puestos relacionados

Mistral 发布开源 Mistral Small 3：性能媲美 GPT-4o，速度超越 Llama 3

Mistral lanza la Mistral Small 3 de código abierto: rivaliza en rendimiento con la GPT-4o y supera a la Llama 3

Noticias AI

hace 11mos

029.5K

Anlisis en profundidad丨El prximo mercado de agentes de 300.000 millones de dlares, con casos de estudio

Noticias AI

hace 12mos

028.2K

Cloudflare 拥抱远程 MCP：将 AI Agent 能力推向更广阔的互联网

Cloudflare adopta el MCP remoto: amplía las capacidades del agente de IA a Internet

Noticias AI

hace 10mos

041.2K

10 herramientas gratuitas de AI para generar párrafos en inglés (2024)

Noticias AI

Hace 1 año

034.1K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Hugging Face presenta SmolVLM, un pequeño modelo multimodal que puede ejecutarse en dispositivos finales

Nueva versión｜Copilot + Agents, una nueva era de desarrollo inteligente de bajo código.

OpenAI espera llegar a 1.000 millones de usuarios el próximo año y ampliará agresivamente sus centros de datos

Puestos relacionados

Mistral lanza la Mistral Small 3 de código abierto: rivaliza en rendimiento con la GPT-4o y supera a la Llama 3

Anlisis en profundidad丨El prximo mercado de agentes de 300.000 millones de dlares, con casos de estudio

Cloudflare adopta el MCP remoto: amplía las capacidades del agente de IA a Internet

10 herramientas gratuitas de AI para generar párrafos en inglés (2024)

Sin comentarios

Últimas colecciones

Últimos artículos

Hugging Face presenta SmolVLM, un pequeño modelo multimodal que puede ejecutarse en dispositivos finales

Nueva versión｜Copilot + Agents, una nueva era de desarrollo inteligente de bajo código.

OpenAI espera llegar a 1.000 millones de usuarios el próximo año y ampliará agresivamente sus centros de datos

Puestos relacionados

Mistral lanza la Mistral Small 3 de código abierto: rivaliza en rendimiento con la GPT-4o y supera a la Llama 3

Anlisis en profundidad丨El prximo mercado de agentes de 300.000 millones de dlares, con casos de estudio

Cloudflare adopta el MCP remoto: amplía las capacidades del agente de IA a Internet

10 herramientas gratuitas de AI para generar párrafos en inglés (2024)

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos