O SmolVLM é um modelo multimodal pequeno com um número de parâmetros de 2 bilhões que aceita entrada de qualquer combinação de imagens e texto e gera saída textual.
Depois de lançar o modelo de linguagem leve SmolLM em julho, a plataforma de desenvolvimento de aplicativos de IA Hugging Face lançou esta semana o SmolVLM, um modelo multimodal leve que se concentra na leveza e no alto desempenho, acrescentando à sua linha de modelos de linguagem pequenos.
O SmolVLM é um pequeno modelo multimodal com 2 bilhões de referências e é conhecido como o líder de desempenho em sua classe (estado da arte, SOTA). O SmolVLM é capaz de aceitar qualquer combinação de imagens e texto como entrada, mas, por ser um modelo leve, só gera saída textual. O SmolVLM pode responder a perguntas sobre imagens, descrever o conteúdo de uma imagem, contar uma história com base em várias imagens ou ser usado como um modelo puramente linguístico. De acordo com a equipe de desenvolvimento, o SmolVLM baseia-se em uma arquitetura leve que é adequada para ser executada em dispositivos e, ao mesmo tempo, executar bem as tarefas multimodais.
A arquitetura do SmolVLM é baseada no modelo de visão anterior da Hugging Face, o IDEFICS 3, e até mesmo a implementação do Transformer é a mesma. Entretanto, a abordagem da Hugging Face para IDEFICS Foram feitos vários aprimoramentos. Primeiro, o núcleo do modelo de linguagem foi substituído do Llama 3.1 8B para o SmolLM2 1.7B. Segundo, o SmolVLM usa técnicas de compactação de imagem mais avançadas, como a estratégia de embaralhamento de pixels e patches maiores para a compactação visual. Token resultando em maior eficiência de codificação, inferência mais rápida e menor uso de memória.
O Hugging Face destaca as vantagens de eficiência e uso de memória do SmolVLM e publica dados de testes comparativos com modelos paramétricos equivalentes. O SmolVLM supera modelos como InternVL2, PaliGemma, MM1.5, moondream e MiniCPM-V-2 em compreensão multimodal, raciocínio, matemática e compreensão de texto. Ele também supera a maioria dos modelos em termos de eficiência de uso da memória da GPU. Em comparação com o Qwen2-V2 da Alibaba, o SmolVLM oferece uma taxa de transferência de pré-população 3,3 a 4,5 vezes mais rápida e uma taxa de transferência de geração 7,5 a 16 vezes maior.
A Hugging Face lançou três versões de modelos da família SmolVLM, incluindo o SmolVLM-Base para ajuste fino, o SmolVLM-Synthetic para ajuste fino com base em conjuntos de dados sintéticos e a versão com ajuste fino por comando, o SmolVLM Instruct, que está pronto para interação direta com o usuário final. Todos os pontos de verificação do modelo, conjuntos de dados de treinamento, métodos de treinamento e ferramentas do SmolVLM são baseados no Apache 2.0licença de código aberto.