Aprendizagem pessoal com IA
e orientação prática

A Hugging Face apresenta o SmolVLM, um pequeno modelo multimodal que pode ser executado em dispositivos finais

O SmolVLM é um modelo multimodal pequeno com um número de parâmetros de 2 bilhões que aceita entrada de qualquer combinação de imagens e texto e gera saída textual.

A Hugging Face apresenta o SmolVLM-1, um pequeno modelo multimodal que pode ser executado em dispositivos finais


Depois de lançar o modelo de linguagem leve SmolLM em julho, a plataforma de desenvolvimento de aplicativos de IA Hugging Face lançou esta semana o SmolVLM, um modelo multimodal leve que se concentra na leveza e no alto desempenho, acrescentando à sua linha de modelos de linguagem pequenos.

O SmolVLM é um pequeno modelo multimodal com 2 bilhões de referências e é conhecido como o líder de desempenho em sua classe (estado da arte, SOTA). O SmolVLM é capaz de aceitar qualquer combinação de imagens e texto como entrada, mas, por ser um modelo leve, só gera saída textual. O SmolVLM pode responder a perguntas sobre imagens, descrever o conteúdo de uma imagem, contar uma história com base em várias imagens ou ser usado como um modelo puramente linguístico. De acordo com a equipe de desenvolvimento, o SmolVLM baseia-se em uma arquitetura leve que é adequada para ser executada em dispositivos e, ao mesmo tempo, executar bem as tarefas multimodais.

A arquitetura do SmolVLM é baseada no modelo de visão anterior da Hugging Face, o IDEFICS 3, e até mesmo a implementação do Transformer é a mesma. Entretanto, a abordagem da Hugging Face para IDEFICS Foram feitos vários aprimoramentos. Primeiro, o núcleo do modelo de linguagem foi substituído do Llama 3.1 8B para o SmolLM2 1.7B. Segundo, o SmolVLM usa técnicas de compactação de imagem mais avançadas, como a estratégia de embaralhamento de pixels e patches maiores para a compactação visual. Token resultando em maior eficiência de codificação, inferência mais rápida e menor uso de memória.

O Hugging Face destaca as vantagens de eficiência e uso de memória do SmolVLM e publica dados de testes comparativos com modelos paramétricos equivalentes. O SmolVLM supera modelos como InternVL2, PaliGemma, MM1.5, moondream e MiniCPM-V-2 em compreensão multimodal, raciocínio, matemática e compreensão de texto. Ele também supera a maioria dos modelos em termos de eficiência de uso da memória da GPU. Em comparação com o Qwen2-V2 da Alibaba, o SmolVLM oferece uma taxa de transferência de pré-população 3,3 a 4,5 vezes mais rápida e uma taxa de transferência de geração 7,5 a 16 vezes maior.

A Hugging Face lançou três versões de modelos da família SmolVLM, incluindo o SmolVLM-Base para ajuste fino, o SmolVLM-Synthetic para ajuste fino com base em conjuntos de dados sintéticos e a versão com ajuste fino por comando, o SmolVLM Instruct, que está pronto para interação direta com o usuário final. Todos os pontos de verificação do modelo, conjuntos de dados de treinamento, métodos de treinamento e ferramentas do SmolVLM são baseados no Apache 2.0licença de código aberto.

Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " A Hugging Face apresenta o SmolVLM, um pequeno modelo multimodal que pode ser executado em dispositivos finais

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil