Hugging Face apresenta um pequeno modelo multimodal que funciona em dispositivos finais SmolVLM-Chief AI Sharing Circle

O SmolVLM é um modelo multimodal pequeno com um número de parâmetros de 2 bilhões que aceita entrada de qualquer combinação de imagens e texto e gera saída textual.

A Hugging Face apresenta o SmolVLM-1, um pequeno modelo multimodal que pode ser executado em dispositivos finais

Depois de lançar o modelo de linguagem leve SmolLM em julho, a plataforma de desenvolvimento de aplicativos de IA Hugging Face lançou esta semana o SmolVLM, um modelo multimodal leve que se concentra na leveza e no alto desempenho, acrescentando à sua linha de modelos de linguagem pequenos.

O SmolVLM é um pequeno modelo multimodal com 2 bilhões de referências e é conhecido como o líder de desempenho em sua classe (estado da arte, SOTA). O SmolVLM é capaz de aceitar qualquer combinação de imagens e texto como entrada, mas, por ser um modelo leve, só gera saída textual. O SmolVLM pode responder a perguntas sobre imagens, descrever o conteúdo de uma imagem, contar uma história com base em várias imagens ou ser usado como um modelo puramente linguístico. De acordo com a equipe de desenvolvimento, o SmolVLM baseia-se em uma arquitetura leve que é adequada para ser executada em dispositivos e, ao mesmo tempo, executar bem as tarefas multimodais.

A arquitetura do SmolVLM é baseada no modelo de visão anterior da Hugging Face, o IDEFICS 3, e até mesmo a implementação do Transformer é a mesma. Entretanto, a abordagem da Hugging Face para IDEFICS Foram feitos vários aprimoramentos. Primeiro, o núcleo do modelo de linguagem foi substituído do Llama 3.1 8B para o SmolLM2 1.7B. Segundo, o SmolVLM usa técnicas de compactação de imagem mais avançadas, como a estratégia de embaralhamento de pixels e patches maiores para a compactação visual. Token resultando em maior eficiência de codificação, inferência mais rápida e menor uso de memória.

O Hugging Face destaca as vantagens de eficiência e uso de memória do SmolVLM e publica dados de testes comparativos com modelos paramétricos equivalentes. O SmolVLM supera modelos como InternVL2, PaliGemma, MM1.5, moondream e MiniCPM-V-2 em compreensão multimodal, raciocínio, matemática e compreensão de texto. Ele também supera a maioria dos modelos em termos de eficiência de uso da memória da GPU. Em comparação com o Qwen2-V2 da Alibaba, o SmolVLM oferece uma taxa de transferência de pré-população 3,3 a 4,5 vezes mais rápida e uma taxa de transferência de geração 7,5 a 16 vezes maior.

A Hugging Face lançou três versões de modelos da família SmolVLM, incluindo o SmolVLM-Base para ajuste fino, o SmolVLM-Synthetic para ajuste fino com base em conjuntos de dados sintéticos e a versão com ajuste fino por comando, o SmolVLM Instruct, que está pronto para interação direta com o usuário final. Todos os pontos de verificação do modelo, conjuntos de dados de treinamento, métodos de treinamento e ferramentas do SmolVLM são baseados no Apache 2.0licença de código aberto.

A Hugging Face apresenta o SmolVLM, um pequeno modelo multimodal que pode ser executado em dispositivos finais

Artigos relacionados

RTX 5090D personalizada para a China com restrições de IA e mineração de criptomoedas - configurações multi-GPU também bloqueadas

Conheça o Trae, o editor de IA que serve de referência para o Cursor

A NVIDIA revela o supercomputador pessoal de IA: NVIDIA Project DIGITS, capaz de executar grandes modelos com 200 bilhões de parâmetros

Lançamento doméstico do Conch Voice, que pode ser o melhor produto chinês de dublagem de voz

O grande modelo de voz em tempo real de ponta a ponta do Beanbag está on-line! O QI e o QE estão on-line, e o diálogo de voz em chinês está saindo do precipício!

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Novos lançamentos

Artigos populares

Hot Tags.

Chefe do Círculo de Compartilhamento de IA