GLM-4.1V-Thinking - uma família de modelos de linguagem visual de código aberto da Smart Spectrum AI

Recursos mais recentes de IAAtualizado há 3 meses Círculo de compartilhamento de IA

17.9K 00

O que é o GLM-4.1V-Thinking?

O GLM-4.1V-Thinking é um modelo de linguagem visual de código aberto lançado pela Smart Spectrum AI, projetado para tarefas cognitivas complexas. O GLM-4.1V-Thinking é compatível com entradas multimodais, abrangendo imagens, vídeos e documentos. Com base na arquitetura GLM-4V, o modelo introduz um mecanismo de raciocínio de cadeia de pensamento, reforça as estratégias de aprendizado com amostragem de cursos e aprimora significativamente o raciocínio causal multimodal e a estabilidade. A versão leve do GLM-4.1V-9B-Thinking (modelo básico GLM-4.1V-9B-Base e GLM-4.1V-9B-Thinking com pensamento profundo e capacidade de raciocínio) tem 10B de contagem de parâmetros e obteve a melhor pontuação de modelos de nível 10B em 23 das 28 revisões autorizadas, das quais 18 são iguais à contagem de 72B de parâmetros do Qwen- 2.5-VL, demonstrando plenamente o excelente desempenho do modelo de tamanho pequeno. O modelo tem uma ampla gama de perspectivas de aplicação em vários campos, como aconselhamento educacional, criação de conteúdo, interação inteligente, aplicativos do setor, bem como entretenimento e vida.

Principais recursos do GLM-4.1V-Thinking

Forte compreensão visualIdentificação e análise precisas de uma ampla variedade de conteúdo em imagens, incluindo detecção simples de alvos, tarefas mais complexas de classificação de imagens ou questionários visuais que exigem uma compreensão abrangente da imagem e a resposta a perguntas.
Alto nível de processamento de vídeoAnálise de tempo e modelagem de lógica de eventos: excelentes recursos de análise de tempo e modelagem de lógica de eventos para dar suporte ao processamento aprofundado de entradas de vídeo para compreensão do vídeo, gerando descrições de vídeo precisas e respondendo a perguntas relacionadas ao conteúdo do vídeo.
Análise de documentos com recursos completosEle suporta o processamento simultâneo de imagens e conteúdo de texto em documentos, compreensão de documentos longos, análise precisa de tabelas e gráficos e perguntas e respostas com base no conteúdo do documento, tudo isso de forma eficiente.
Excelentes habilidades de raciocínioEm matemática e ciências, resolução de problemas complexos de raciocínio, inclusive resolução de problemas de matemática em várias etapas, compreensão de fórmulas e raciocínio lógico em ciências, fornecendo um forte apoio ao aprendizado e à pesquisa em disciplinas relacionadas.
O raciocínio lógico é precisoSuporte para raciocínio lógico complexo e análise causal, respondendo a tarefas como raciocínio em várias etapas e julgamentos lógicos, ajudando os usuários a entender e analisar melhor uma ampla gama de situações complexas.
O raciocínio multimodal é eficienteCombinação orgânica de informações visuais e verbais para um raciocínio multimodal eficiente, concluindo tarefas como compreensão gráfica, perguntas e respostas visuais e ancoragem visual, além de fornecer um suporte poderoso para o processamento integrado de informações multimodais.

Vantagens de desempenho do GLM-4.1V-Thinking

Em 28 avaliações confiáveis, como MMStar, MMMU-Pro, ChartQAPro, OSWorld, etc., o GLM-4.1V-Thinking obteve excelentes resultados, dos quais 23 itens alcançaram o melhor desempenho de modelos da classe 10B e 18 itens estão no mesmo nível ou até mesmo foram superados pelo Qwen-2.5-VL, que tem uma contagem de parâmetros de até 72B, o que demonstra totalmente o desempenho poderoso de modelos de pequeno volume. Isso demonstra totalmente o desempenho poderoso de um modelo pequeno.

Endereço do site oficial do GLM-4.1V-Thinking

Repositório do GitHub:: https://github.com/THUDM/GLM-4.1V-Thinking
Biblioteca do modelo HuggingFace:: https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
Artigo técnico do arXiv:: https://arxiv.org/pdf/2507.01006v1
Demonstração da experiência on-line:: https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

Como usar o GLM-4.1V-Thinking

Uso da interface da API::
- Obter chave de APICrie um aplicativo para obter uma chave de API exclusiva na plataforma de IA do Smart Spectrum: https://bigmodel.cn/注册账号.
- Chamando a APIDe acordo com a documentação da API, chame a interface do modelo com uma solicitação HTTP para enviar dados de entrada (por exemplo, URL da imagem ou dados codificados em Base64, texto etc.) para o modelo e obter a saída do modelo. Por exemplo, chame com o código Python:

import requests
import json

api_url = "https://api.zhipuopen.com/v1/glm-4.1v-thinking"
api_key = "your_api_key"

input_data = {
    "image": "image_url_or_base64_encoded_data",
    "text": "your_input_text"
}

headers = {
    "Authorization": f"Bearer {api_key}",
    "Content-Type": "application/json"
}

response = requests.post(api_url, headers=headers, data=json.dumps(input_data))
result = response.json()
print(result)

Uso de modelo de código aberto::
- Modelos para downloadVisite a plataforma Hugging Face, encontre a página GLM-4.1V-Thinking Models e faça o download dos arquivos de modelo necessários.
- Modelos de carregamentoCarregamento: Carregue o modelo baixado com uma estrutura de aprendizagem profunda, como o PyTorch. Exemplo:

from transformers import AutoModelForVision2Seq, AutoProcessor
import torch

model_name = "THUDM/glm-4.1v-thinking"
model = AutoModelForVision2Seq.from_pretrained(model_name)
processor = AutoProcessor.from_pretrained(model_name)

- fazer inferênciasDados de entrada de pré-processamento (por exemplo, caminhos de imagens ou URLs, texto etc.) no modelo e obtenção da saída do modelo. Exemplo:

image_url = "image_url_or_image_path"
text = "your_input_text"
inputs = processor(images=image_url, text=text, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

result = processor.decode(outputs.logits[0], skip_special_tokens=True)
print(result)

Uso da plataforma de experiência on-line::
- Links de experiência de acessoVisite a página da experiência GLM-4.1V-Thinking diretamente na plataforma Hugging Face.
- dados de entradaUpload de dados, como imagens, ou inserção de texto em uma página da Web.
- Obtenção de resultadosClique no botão "Run" (Executar), aguarde o processamento do modelo e visualize o resultado, sem a necessidade de escrever códigos complexos e implantar modelos.

Principais benefícios do GLM-4.1V-Thinking

Suporte a entradas multimodaisSuporte a várias entradas, como imagens, vídeos, documentos, etc., e é capaz de processar de forma abrangente informações de várias fontes para atender às necessidades de tarefas complexas.
Raciocínio sólidoIntrodução de um mecanismo de raciocínio de cadeia de pensamento que gera um processo de raciocínio detalhado com pensamento passo a passo para melhorar o desempenho e a interpretabilidade de tarefas complexas.
Estratégias eficazes de treinamentoEstratégia de aprendizagem por reforço de amostragem baseada em curso que ajusta dinamicamente a dificuldade do treinamento e combina o pré-treinamento em larga escala com o ajuste fino para melhorar o desempenho e a eficiência.
Excelente desempenhoA contagem de parâmetros 10B é um modelo de pequeno porte que se destacou em muitas análises confiáveis, demonstrando alta eficiência e estabilidade.
Código aberto e facilidade de usoO recurso de código aberto reduz o limite de uso e oferece uma variedade de maneiras de usá-lo, facilitando para os desenvolvedores integrá-lo rapidamente e desenvolvê-lo duas vezes.

Pessoas a quem o GLM-4.1V-Thinking se destina

Aconselhamento educacionalInstrução assistida pelo professor, fornecendo aos alunos recursos de aprendizado mais ricos e etapas de solução de problemas mais detalhadas.
criador de conteúdoRedação de anúncios, operadores de mídia social, repórteres de notícias e outros geram conteúdo criativo combinando imagens e texto para melhorar a eficiência e a qualidade da criação.
Empresas e desenvolvedoresIntegração de modelos em sistemas inteligentes de atendimento ao cliente: as empresas integram modelos em sistemas inteligentes de atendimento ao cliente para melhorar a qualidade do atendimento ao cliente, oferecer suporte à entrada multimodal, entender melhor as necessidades do usuário e fornecer respostas precisas.
Desenvolvimento de aplicativos para o setorProfissionais das áreas de finanças, saúde e indústria realizam tarefas como análise de dados, geração de relatórios e monitoramento de equipamentos para melhorar a eficiência e a precisão.
Pesquisador (científico)Pesquisadores realizam a análise e o processamento de dados multimodais para dar suporte a tarefas de raciocínio complexas e avançar a pesquisa em campos relacionados.