Recentemente, a equipe da Qwen orgulhosamente lançou uma série de Exemplo de caderno de casos de uso do Qwen2.5-VLO Qwen2.5-VL fornece uma demonstração abrangente do poder dos modelos e APIs nativos. Esses Notebooks cuidadosamente elaborados são projetados para ajudar os desenvolvedores e usuários a obter uma compreensão mais profunda do poderoso entendimento visual do Qwen2.5-VL e inspirar aplicativos mais inovadores.
Exemplo de notebook: Primeiros passos com o Qwen 2.5-VL
Com esses exemplos detalhados do Notebook, os desenvolvedores podem Acelere e veja por si mesmo o desempenho do modelo Qwen 2.5-VL em todas as tarefas!Qwen2.5-VL Seja lidando com a análise de documentos complexos, executando tarefas precisas de OCR ou realizando uma compreensão profunda do conteúdo de vídeo, o Qwen2.5-VL fornece feedback eficiente e preciso, demonstrando seu desempenho superior.
Ao mesmo tempo, a equipe do Qwen aguarda ansiosamente o feedback e as contribuições da comunidade para melhorar e expandir os recursos do Qwen 2.5-VL e trabalhar em conjunto para promover o desenvolvimento da tecnologia multimodal.
🔗 RELACIONADOS:
- Repositório do GitHub. https://github.com/QwenLM/Qwen2.5-VL/tree/main/cookbooks
- Experiência on-line. https://chat.qwenlm.ai (selecione o modelo Qwen2.5-VL-72B-Instruct)
- Link do modelo ModelScope: https://www.modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47
- Interface API da Parsons Brinckerhoff. https://help.aliyun.com/zh/model-studio/user-guide/vision/
Exemplos de notebooks em detalhes
01 Uso do computador
Este exemplo de Notebook demonstra como usar o Qwen2.5-VL para realizar tarefas relacionadas ao uso do computador.
Os usuários só precisam tirar uma captura de tela da área de trabalho do computador e fazer uma consulta. O modelo Qwen2.5-VL pode analisar o conteúdo da captura de tela, entender a intenção do usuário e gerar instruções precisas, como clicar ou digitar, para obter o controle inteligente do computador.
👉 Links para o notebook. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/computer_use.ipynb
02 Compreensão espacial
Esse exemplo do Notebook destaca os recursos avançados de localização espacial do Qwen2.5-VL, incluindo a detecção precisa de objetos e a localização de alvos específicos em uma imagem.
Os exemplos fornecem uma visão de como o Qwen2.5-VL integra efetivamente a compreensão visual e linguística para interpretar com precisão cenários complexos e permitir o raciocínio espacial avançado.
👉 Links para o notebook. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/spatial_understanding.ipynb
03 Análise de documentos
Este exemplo do Notebook destaca os poderosos recursos de análise de documentos do Qwen2.5-VL. Ele pode processar documentos em uma variedade de formatos de imagem e gerar os resultados analisados em uma variedade de formatos, incluindo HTML, JSON, MD e LaTeX.
De interesse especial é a introdução inovadora da Qwen de um formato HTML QwenVL exclusivo. Esse formato contém informações sobre a localização de cada componente no documento, permitindo a reconstrução precisa e a manipulação flexível do documento.
👉 Links para o notebook. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/document_parsing.ipynb
04 Agente móvel (agente de dispositivo móvel)
Este exemplo do Notebook demonstra como interagir de forma inteligente com um dispositivo móvel usando os recursos de agente do Qwen2.5-VL.
O exemplo mostra como o modelo Qwen2.5-VL gera e executa ações com base na consulta do usuário e no contexto visual do dispositivo móvel, permitindo um controle fácil do dispositivo móvel.
👉 Links para o notebook. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/mobile_agent.ipynb
05 OCR (reconhecimento óptico de caracteres)
Este exemplo de Notebook se concentra em demonstrar os recursos de OCR (reconhecimento óptico de caracteres) do Qwen2.5-VL, incluindo a extração e o reconhecimento precisos de informações de texto de imagens.
Por meio dos exemplos, os usuários podem entender intuitivamente como o Qwen2.5-VL pode capturar e interpretar com precisão o conteúdo de texto em cenários complexos, demonstrando seus poderosos recursos de reconhecimento de texto.
👉 Links para o notebook. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/ocr.ipynb
06 Reconhecimento universal
Este exemplo do Notebook mostra como usar o Qwen2.5-VL para reconhecimento genérico de objetos.
O modelo Qwen2.5-VL analisa a imagem, compreende a intenção de consulta do usuário e fornece o resultado de reconhecimento correspondente, obtendo uma compreensão abrangente do conteúdo da imagem.
👉 Links para o notebook. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/universal_recognition.ipynb
07 Compreensão de vídeo
O Qwen2.5-VL tem recursos poderosos de compreensão de vídeos longos e pode lidar com conteúdo de vídeo com mais de 1 hora de duração. Este exemplo do Notebook oferece uma exploração aprofundada dos recursos do modelo Qwen2.5-VL para tarefas de compreensão de vídeo.
O Qwen2.5-VL foi projetado para demonstrar seu potencial em uma ampla variedade de cenários de análise de vídeo, desde o OCR (Optical Character Recognition) básico até a detecção de eventos complexos e a sumarização de conteúdo.
👉 Links para o notebook. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/video_understanding.ipynb
Práticas recomendadas do Magic Hitch: exemplo de livro de receitas de jogo aritmético gratuito
Na comunidade do ModelScope Magic Hitch, os usuários podem experimentar facilmente esses exemplos do Cookbook com aritmética livre.
Primeiro, faça o download do código Qwen2.5-VL.
git clone https://github.com/QwenLM/Qwen2.5-VL.git
Use a API Models no Notebook: A API-Inference da Plataforma MagicBuilder fornece uma API gratuita para a família de modelos Qwen2.5-VL, que pode ser usada diretamente pelos usuários do MagicBuilder por meio de chamadas de API, substituindo a base-URL no Cookbook e preenchendo o MagicBuilder SDK. Token Pronto para começar.Documentação detalhada: https://www.modelscope.cn/docs/model-service/API-Inference/intro
de openai importação OpenAI
cliente = OpenAI(
api_key="", Token # ModelScope
base_url="https://api-inference.modelscope.cn/v1"
)
response = client.chat.completions.create(
model="Qwen/Qwen2.5-VL-72B-Instruct", # ModelScope Model-Id
mensagens = [
{
"função": "usuário",
"content" (conteúdo): [
{
"tipo": "image_url",
"image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/bird-vl.jpg"}
},
{ "tipo": "texto",
"texto": "Conte o número de pássaros na figura, incluindo aqueles que estão apenas mostrando a cabeça. Para garantir a precisão, primeiro detecte os pontos principais e, em seguida, dê a "Conte o número de pássaros na figura, incluindo aqueles que estão apenas mostrando a cabeça.
}
]
}
],
stream=Verdadeiro
)
O Notebook usa um modelo local: Selecione o modelo da GPU.
Conclusão: Bem-vindo à experiência e à criação do futuro juntos
No futuro, a equipe do Qwen continuará a atualizar e expandir esses exemplos do Notebook para incorporar mais recursos úteis e cenários de aplicação, em um esforço para fornecer aos desenvolvedores soluções mais abrangentes. Bem-vindo ao repositório GitHub do Qwen2.5-VL ou ao ModelScope para experimentar esses exemplos do Notebook e compartilhar sua experiência e aplicações inovadoras! A equipe do Qwen está ansiosa para explorar as possibilidades do Qwen2.5-VL com você.