DeepSeek-VL2: um modelo de linguagem visual especializado para compreensão multimodal avançada

Recursos mais recentes de IAPublicado há 6 meses Círculo de compartilhamento de IA

2.4K 00

Introdução geral

O DeepSeek-VL2 é uma série de modelos avançados de linguagem visual Mixture-of-Experts (MoE) que melhoram significativamente o desempenho de seu antecessor, o DeepSeek-VL. Os modelos se destacam em tarefas como resposta visual a perguntas, reconhecimento óptico de caracteres, compreensão de documentos/tabelas/diagramas e localização visual. A família DeepSeek-VL2 consiste em três variantes: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small e DeepSeek-VL2, que têm 1,0B, 2,8B e 4,5B parâmetros de ativação, respectivamente. parâmetros de ativação, respectivamente. Os modelos alcançam desempenho comparável ou superior aos modelos densos e MoE de código aberto existentes com número de parâmetros semelhante ou menor.

Demonstração: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

Lista de funções

Perguntas e respostas visuaisSuporte a tarefas complexas de questionários visuais, fornecendo respostas precisas.
Reconhecimento óptico de caracteres (OCR)Reconhecimento eficiente de conteúdo de texto em imagens.
Compreensão do documentoAnálise e compreensão da estrutura e do conteúdo de documentos complexos.
Compreensão de formuláriosIdentificação e processamento de dados tabulares para extrair informações úteis.
Compreensão gráficaAnálise e interpretação de dados e tendências em gráficos e quadros.
orientação visualLocalize com precisão o objeto-alvo na imagem.
Suporte a várias variantesOs modelos Tiny, Small e Standard estão disponíveis para atender a diferentes necessidades.
Alto desempenhoRedução do número de parâmetros de ativação, mantendo o alto desempenho.

Usando a Ajuda

Processo de instalação

Certifique-se de que a versão do Python seja >= 3.8.
Clonagem do repositório DeepSeek-VL2:

   git clone https://github.com/deepseek-ai/DeepSeek-VL2.git

Vá para o diretório do projeto e instale as dependências necessárias:

   cd DeepSeek-VL2
pip install -e .

exemplo de uso

Exemplo de raciocínio simples

Abaixo está um código de amostra para inferência simples usando o DeepSeek-VL2:

import torch
from transformers import AutoModelForCausalLM
from deepseek_vl2.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
from deepseek_vl2.utils.io import load_pil_images
# 指定模型路径
model_path = "deepseek-ai/deepseek-vl2-tiny"
vl_chat_processor = DeepseekVLV2Processor.from_pretrained(model_path)
vl_model = DeepseekVLV2ForCausalLM.from_pretrained(model_path)
# 加载图像
images = load_pil_images(["path_to_image.jpg"])
# 推理
inputs = vl_chat_processor(images=images, return_tensors="pt")
outputs = vl_model.generate(**inputs)
print(outputs)

Fluxo de operação detalhado da função

Perguntas e respostas visuais::
- Carregue modelos e processadores.
- Insira uma imagem e uma pergunta e o modelo retornará a resposta.
Reconhecimento óptico de caracteres (OCR)::
- fazer uso de DeepseekVLV2Processor Carregar imagem.
- O modelo é chamado para inferência para extrair o texto na imagem.
Compreensão do documento::
- Carrega a entrada que contém a imagem do documento.
- O modelo analisa a estrutura do documento e retorna o resultado da análise.
Compreensão de formulários::
- Insira uma imagem que contenha o formulário.
- O modelo reconhece a estrutura e o conteúdo do formulário e extrai as principais informações.
Compreensão gráfica::
- Carregar a imagem do gráfico.
- O modelo analisa dados gráficos, fornecendo interpretação e análise de tendências.
orientação visual::
- Insira uma descrição e uma imagem do objeto de destino.
- O modelo localiza o objeto-alvo na imagem e retorna as coordenadas de posição.

Com as etapas acima, os usuários podem aproveitar ao máximo o poder do DeepSeek-VL2 para concluir uma variedade de tarefas complexas de linguagem visual.

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Ragie: sincronização automática de dados do usuário e serviço RAG totalmente gerenciado para desenvolvedores

Recursos mais recentes de IA # Serviços abertos de IA

6 meses atrás

02.4K

CodeGuide: crie documentação de desenvolvimento de programação de IA e automatize a geração de documentação completa de projetos de TI (pago)

Recursos mais recentes de IA Programação de IA #

7 meses atrás

03.3K

DocAgent: uma ferramenta inteligente para automatizar a documentação do código Python

Recursos mais recentes de IA # Projeto de código aberto AI Java

4 meses atrás

01.6K

Uthana - plataforma de geração de animação de personagens 3D com IA, descrição de texto ou vídeo de referência para gerar animação realista

Recursos mais recentes de IA

2 meses atrás

01.8K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

DeepSeek-VL2: um modelo de linguagem visual especializado para compreensão multimodal avançada

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

exemplo de uso

Exemplo de raciocínio simples

Fluxo de operação detalhado da função

Zonos: ferramentas de síntese de fala e clonagem de fala de alta qualidade

Meetily: um assistente de IA para gerar atas de reuniões, transcrever e gerar resumos de reuniões em tempo real

Artigos relacionados

Ragie: sincronização automática de dados do usuário e serviço RAG totalmente gerenciado para desenvolvedores

CodeGuide: crie documentação de desenvolvimento de programação de IA e automatize a geração de documentação completa de projetos de TI (pago)

DocAgent: uma ferramenta inteligente para automatizar a documentação do código Python

Uthana - plataforma de geração de animação de personagens 3D com IA, descrição de texto ou vídeo de referência para gerar animação realista

Sem comentários

Últimas coleções

Artigos mais recentes

DeepSeek-VL2: um modelo de linguagem visual especializado para compreensão multimodal avançada

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

exemplo de uso

Exemplo de raciocínio simples

Fluxo de operação detalhado da função

Zonos: ferramentas de síntese de fala e clonagem de fala de alta qualidade

Meetily: um assistente de IA para gerar atas de reuniões, transcrever e gerar resumos de reuniões em tempo real

Artigos relacionados

Ragie: sincronização automática de dados do usuário e serviço RAG totalmente gerenciado para desenvolvedores

CodeGuide: crie documentação de desenvolvimento de programação de IA e automatize a geração de documentação completa de projetos de TI (pago)

DocAgent: uma ferramenta inteligente para automatizar a documentação do código Python

Uthana - plataforma de geração de animação de personagens 3D com IA, descrição de texto ou vídeo de referência para gerar animação realista

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes