DeepSeek-VL2: un modelo de lenguaje visual experto para la comprensión multimodal avanzada

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

73.1K 00

Introducción general

DeepSeek-VL2 es una serie de modelos avanzados de lenguaje visual basados en mezclas de expertos (MoE) que mejoran significativamente el rendimiento de su predecesor, DeepSeek-VL. La familia DeepSeek-VL2 consta de tres variantes: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small y DeepSeek-VL2, que tienen 1.0B, 2.8B y 4.5B parámetros de activación, respectivamente. respectivamente. Los modelos alcanzan un rendimiento comparable o superior al de los modelos densos y MoE de código abierto existentes con un número de parámetros similar o inferior.

Demostración: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

Lista de funciones

Preguntas y respuestas visuales: Apoya tareas complejas de preguntas visuales proporcionando respuestas precisas.
Reconocimiento óptico de caracteres (OCR)Reconocimiento eficaz del contenido textual de las imágenes.
Comprensión de documentos: Análisis sintáctico y comprensión de la estructura y el contenido de documentos complejos.
Comprensión de formas: Identifica y procesa datos tabulares para extraer información útil.
Comprensión gráficaAnalizar e interpretar datos y tendencias en gráficos y diagramas.
orientación visualLocaliza con precisión el objeto en la imagen.
Soporte multivarianteLos modelos Tiny, Small y Standard están disponibles para satisfacer diferentes necesidades.
Alto rendimiento: Reduce el número de parámetros de activación manteniendo un alto rendimiento.

Utilizar la ayuda

Proceso de instalación

Asegúrese de que la versión de Python es >= 3.8.
Clonación del repositorio DeepSeek-VL2:

   git clone https://github.com/deepseek-ai/DeepSeek-VL2.git

Vaya al directorio del proyecto e instale las dependencias necesarias:

   cd DeepSeek-VL2
pip install -e .

ejemplo de uso

Ejemplo de razonamiento simple

A continuación se muestra un ejemplo de código para una inferencia simple utilizando DeepSeek-VL2:

import torch
from transformers import AutoModelForCausalLM
from deepseek_vl2.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
from deepseek_vl2.utils.io import load_pil_images
# 指定模型路径
model_path = "deepseek-ai/deepseek-vl2-tiny"
vl_chat_processor = DeepseekVLV2Processor.from_pretrained(model_path)
vl_model = DeepseekVLV2ForCausalLM.from_pretrained(model_path)
# 加载图像
images = load_pil_images(["path_to_image.jpg"])
# 推理
inputs = vl_chat_processor(images=images, return_tensors="pt")
outputs = vl_model.generate(**inputs)
print(outputs)

Flujo detallado de funcionamiento de las funciones

Preguntas y respuestas visuales::
- Modelos de carga y procesadores.
- Introduzca una imagen y una pregunta y el modelo le devolverá la respuesta.
Reconocimiento óptico de caracteres (OCR)::
- utilizar DeepseekVLV2Processor Cargar imagen.
- Se recurre al modelo de inferencia para extraer el texto de la imagen.
Comprensión de documentos::
- Carga la entrada que contiene la imagen del documento.
- El modelo analiza la estructura del documento y devuelve el resultado del análisis.
Comprensión de formas::
- Introduzca una imagen que contenga el formulario.
- El modelo reconoce la estructura y el contenido del formulario y extrae la información clave.
Comprensión gráfica::
- Cargar la imagen del gráfico.
- El modelo analiza los datos gráficos, proporcionando interpretación y análisis de tendencias.
orientación visual::
- Introduzca una descripción y una imagen del objeto de destino.
- El modelo localiza el objeto objetivo en la imagen y devuelve las coordenadas de posición.

Con los pasos anteriores, los usuarios pueden aprovechar al máximo la potencia de DeepSeek-VL2 para completar diversas tareas complejas de lenguaje visual.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Producto interactivo multimodal en tiempo real

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

LAMBDA: Sistema de automatización de correo electrónico con IA localizada para la generación rápida de respuestas a borradores de correo electrónico (Gmail)

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI Asistente de Eficiencia Vital

hace 1 año

054.4K

MotionGo - AI PPT animation plugin, comandos simples para generar interactivamente PPTs

Últimos recursos sobre IA

hace 9 meses

051.6K

Chat Data: integración rápida de datos personales para crear chatbots de IA integrados en sitios web

Últimos recursos sobre IA # Robot AI de atención al cliente

hace 1 año

046K

De paper a podcast: cómo convertir trabajos académicos en podcasts de conversación entre varias personas

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI texto a voz

hace 12 meses

046K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

DeepSeek-VL2: un modelo de lenguaje visual experto para la comprensión multimodal avanzada

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

ejemplo de uso

Ejemplo de razonamiento simple

Flujo detallado de funcionamiento de las funciones

Zonos: herramientas de síntesis y clonación de voz de alta calidad

Meetily: un asistente de IA para generar actas de reuniones, transcribir y generar resúmenes de reuniones en tiempo real.

Artículos relacionados

LAMBDA: Sistema de automatización de correo electrónico con IA localizada para la generación rápida de respuestas a borradores de correo electrónico (Gmail)

MotionGo - AI PPT animation plugin, comandos simples para generar interactivamente PPTs

Chat Data: integración rápida de datos personales para crear chatbots de IA integrados en sitios web

De paper a podcast: cómo convertir trabajos académicos en podcasts de conversación entre varias personas

Sin comentarios

Últimas colecciones

Últimos artículos

DeepSeek-VL2: un modelo de lenguaje visual experto para la comprensión multimodal avanzada

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

ejemplo de uso

Ejemplo de razonamiento simple

Flujo detallado de funcionamiento de las funciones

Zonos: herramientas de síntesis y clonación de voz de alta calidad

Meetily: un asistente de IA para generar actas de reuniones, transcribir y generar resúmenes de reuniones en tiempo real.

Artículos relacionados

LAMBDA: Sistema de automatización de correo electrónico con IA localizada para la generación rápida de respuestas a borradores de correo electrónico (Gmail)

MotionGo - AI PPT animation plugin, comandos simples para generar interactivamente PPTs

Chat Data: integración rápida de datos personales para crear chatbots de IA integrados en sitios web

De paper a podcast: cómo convertir trabajos académicos en podcasts de conversación entre varias personas

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos