Skywork-R1V: un modelo gráfico híbrido de razonamiento multimodal de código abierto por Kunlun Wanwen

Últimos recursos sobre IAPublicado hace 12 meses Círculo de intercambio de inteligencia artificial

47.8K 00

Introducción general

Skywork-R1V es un modelo de razonamiento multimodal de código abierto desarrollado por el equipo SkyworkAI (Kunlun Wanwei) y publicado en GitHub.Es capaz de procesar tanto imágenes como texto, realizar razonamientos lógicos de varios pasos y es especialmente bueno analizando problemas complejos de imágenes. El modelo se lanzó oficialmente el 18 de marzo de 2025 con un tamaño de parámetros de 3.800 millones. Es compatible con Chain-of-Thought (Cadena de Pensamiento), que puede descomponer paso a paso el contenido de una imagen para ayudar a los usuarios a resolver problemas de matemáticas, ciencias, etc. Skywork-R1V pretende impulsar la tecnología de IA y poner a disposición de más personas potentes herramientas de razonamiento de forma gratuita. No sólo es potente, sino que además ofrece documentación y código detallados para que los desarrolladores puedan utilizarlo y mejorarlo.

Lista de funciones

Pensamiento visual Razonamiento en cadenaCapacidad para analizar paso a paso el contenido de las imágenes, desmenuzar cuestiones complejas y ofrecer respuestas claras.
Resolución de problemas matemáticos: Reconocer cuestiones matemáticas en imágenes y dar respuestas de gran precisión.
Interpretación científica de imágenes: Analiza imágenes médicas o científicas para extraer información clave.
comprensión intermodal: Combina texto e imágenes para ofrecer resultados de razonamiento más completos.
Soporte de código abiertoSe proporcionan el código y los modelos completos, lo que permite a los usuarios modificarlos y desplegarlos libremente.

Utilizar la ayuda

Skywork-R1V es un proyecto de código abierto, los usuarios necesitan descargarlo a través de GitHub y configurar el entorno localmente para utilizarlo. A continuación encontrarás una guía detallada que te ayudará a empezar rápidamente.

Proceso de instalación

Preparar el entorno
- Asegúrese de que tiene Python 3.8 o superior instalado en su ordenador. Esto se puede hacer con el comando python --version Compruébalo.
- Es necesario tener instalado Git para descargar el código; los usuarios de Windows pueden descargarlo desde el sitio web oficial, y los usuarios de Linux o Mac pueden descargarlo desde el terminal escribiendo sudo apt install git tal vez brew install git Instalación.
- Se recomienda un entorno de GPU (por ejemplo, una tarjeta gráfica NVIDIA) para mejorar el rendimiento, y es necesario instalar CUDA y cuDNN.
Descargar código
- Abra un terminal o línea de comandos e introduzca el siguiente comando para clonar el repositorio:
```
git clone https://github.com/SkyworkAI/Skywork-R1V.git
```
- Vaya a la carpeta del proyecto:
```
cd Skywork-R1V
```
Instalación de dependencias
- El proyecto proporciona un archivo de dependencias <requirements.txt>. Ejecute el siguiente comando para instalar las bibliotecas necesarias:
```
pip install -r requirements.txt
```
- Si necesitas acelerar el razonamiento, instala Atención Flash:
```
pip install flash-attn --no-build-isolation
```
Descargar modelos
- Los archivos del modelo Skywork-R1V están alojados en Hugging Face. Acceda a https://huggingface.co/Skywork/Skywork-R1V-38BDescargue el archivo de modelo manualmente o utilice el siguiente comando:
```
huggingface-cli download Skywork/Skywork-R1V-38B --local-dir ./model
```
- Coloque los archivos de modelo descargados en el directorio del proyecto, en la carpeta model Carpeta.
Configuración del entorno de ejecución
- Si hay más de una GPU, configure los dispositivos visibles. Por ejemplo, utilice dos GPU:
```
export CUDA_VISIBLE_DEVICES="0,1"
```

Cómo utilizar las principales funciones

La función principal de Skywork-R1V es el razonamiento a través de imágenes y texto. A continuación se describe el procedimiento de funcionamiento.

Función 1: Razonamiento visual en cadena

Prepárese para entrarPermite guardar imágenes para analizarlas localmente (por ejemplo, temas de matemáticas o diagramas científicos). image1.jpg.
Preparación de las preguntasEspecifique la pregunta en el código. Por ejemplo, desea preguntar "¿Cuál es la respuesta a la pregunta matemática de la imagen?". .
razonamiento en funcionamiento:: Editorial <inference_with_transformers.py> rellene la ruta de la imagen y la pregunta:
```
image_paths = ["image1.jpg"]
question = "图片中的数学题答案是什么？"
```

ejecutar un comando: Se ejecuta en el terminal:

python inference_with_transformers.py --model_path ./model --image_paths image1.jpg --question "图片中的数学题答案是什么？"

Ver resultadosEl programa muestra el proceso de razonamiento paso a paso y la respuesta final.

Función 2: Resolución de problemas matemáticos

imagen de entradaCarga imágenes que contengan fórmulas matemáticas, como títulos manuscritos o impresos.
código en ejecución: De forma similar a la cadena de pensamiento visual, establece el problema como "Resuelve un problema matemático en una imagen" y ejecútalo:
```
python inference_with_transformers.py --model_path ./model --image_paths math_image.jpg --question "求解图片中的数学问题"
```
ResultadosEl modelo reconoce la fórmula, la calcula paso a paso y finalmente da la respuesta.

Función 3: Interpretación científica de imágenes

Subir una foto: Prepara imágenes médicas o diagramas científicos, como radiografías o imágenes de microscopio celular.
hacer preguntas: Introduce preguntas concretas, como "¿Cuál es la estructura celular de la imagen?". .

programa de carrera::

python inference_with_transformers.py --model_path ./model --image_paths science_image.jpg --question "图片中的细胞结构是什么？"

análisis de la producciónEl modelo extrae las características de la imagen y ofrece una explicación detallada junto con el problema.

Precauciones de manipulación

Formato de imagenSe admiten formatos comunes como JPG y PNG, y se recomienda una alta claridad de imagen.
requisitos de hardwareFunciona en ordenadores sin GPU, pero es lento. Se recomiendan al menos 16 GB de RAM.
Problemas de depuraciónSi se produce un error, compruebe <requirements.txt> para una instalación completa, o consulte la página de problemas en GitHub para obtener ayuda.

Con los pasos anteriores, puede utilizar fácilmente Skywork-R1V para procesar tareas de imagen y texto. Para un uso más avanzado, puede consultar la documentación oficial <Skywork_R1V.pdf>.

escenario de aplicación

Ayudas educativas
Los estudiantes pueden utilizar Skywork-R1V para analizar las preguntas con imágenes de sus deberes de matemáticas y obtener respuestas rápidas y pasos para resolver las preguntas, lo que ayuda a comprender los puntos.
investigación científica
Los investigadores pueden cargar imágenes de sus experimentos para que el modelo interprete los datos o el contenido de las imágenes, ahorrando tiempo de análisis.
Asistencia médica
Los médicos pueden introducir imágenes de rayos X o microscopios para un primer diagnóstico, lo que mejora la eficacia del trabajo.

CONTROL DE CALIDAD

¿Qué idiomas admite Skywork-R1V?
Actualmente, admite principalmente chino e inglés, y tanto la entrada como la salida de texto pueden ser en estos dos idiomas.
¿Tengo que pagar?
No. Skywork-R1V es completamente de código abierto y el código y los modelos están disponibles de forma gratuita.
¿Funciona sin GPU?
Es posible, pero la inferencia será mucho más lenta. Se recomienda reducir la resolución de la imagen cuando se utiliza la CPU.