Skywork-R1V: un modelo gráfico híbrido de razonamiento multimodal de código abierto por Kunlun Wanwen
Últimos recursos sobre IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial 9K 00
Introducción general
Skywork-R1V es un modelo de razonamiento multimodal de código abierto desarrollado por el equipo SkyworkAI (Kunlun Wanwei) y publicado en GitHub.Es capaz de procesar tanto imágenes como texto, realizar razonamientos lógicos de varios pasos y es especialmente bueno analizando problemas complejos de imágenes. El modelo se lanzó oficialmente el 18 de marzo de 2025 con un tamaño de parámetros de 3.800 millones. Es compatible con Chain-of-Thought (Cadena de Pensamiento), que puede descomponer paso a paso el contenido de una imagen para ayudar a los usuarios a resolver problemas de matemáticas, ciencias, etc. Skywork-R1V pretende impulsar la tecnología de IA y poner a disposición de más personas potentes herramientas de razonamiento de forma gratuita. No sólo es potente, sino que además ofrece documentación y código detallados para que los desarrolladores puedan utilizarlo y mejorarlo.

Lista de funciones
- Pensamiento visual Razonamiento en cadenaCapacidad para analizar paso a paso el contenido de las imágenes, desmenuzar cuestiones complejas y ofrecer respuestas claras.
- Resolución de problemas matemáticos: Reconocer cuestiones matemáticas en imágenes y dar respuestas de gran precisión.
- Interpretación científica de imágenes: Analiza imágenes médicas o científicas para extraer información clave.
- comprensión intermodal: Combina texto e imágenes para ofrecer resultados de razonamiento más completos.
- Soporte de código abiertoSe proporcionan el código y los modelos completos, lo que permite a los usuarios modificarlos y desplegarlos libremente.
Utilizar la ayuda
Skywork-R1V es un proyecto de código abierto, los usuarios necesitan descargarlo a través de GitHub y configurar el entorno localmente para utilizarlo. A continuación encontrarás una guía detallada que te ayudará a empezar rápidamente.
Proceso de instalación
- Preparar el entorno
- Asegúrese de que tiene Python 3.8 o superior instalado en su ordenador. Esto se puede hacer con el comando
python --version
Compruébalo. - Es necesario tener instalado Git para descargar el código; los usuarios de Windows pueden descargarlo desde el sitio web oficial, y los usuarios de Linux o Mac pueden descargarlo desde el terminal escribiendo
sudo apt install git
tal vezbrew install git
Instalación. - Se recomienda un entorno de GPU (por ejemplo, una tarjeta gráfica NVIDIA) para mejorar el rendimiento, y es necesario instalar CUDA y cuDNN.
- Asegúrese de que tiene Python 3.8 o superior instalado en su ordenador. Esto se puede hacer con el comando
- Descargar código
- Abra un terminal o línea de comandos e introduzca el siguiente comando para clonar el repositorio:
git clone https://github.com/SkyworkAI/Skywork-R1V.git
- Vaya a la carpeta del proyecto:
cd Skywork-R1V
- Abra un terminal o línea de comandos e introduzca el siguiente comando para clonar el repositorio:
- Instalación de dependencias
- El proyecto proporciona un archivo de dependencias
<requirements.txt>
. Ejecute el siguiente comando para instalar las bibliotecas necesarias:pip install -r requirements.txt
- Si necesitas acelerar el razonamiento, instala Atención Flash:
pip install flash-attn --no-build-isolation
- El proyecto proporciona un archivo de dependencias
- Descargar modelos
- Los archivos del modelo Skywork-R1V están alojados en Hugging Face. Acceda a
https://huggingface.co/Skywork/Skywork-R1V-38B
Descargue el archivo de modelo manualmente o utilice el siguiente comando:huggingface-cli download Skywork/Skywork-R1V-38B --local-dir ./model
- Coloque los archivos de modelo descargados en el directorio del proyecto, en la carpeta
model
Carpeta.
- Los archivos del modelo Skywork-R1V están alojados en Hugging Face. Acceda a
- Configuración del entorno de ejecución
- Si hay más de una GPU, configure los dispositivos visibles. Por ejemplo, utilice dos GPU:
export CUDA_VISIBLE_DEVICES="0,1"
- Si hay más de una GPU, configure los dispositivos visibles. Por ejemplo, utilice dos GPU:
Cómo utilizar las principales funciones
La función principal de Skywork-R1V es el razonamiento a través de imágenes y texto. A continuación se describe el procedimiento de funcionamiento.
Función 1: Razonamiento visual en cadena
- Prepárese para entrarPermite guardar imágenes para analizarlas localmente (por ejemplo, temas de matemáticas o diagramas científicos).
image1.jpg
. - Preparación de las preguntasEspecifique la pregunta en el código. Por ejemplo, desea preguntar "¿Cuál es la respuesta a la pregunta matemática de la imagen?". .
- razonamiento en funcionamiento:: Editorial
<inference_with_transformers.py>
rellene la ruta de la imagen y la pregunta:image_paths = ["image1.jpg"] question = "图片中的数学题答案是什么?"
- ejecutar un comando: Se ejecuta en el terminal:
python inference_with_transformers.py --model_path ./model --image_paths image1.jpg --question "图片中的数学题答案是什么?"
- Ver resultadosEl programa muestra el proceso de razonamiento paso a paso y la respuesta final.
Función 2: Resolución de problemas matemáticos
- imagen de entradaCarga imágenes que contengan fórmulas matemáticas, como títulos manuscritos o impresos.
- código en ejecución: De forma similar a la cadena de pensamiento visual, establece el problema como "Resuelve un problema matemático en una imagen" y ejecútalo:
python inference_with_transformers.py --model_path ./model --image_paths math_image.jpg --question "求解图片中的数学问题"
- ResultadosEl modelo reconoce la fórmula, la calcula paso a paso y finalmente da la respuesta.
Función 3: Interpretación científica de imágenes
- Subir una foto: Prepara imágenes médicas o diagramas científicos, como radiografías o imágenes de microscopio celular.
- hacer preguntas: Introduce preguntas concretas, como "¿Cuál es la estructura celular de la imagen?". .
- programa de carrera::
python inference_with_transformers.py --model_path ./model --image_paths science_image.jpg --question "图片中的细胞结构是什么?"
- análisis de la producciónEl modelo extrae las características de la imagen y ofrece una explicación detallada junto con el problema.
Precauciones de manipulación
- Formato de imagenSe admiten formatos comunes como JPG y PNG, y se recomienda una alta claridad de imagen.
- requisitos de hardwareFunciona en ordenadores sin GPU, pero es lento. Se recomiendan al menos 16 GB de RAM.
- Problemas de depuraciónSi se produce un error, compruebe
<requirements.txt>
para una instalación completa, o consulte la página de problemas en GitHub para obtener ayuda.
Con los pasos anteriores, puede utilizar fácilmente Skywork-R1V para procesar tareas de imagen y texto. Para un uso más avanzado, puede consultar la documentación oficial <Skywork_R1V.pdf>
.
escenario de aplicación
- Ayudas educativas
Los estudiantes pueden utilizar Skywork-R1V para analizar las preguntas con imágenes de sus deberes de matemáticas y obtener respuestas rápidas y pasos para resolver las preguntas, lo que ayuda a comprender los puntos. - investigación científica
Los investigadores pueden cargar imágenes de sus experimentos para que el modelo interprete los datos o el contenido de las imágenes, ahorrando tiempo de análisis. - Asistencia médica
Los médicos pueden introducir imágenes de rayos X o microscopios para un primer diagnóstico, lo que mejora la eficacia del trabajo.
CONTROL DE CALIDAD
- ¿Qué idiomas admite Skywork-R1V?
Actualmente, admite principalmente chino e inglés, y tanto la entrada como la salida de texto pueden ser en estos dos idiomas. - ¿Tengo que pagar?
No. Skywork-R1V es completamente de código abierto y el código y los modelos están disponibles de forma gratuita. - ¿Funciona sin GPU?
Es posible, pero la inferencia será mucho más lenta. Se recomienda reducir la resolución de la imagen cuando se utiliza la CPU.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...