Skywork-R1V: un modelo gráfico híbrido de razonamiento multimodal de código abierto por Kunlun Wanwen
 Últimos recursos sobre IAPublicado hace 8 meses Círculo de intercambio de inteligencia artificial 22.9K 00
Introducción general
Skywork-R1V es un modelo de razonamiento multimodal de código abierto desarrollado por el equipo SkyworkAI (Kunlun Wanwei) y publicado en GitHub.Es capaz de procesar tanto imágenes como texto, realizar razonamientos lógicos de varios pasos y es especialmente bueno analizando problemas complejos de imágenes. El modelo se lanzó oficialmente el 18 de marzo de 2025 con un tamaño de parámetros de 3.800 millones. Es compatible con Chain-of-Thought (Cadena de Pensamiento), que puede descomponer paso a paso el contenido de una imagen para ayudar a los usuarios a resolver problemas de matemáticas, ciencias, etc. Skywork-R1V pretende impulsar la tecnología de IA y poner a disposición de más personas potentes herramientas de razonamiento de forma gratuita. No sólo es potente, sino que además ofrece documentación y código detallados para que los desarrolladores puedan utilizarlo y mejorarlo.

Lista de funciones
- Pensamiento visual Razonamiento en cadenaCapacidad para analizar paso a paso el contenido de las imágenes, desmenuzar cuestiones complejas y ofrecer respuestas claras.
- Resolución de problemas matemáticos: Reconocer cuestiones matemáticas en imágenes y dar respuestas de gran precisión.
- Interpretación científica de imágenes: Analiza imágenes médicas o científicas para extraer información clave.
- comprensión intermodal: Combina texto e imágenes para ofrecer resultados de razonamiento más completos.
- Soporte de código abiertoSe proporcionan el código y los modelos completos, lo que permite a los usuarios modificarlos y desplegarlos libremente.
Utilizar la ayuda
Skywork-R1V es un proyecto de código abierto, los usuarios necesitan descargarlo a través de GitHub y configurar el entorno localmente para utilizarlo. A continuación encontrarás una guía detallada que te ayudará a empezar rápidamente.
Proceso de instalación
- Preparar el entorno- Asegúrese de que tiene Python 3.8 o superior instalado en su ordenador. Esto se puede hacer con el comando python --versionCompruébalo.
- Es necesario tener instalado Git para descargar el código; los usuarios de Windows pueden descargarlo desde el sitio web oficial, y los usuarios de Linux o Mac pueden descargarlo desde el terminal escribiendo sudo apt install gittal vezbrew install gitInstalación.
- Se recomienda un entorno de GPU (por ejemplo, una tarjeta gráfica NVIDIA) para mejorar el rendimiento, y es necesario instalar CUDA y cuDNN.
 
- Asegúrese de que tiene Python 3.8 o superior instalado en su ordenador. Esto se puede hacer con el comando 
- Descargar código- Abra un terminal o línea de comandos e introduzca el siguiente comando para clonar el repositorio:
git clone https://github.com/SkyworkAI/Skywork-R1V.git
- Vaya a la carpeta del proyecto:
cd Skywork-R1V
 
- Abra un terminal o línea de comandos e introduzca el siguiente comando para clonar el repositorio:
- Instalación de dependencias- El proyecto proporciona un archivo de dependencias <requirements.txt>. Ejecute el siguiente comando para instalar las bibliotecas necesarias:pip install -r requirements.txt
- Si necesitas acelerar el razonamiento, instala Atención Flash:
pip install flash-attn --no-build-isolation
 
- El proyecto proporciona un archivo de dependencias 
- Descargar modelos- Los archivos del modelo Skywork-R1V están alojados en Hugging Face. Acceda a https://huggingface.co/Skywork/Skywork-R1V-38BDescargue el archivo de modelo manualmente o utilice el siguiente comando:huggingface-cli download Skywork/Skywork-R1V-38B --local-dir ./model
- Coloque los archivos de modelo descargados en el directorio del proyecto, en la carpeta modelCarpeta.
 
- Los archivos del modelo Skywork-R1V están alojados en Hugging Face. Acceda a 
- Configuración del entorno de ejecución- Si hay más de una GPU, configure los dispositivos visibles. Por ejemplo, utilice dos GPU:
export CUDA_VISIBLE_DEVICES="0,1"
 
- Si hay más de una GPU, configure los dispositivos visibles. Por ejemplo, utilice dos GPU:
Cómo utilizar las principales funciones
La función principal de Skywork-R1V es el razonamiento a través de imágenes y texto. A continuación se describe el procedimiento de funcionamiento.
Función 1: Razonamiento visual en cadena
- Prepárese para entrarPermite guardar imágenes para analizarlas localmente (por ejemplo, temas de matemáticas o diagramas científicos). image1.jpg.
- Preparación de las preguntasEspecifique la pregunta en el código. Por ejemplo, desea preguntar "¿Cuál es la respuesta a la pregunta matemática de la imagen?". .
- razonamiento en funcionamiento:: Editorial <inference_with_transformers.py>rellene la ruta de la imagen y la pregunta:image_paths = ["image1.jpg"] question = "图片中的数学题答案是什么?"
- ejecutar un comando: Se ejecuta en el terminal:
python inference_with_transformers.py --model_path ./model --image_paths image1.jpg --question "图片中的数学题答案是什么?"
- Ver resultadosEl programa muestra el proceso de razonamiento paso a paso y la respuesta final.
Función 2: Resolución de problemas matemáticos
- imagen de entradaCarga imágenes que contengan fórmulas matemáticas, como títulos manuscritos o impresos.
- código en ejecución: De forma similar a la cadena de pensamiento visual, establece el problema como "Resuelve un problema matemático en una imagen" y ejecútalo:
python inference_with_transformers.py --model_path ./model --image_paths math_image.jpg --question "求解图片中的数学问题"
- ResultadosEl modelo reconoce la fórmula, la calcula paso a paso y finalmente da la respuesta.
Función 3: Interpretación científica de imágenes
- Subir una foto: Prepara imágenes médicas o diagramas científicos, como radiografías o imágenes de microscopio celular.
- hacer preguntas: Introduce preguntas concretas, como "¿Cuál es la estructura celular de la imagen?". .
- programa de carrera::
python inference_with_transformers.py --model_path ./model --image_paths science_image.jpg --question "图片中的细胞结构是什么?"
- análisis de la producciónEl modelo extrae las características de la imagen y ofrece una explicación detallada junto con el problema.
Precauciones de manipulación
- Formato de imagenSe admiten formatos comunes como JPG y PNG, y se recomienda una alta claridad de imagen.
- requisitos de hardwareFunciona en ordenadores sin GPU, pero es lento. Se recomiendan al menos 16 GB de RAM.
- Problemas de depuraciónSi se produce un error, compruebe <requirements.txt>para una instalación completa, o consulte la página de problemas en GitHub para obtener ayuda.
Con los pasos anteriores, puede utilizar fácilmente Skywork-R1V para procesar tareas de imagen y texto. Para un uso más avanzado, puede consultar la documentación oficial <Skywork_R1V.pdf>.
escenario de aplicación
- Ayudas educativas
 Los estudiantes pueden utilizar Skywork-R1V para analizar las preguntas con imágenes de sus deberes de matemáticas y obtener respuestas rápidas y pasos para resolver las preguntas, lo que ayuda a comprender los puntos.
- investigación científica
 Los investigadores pueden cargar imágenes de sus experimentos para que el modelo interprete los datos o el contenido de las imágenes, ahorrando tiempo de análisis.
- Asistencia médica
 Los médicos pueden introducir imágenes de rayos X o microscopios para un primer diagnóstico, lo que mejora la eficacia del trabajo.
CONTROL DE CALIDAD
- ¿Qué idiomas admite Skywork-R1V?
 Actualmente, admite principalmente chino e inglés, y tanto la entrada como la salida de texto pueden ser en estos dos idiomas.
- ¿Tengo que pagar?
 No. Skywork-R1V es completamente de código abierto y el código y los modelos están disponibles de forma gratuita.
- ¿Funciona sin GPU?
 Es posible, pero la inferencia será mucho más lenta. Se recomienda reducir la resolución de la imagen cuando se utiliza la CPU.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial  Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...





 Español
Español  简体中文
简体中文  English
English  日本語
日本語  한국어
한국어  Русский
Русский