Skywork-R1V: графическая гибридная мультимодальная модель рассуждений с открытым исходным кодом Куньлунь Ваньвэнь

Общее введение

Skywork-R1V - мультимодальная модель рассуждений с открытым исходным кодом, разработанная командой SkyworkAI (Kunlun Wanwei) и опубликованная на GitHub. Она способна обрабатывать изображения и текст, выполнять многоэтапные логические рассуждения и особенно хорошо справляется с анализом сложных проблем, связанных с изображениями. Модель была официально запущена 18 марта 2025 года с размером параметров 3,8 миллиарда. Она поддерживает функцию "Цепочка мыслей" (Chain-of-Thought), которая может пошагово разложить содержимое изображения, чтобы помочь пользователям решить проблемы в математике, науке и т. д. Skywork-R1V стремится продвинуть технологии ИИ вперед и сделать мощные инструменты рассуждений свободно доступными для большего числа людей. Он не только мощный, но и предоставляет подробную документацию и код для использования и улучшения разработчиками.

Skywork-R1V:昆仑万文开源的图文混合多模态推理模型

 

Список функций

  • Визуальное мышление Цепочка рассуждений: Способность анализировать содержание изображений шаг за шагом, разбивая сложные вопросы и давая четкие ответы.
  • Решение задач по математике: Распознавать математические вопросы на изображениях и давать точные ответы.
  • Интерпретация научных изображений: Анализ медицинских или научных изображений для извлечения ключевой информации.
  • межмодальное понимание: Сочетание текста и изображений для получения более полных результатов рассуждений.
  • Поддержка открытых источников: Предоставляется полный код и модели, что позволяет пользователям свободно модифицировать и развертывать их.

 

Использование помощи

Skywork-R1V - это проект с открытым исходным кодом, пользователям необходимо загрузить его с GitHub и локально настроить среду для его использования. Ниже приведено подробное руководство, которое поможет вам быстро начать работу.

Процесс установки

  1. Подготовка среды
    • Убедитесь, что на вашем компьютере установлен Python 3.8 или выше. Это можно сделать с помощью команды python --version Проверьте.
    • Для загрузки кода необходимо установить Git; пользователи Windows могут загрузить его с официального сайта, а пользователи Linux или Mac - из терминала, набрав sudo apt install git возможно brew install git Установка.
    • Для повышения производительности рекомендуется использовать среду GPU (например, видеокарту NVIDIA), а также установить CUDA и cuDNN.
  2. Код загрузки
    • Откройте терминал или командную строку и введите следующую команду, чтобы клонировать репозиторий:
      git clone https://github.com/SkyworkAI/Skywork-R1V.git
      
    • Перейдите в папку с проектом:
      cd Skywork-R1V
      
  3. Установка зависимостей
    • Проект предоставляет файл зависимостей <requirements.txt>. Выполните следующую команду для установки необходимых библиотек:
      pip install -r requirements.txt
      
    • Если вам нужно ускорить процесс рассуждений, установите Flash Attention:
      pip install flash-attn --no-build-isolation
      
  4. Скачать модели
    • Файлы модели Skywork-R1V размещены на Hugging Face. Доступ https://huggingface.co/Skywork/Skywork-R1V-38BЗагрузите файл модели вручную или воспользуйтесь следующей командой:
      huggingface-cli download Skywork/Skywork-R1V-38B --local-dir ./model
      
    • Поместите загруженные файлы моделей в каталог проекта под именем model Папка.
  5. Настройка среды выполнения
    • Если имеется более одного GPU, задайте видимые устройства. Например, используйте два графических процессора:
      export CUDA_VISIBLE_DEVICES="0,1"
      

Как использовать основные функции

Основной функцией Skywork-R1V является работа с изображениями и текстом. Ниже приводится порядок действий.

Функция 1: Визуальное рассуждение по цепочке мыслей

  • Приготовьтесь к поступлению: Сохраняйте изображения для локального анализа (например, темы по математике или научные диаграммы), например. image1.jpg.
  • Подготовка вопросов: Укажите вопрос в коде. Например, вы хотите спросить "Какой ответ на математический вопрос на картинке?". .
  • рассуждения о беге:: Редакция <inference_with_transformers.py> файл, заполните путь к изображению и вопрос:
    image_paths = ["image1.jpg"]
    question = "图片中的数学题答案是什么?"
  • выполнить команду: Запускается в терминале:
    python inference_with_transformers.py --model_path ./model --image_paths image1.jpg --question "图片中的数学题答案是什么?"
    
  • Посмотреть результаты: Программа выводит пошаговый процесс рассуждений и окончательный ответ.

Функция 2: Решение математических задач

  • входное изображение: Загружайте изображения, содержащие математические формулы, например, рукописные или печатные названия.
  • работающий код: По аналогии с визуальной цепочкой размышлений задайте задачу "Решить математическую задачу на картинке" и запустите ее:
    python inference_with_transformers.py --model_path ./model --image_paths math_image.jpg --question "求解图片中的数学问题"
    
  • Витрина результатов: Модель распознает формулу, вычисляет ее шаг за шагом и в конце концов выдает ответ.

Функция 3: Интерпретация научных изображений

  • Загрузить фотографию: Подготовка медицинских изображений или научных диаграмм, таких как рентгеновские снимки или изображения с клеточного микроскопа.
  • задавать вопросы: Задайте конкретные вопросы, например, "Какова структура клетки на картинке?". .
  • программа бега::
    python inference_with_transformers.py --model_path ./model --image_paths science_image.jpg --question "图片中的细胞结构是什么?"
    
  • анализ выходных данных: Модель извлекает особенности изображения и дает подробное объяснение в связи с проблемой.

Меры предосторожности при обращении

  • Формат изображения: Поддерживаются такие распространенные форматы, как JPG, PNG, рекомендуется высокая четкость изображения.
  • требования к оборудованию: Работает на компьютерах без GPU, но медленно. Рекомендуется не менее 16 ГБ оперативной памяти.
  • Проблемы отладки: Если вы столкнулись с ошибкой, проверьте <requirements.txt> для полной установки, или обратитесь за помощью к странице Issues на GitHub.

Выполнив описанные выше действия, вы сможете легко использовать Skywork-R1V для обработки изображений и текстовых задач. Для более продвинутого использования вы можете обратиться к официальной документации <Skywork_R1V.pdf>.

 

сценарий применения

  1. Учебные пособия
    Школьники могут использовать Skywork-R1V для анализа вопросов с картинками в домашнем задании по математике, чтобы получить быстрые ответы и шаги по решению вопросов, помогающие понять суть.
  2. научные исследования
    Исследователи могут загружать изображения своих экспериментов, чтобы модель могла интерпретировать данные или содержание изображения, экономя время анализа.
  3. Медицинская поддержка
    Врачи могут вводить рентгеновские или микроскопические изображения для первичной диагностики, что повышает эффективность работы.

 

QA

  1. Какие языки поддерживает Skywork-R1V?
    В настоящее время поддерживаются в основном китайский и английский языки, ввод и вывод текста может осуществляться на обоих языках.
  2. Нужно ли мне платить?
    Нет. Skywork-R1V имеет полностью открытый исходный код, а код и модели доступны бесплатно.
  3. Работает ли он без графического процессора?
    Это возможно, но вывод будет происходить гораздо медленнее. При использовании процессора рекомендуется уменьшить разрешение изображения.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...