Skywork-R1V: графическая гибридная мультимодальная модель рассуждений с открытым исходным кодом Куньлунь Ваньвэнь
Общее введение
Skywork-R1V - мультимодальная модель рассуждений с открытым исходным кодом, разработанная командой SkyworkAI (Kunlun Wanwei) и опубликованная на GitHub. Она способна обрабатывать изображения и текст, выполнять многоэтапные логические рассуждения и особенно хорошо справляется с анализом сложных проблем, связанных с изображениями. Модель была официально запущена 18 марта 2025 года с размером параметров 3,8 миллиарда. Она поддерживает функцию "Цепочка мыслей" (Chain-of-Thought), которая может пошагово разложить содержимое изображения, чтобы помочь пользователям решить проблемы в математике, науке и т. д. Skywork-R1V стремится продвинуть технологии ИИ вперед и сделать мощные инструменты рассуждений свободно доступными для большего числа людей. Он не только мощный, но и предоставляет подробную документацию и код для использования и улучшения разработчиками.

Список функций
- Визуальное мышление Цепочка рассуждений: Способность анализировать содержание изображений шаг за шагом, разбивая сложные вопросы и давая четкие ответы.
- Решение задач по математике: Распознавать математические вопросы на изображениях и давать точные ответы.
- Интерпретация научных изображений: Анализ медицинских или научных изображений для извлечения ключевой информации.
- межмодальное понимание: Сочетание текста и изображений для получения более полных результатов рассуждений.
- Поддержка открытых источников: Предоставляется полный код и модели, что позволяет пользователям свободно модифицировать и развертывать их.
Использование помощи
Skywork-R1V - это проект с открытым исходным кодом, пользователям необходимо загрузить его с GitHub и локально настроить среду для его использования. Ниже приведено подробное руководство, которое поможет вам быстро начать работу.
Процесс установки
- Подготовка среды
- Убедитесь, что на вашем компьютере установлен Python 3.8 или выше. Это можно сделать с помощью команды
python --version
Проверьте. - Для загрузки кода необходимо установить Git; пользователи Windows могут загрузить его с официального сайта, а пользователи Linux или Mac - из терминала, набрав
sudo apt install git
возможноbrew install git
Установка. - Для повышения производительности рекомендуется использовать среду GPU (например, видеокарту NVIDIA), а также установить CUDA и cuDNN.
- Убедитесь, что на вашем компьютере установлен Python 3.8 или выше. Это можно сделать с помощью команды
- Код загрузки
- Откройте терминал или командную строку и введите следующую команду, чтобы клонировать репозиторий:
git clone https://github.com/SkyworkAI/Skywork-R1V.git
- Перейдите в папку с проектом:
cd Skywork-R1V
- Откройте терминал или командную строку и введите следующую команду, чтобы клонировать репозиторий:
- Установка зависимостей
- Проект предоставляет файл зависимостей
<requirements.txt>
. Выполните следующую команду для установки необходимых библиотек:pip install -r requirements.txt
- Если вам нужно ускорить процесс рассуждений, установите Flash Attention:
pip install flash-attn --no-build-isolation
- Проект предоставляет файл зависимостей
- Скачать модели
- Файлы модели Skywork-R1V размещены на Hugging Face. Доступ
https://huggingface.co/Skywork/Skywork-R1V-38B
Загрузите файл модели вручную или воспользуйтесь следующей командой:huggingface-cli download Skywork/Skywork-R1V-38B --local-dir ./model
- Поместите загруженные файлы моделей в каталог проекта под именем
model
Папка.
- Файлы модели Skywork-R1V размещены на Hugging Face. Доступ
- Настройка среды выполнения
- Если имеется более одного GPU, задайте видимые устройства. Например, используйте два графических процессора:
export CUDA_VISIBLE_DEVICES="0,1"
- Если имеется более одного GPU, задайте видимые устройства. Например, используйте два графических процессора:
Как использовать основные функции
Основной функцией Skywork-R1V является работа с изображениями и текстом. Ниже приводится порядок действий.
Функция 1: Визуальное рассуждение по цепочке мыслей
- Приготовьтесь к поступлению: Сохраняйте изображения для локального анализа (например, темы по математике или научные диаграммы), например.
image1.jpg
. - Подготовка вопросов: Укажите вопрос в коде. Например, вы хотите спросить "Какой ответ на математический вопрос на картинке?". .
- рассуждения о беге:: Редакция
<inference_with_transformers.py>
файл, заполните путь к изображению и вопрос:image_paths = ["image1.jpg"] question = "图片中的数学题答案是什么?"
- выполнить команду: Запускается в терминале:
python inference_with_transformers.py --model_path ./model --image_paths image1.jpg --question "图片中的数学题答案是什么?"
- Посмотреть результаты: Программа выводит пошаговый процесс рассуждений и окончательный ответ.
Функция 2: Решение математических задач
- входное изображение: Загружайте изображения, содержащие математические формулы, например, рукописные или печатные названия.
- работающий код: По аналогии с визуальной цепочкой размышлений задайте задачу "Решить математическую задачу на картинке" и запустите ее:
python inference_with_transformers.py --model_path ./model --image_paths math_image.jpg --question "求解图片中的数学问题"
- Витрина результатов: Модель распознает формулу, вычисляет ее шаг за шагом и в конце концов выдает ответ.
Функция 3: Интерпретация научных изображений
- Загрузить фотографию: Подготовка медицинских изображений или научных диаграмм, таких как рентгеновские снимки или изображения с клеточного микроскопа.
- задавать вопросы: Задайте конкретные вопросы, например, "Какова структура клетки на картинке?". .
- программа бега::
python inference_with_transformers.py --model_path ./model --image_paths science_image.jpg --question "图片中的细胞结构是什么?"
- анализ выходных данных: Модель извлекает особенности изображения и дает подробное объяснение в связи с проблемой.
Меры предосторожности при обращении
- Формат изображения: Поддерживаются такие распространенные форматы, как JPG, PNG, рекомендуется высокая четкость изображения.
- требования к оборудованию: Работает на компьютерах без GPU, но медленно. Рекомендуется не менее 16 ГБ оперативной памяти.
- Проблемы отладки: Если вы столкнулись с ошибкой, проверьте
<requirements.txt>
для полной установки, или обратитесь за помощью к странице Issues на GitHub.
Выполнив описанные выше действия, вы сможете легко использовать Skywork-R1V для обработки изображений и текстовых задач. Для более продвинутого использования вы можете обратиться к официальной документации <Skywork_R1V.pdf>
.
сценарий применения
- Учебные пособия
Школьники могут использовать Skywork-R1V для анализа вопросов с картинками в домашнем задании по математике, чтобы получить быстрые ответы и шаги по решению вопросов, помогающие понять суть. - научные исследования
Исследователи могут загружать изображения своих экспериментов, чтобы модель могла интерпретировать данные или содержание изображения, экономя время анализа. - Медицинская поддержка
Врачи могут вводить рентгеновские или микроскопические изображения для первичной диагностики, что повышает эффективность работы.
QA
- Какие языки поддерживает Skywork-R1V?
В настоящее время поддерживаются в основном китайский и английский языки, ввод и вывод текста может осуществляться на обоих языках. - Нужно ли мне платить?
Нет. Skywork-R1V имеет полностью открытый исходный код, а код и модели доступны бесплатно. - Работает ли он без графического процессора?
Это возможно, но вывод будет происходить гораздо медленнее. При использовании процессора рекомендуется уменьшить разрешение изображения.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...