Skywork-R1V: 쿤룬 완웬의 그래픽 하이브리드 멀티모달 추론 모델 오픈 소스

51.5K 00

일반 소개

Skywork-R1V는 SkyworkAI(쿤룬 완웨이) 팀이 개발하여 GitHub에 공개한 오픈 소스 멀티모달 추론 모델로, 이미지와 텍스트를 모두 처리하고 다단계 논리적 추론을 수행할 수 있으며 특히 복잡한 이미지 문제를 분석하는 데 능숙합니다. 이 모델은 2025년 3월 18일에 38억 개의 매개변수 크기로 공식 출시되었습니다. 이미지 콘텐츠를 단계별로 분해하여 사용자가 수학, 과학 등의 문제를 해결할 수 있도록 돕는 연역적 사고(Chain-of-Thought)를 지원합니다. Skywork-R1V는 AI 기술을 발전시키고 더 많은 사람들이 강력한 추론 도구를 자유롭게 사용할 수 있도록 하는 것을 목표로 합니다. 강력할 뿐만 아니라 개발자가 사용하고 개선할 수 있도록 자세한 문서와 코드도 제공합니다.

기능 목록

시각적 사고 연쇄 추론이미지의 내용을 단계별로 분석하여 복잡한 질문을 세분화하고 명확한 답변을 제공하는 기능입니다.
수학 문제 풀이이미지에서 수학 문제를 인식하고 고정밀 답변을 제공합니다.
과학적 이미지 해석의료 또는 과학 이미지를 분석하여 핵심 정보를 추출합니다.
모달 간 이해텍스트와 이미지를 결합하여 보다 포괄적인 추론 결과를 제공합니다.
오픈 소스 지원전체 코드와 모델이 제공되므로 사용자가 자유롭게 수정하고 배포할 수 있습니다.

도움말 사용

Skywork-R1V는 오픈 소스 프로젝트이므로 사용자는 GitHub를 통해 다운로드하고 로컬에서 환경을 구성해야 사용할 수 있습니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 가이드입니다.

설치 프로세스

환경 준비하기
- 컴퓨터에 Python 3.8 이상이 설치되어 있는지 확인합니다. 다음 명령을 사용하여 이 작업을 수행할 수 있습니다. python --version 확인.
- 코드를 다운로드하려면 Git이 설치되어 있어야 하며, Windows 사용자는 공식 웹사이트에서, Linux 또는 Mac 사용자는 터미널에서 다음을 입력하여 다운로드할 수 있습니다. sudo apt install git 어쩌면 brew install git 설치.
- 성능 향상을 위해 GPU 환경(예: NVIDIA 그래픽 카드)이 권장되며, CUDA 및 cuDNN이 설치되어 있어야 합니다.
코드 다운로드
- 터미널 또는 명령줄을 열고 다음 명령을 입력하여 리포지토리를 복제합니다:
```
git clone https://github.com/SkyworkAI/Skywork-R1V.git
```
- 프로젝트 폴더로 이동합니다:
```
cd Skywork-R1V
```
종속성 설치
- 프로젝트는 종속성 파일을 제공합니다. <requirements.txt>. 다음 명령을 실행하여 필요한 라이브러리를 설치합니다:
```
pip install -r requirements.txt
```
- 추론 속도를 높여야 한다면 플래시 어텐션을 설치하세요:
```
pip install flash-attn --no-build-isolation
```
모델 다운로드
- Skywork-R1V의 모델 파일은 허깅 페이스에서 호스팅됩니다. 액세스 https://huggingface.co/Skywork/Skywork-R1V-38B를 클릭하고 모델 파일을 수동으로 다운로드하거나 다음 명령을 사용하세요:
```
huggingface-cli download Skywork/Skywork-R1V-38B --local-dir ./model
```
- 다운로드한 모델 파일을 프로젝트 디렉토리 아래의 model 폴더.
런타임 환경 구성
- GPU가 두 개 이상인 경우 표시되는 장치를 설정합니다. 예를 들어 두 개의 GPU를 사용합니다:
```
export CUDA_VISIBLE_DEVICES="0,1"
```

주요 기능 사용 방법

Skywork-R1V의 핵심 기능은 이미지와 텍스트를 통한 추론입니다. 작동 절차는 다음과 같습니다.

기능 1: 시각적 사고 연쇄 추론

입장 준비분석할 이미지(예: 수학 주제 또는 과학 도표)를 로컬에 저장합니다. image1.jpg.
질문 준비: 코드에 질문을 지정합니다. 예를 들어 "그림의 수학 문제에 대한 답은 무엇인가요?"라고 질문하고 싶다고 가정합니다. .
추론 실행사설:: 사설 <inference_with_transformers.py> 파일을 열고 이미지 경로와 질문을 입력합니다:
```
image_paths = ["image1.jpg"]
question = "图片中的数学题答案是什么？"
```

명령을 실행합니다.: 터미널에서 실행됩니다:

python inference_with_transformers.py --model_path ./model --image_paths image1.jpg --question "图片中的数学题答案是什么？"

결과 보기단계별 추론 과정과 최종 정답을 출력하는 프로그램입니다.

기능 2: 수학 문제 해결

입력 이미지손으로 쓰거나 인쇄된 제목과 같은 수학 공식이 포함된 이미지를 업로드합니다.
실행 중인 코드시각적 사고 연쇄와 마찬가지로 문제를 "그림으로 수학 문제 풀기"로 설정하고 실행합니다:
```
python inference_with_transformers.py --model_path ./model --image_paths math_image.jpg --question "求解图片中的数学问题"
```
결과 쇼케이스모델이 공식을 인식하고 단계별로 계산하여 최종적으로 답을 제공합니다.

기능 3: 과학적 이미지 해석

사진 업로드엑스레이나 세포 현미경 이미지와 같은 의료 이미지나 과학 도표를 준비합니다.
질문하기"사진 속 세포 구조는 무엇인가요?"와 같은 구체적인 질문을 입력합니다. .

실행 중인 프로그램::

python inference_with_transformers.py --model_path ./model --image_paths science_image.jpg --question "图片中的细胞结构是什么？"

출력 분석모델은 이미지 특징을 추출하고 문제와 함께 자세한 설명을 제공합니다.

취급 시 주의사항

사진 형식JPG, PNG와 같은 일반적인 형식이 지원되며 이미지 선명도가 높은 것이 좋습니다.
하드웨어 요구 사항GPU가 없는 컴퓨터에서 실행되지만 속도가 느립니다. 최소 16GB의 RAM이 권장됩니다.
문제 디버깅오류가 발생하면 다음과 같이 확인하세요. <requirements.txt> 를 참조하거나 GitHub의 이슈 페이지에서 도움말을 확인하세요.

위의 단계를 통해 Skywork-R1V를 사용하여 이미지 및 텍스트 작업을 쉽게 처리할 수 있습니다. 더 고급 사용법은 공식 문서를 참조하세요. <Skywork_R1V.pdf>.

애플리케이션 시나리오

교육 보조 자료
학생들은 Skywork-R1V를 사용하여 수학 숙제에서 그림 문제를 분석하여 빠른 답과 문제 풀이 단계를 확인하고 요점을 이해하는 데 도움을 받을 수 있습니다.
과학 연구
연구자는 실험 이미지를 업로드하여 모델이 데이터 또는 이미지 콘텐츠를 해석할 수 있도록 하여 분석 시간을 절약할 수 있습니다.
의료 지원
의사는 초기 진단 조언을 위해 엑스레이 또는 현미경 이미지를 입력할 수 있어 업무 효율성이 향상됩니다.