일반 소개
Skywork-R1V는 SkyworkAI(쿤룬 완웨이) 팀이 개발하여 GitHub에 공개한 오픈 소스 멀티모달 추론 모델로, 이미지와 텍스트를 모두 처리하고 다단계 논리적 추론을 수행할 수 있으며 특히 복잡한 이미지 문제를 분석하는 데 능숙합니다. 이 모델은 2025년 3월 18일에 38억 개의 매개변수 크기로 공식 출시되었습니다. 이미지 콘텐츠를 단계별로 분해하여 사용자가 수학, 과학 등의 문제를 해결할 수 있도록 돕는 연역적 사고(Chain-of-Thought)를 지원합니다. Skywork-R1V는 AI 기술을 발전시키고 더 많은 사람들이 강력한 추론 도구를 자유롭게 사용할 수 있도록 하는 것을 목표로 합니다. 강력할 뿐만 아니라 개발자가 사용하고 개선할 수 있도록 자세한 문서와 코드도 제공합니다.

기능 목록
- 시각적 사고 연쇄 추론이미지의 내용을 단계별로 분석하여 복잡한 질문을 세분화하고 명확한 답변을 제공하는 기능입니다.
- 수학 문제 풀이이미지에서 수학 문제를 인식하고 고정밀 답변을 제공합니다.
- 과학적 이미지 해석의료 또는 과학 이미지를 분석하여 핵심 정보를 추출합니다.
- 모달 간 이해텍스트와 이미지를 결합하여 보다 포괄적인 추론 결과를 제공합니다.
- 오픈 소스 지원전체 코드와 모델이 제공되므로 사용자가 자유롭게 수정하고 배포할 수 있습니다.
도움말 사용
Skywork-R1V는 오픈 소스 프로젝트이므로 사용자는 GitHub를 통해 다운로드하고 로컬에서 환경을 구성해야 사용할 수 있습니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 가이드입니다.
설치 프로세스
- 환경 준비하기
- 컴퓨터에 Python 3.8 이상이 설치되어 있는지 확인합니다. 다음 명령을 사용하여 이 작업을 수행할 수 있습니다.
python --version
확인. - 코드를 다운로드하려면 Git이 설치되어 있어야 하며, Windows 사용자는 공식 웹사이트에서, Linux 또는 Mac 사용자는 터미널에서 다음을 입력하여 다운로드할 수 있습니다.
sudo apt install git
어쩌면brew install git
설치. - 성능 향상을 위해 GPU 환경(예: NVIDIA 그래픽 카드)이 권장되며, CUDA 및 cuDNN이 설치되어 있어야 합니다.
- 컴퓨터에 Python 3.8 이상이 설치되어 있는지 확인합니다. 다음 명령을 사용하여 이 작업을 수행할 수 있습니다.
- 코드 다운로드
- 터미널 또는 명령줄을 열고 다음 명령을 입력하여 리포지토리를 복제합니다:
git clone https://github.com/SkyworkAI/Skywork-R1V.git
- 프로젝트 폴더로 이동합니다:
cd Skywork-R1V
- 터미널 또는 명령줄을 열고 다음 명령을 입력하여 리포지토리를 복제합니다:
- 종속성 설치
- 프로젝트는 종속성 파일을 제공합니다.
<requirements.txt>
. 다음 명령을 실행하여 필요한 라이브러리를 설치합니다:pip install -r requirements.txt
- 추론 속도를 높여야 한다면 플래시 어텐션을 설치하세요:
pip install flash-attn --no-build-isolation
- 프로젝트는 종속성 파일을 제공합니다.
- 모델 다운로드
- Skywork-R1V의 모델 파일은 허깅 페이스에서 호스팅됩니다. 액세스
https://huggingface.co/Skywork/Skywork-R1V-38B
를 클릭하고 모델 파일을 수동으로 다운로드하거나 다음 명령을 사용하세요:huggingface-cli download Skywork/Skywork-R1V-38B --local-dir ./model
- 다운로드한 모델 파일을 프로젝트 디렉토리 아래의
model
폴더.
- Skywork-R1V의 모델 파일은 허깅 페이스에서 호스팅됩니다. 액세스
- 런타임 환경 구성
- GPU가 두 개 이상인 경우 표시되는 장치를 설정합니다. 예를 들어 두 개의 GPU를 사용합니다:
export CUDA_VISIBLE_DEVICES="0,1"
- GPU가 두 개 이상인 경우 표시되는 장치를 설정합니다. 예를 들어 두 개의 GPU를 사용합니다:
주요 기능 사용 방법
Skywork-R1V의 핵심 기능은 이미지와 텍스트를 통한 추론입니다. 작동 절차는 다음과 같습니다.
기능 1: 시각적 사고 연쇄 추론
- 입장 준비분석할 이미지(예: 수학 주제 또는 과학 도표)를 로컬에 저장합니다.
image1.jpg
. - 질문 준비: 코드에 질문을 지정합니다. 예를 들어 "그림의 수학 문제에 대한 답은 무엇인가요?"라고 질문하고 싶다고 가정합니다. .
- 추론 실행사설:: 사설
<inference_with_transformers.py>
파일을 열고 이미지 경로와 질문을 입력합니다:image_paths = ["image1.jpg"] question = "图片中的数学题答案是什么?"
- 명령을 실행합니다.: 터미널에서 실행됩니다:
python inference_with_transformers.py --model_path ./model --image_paths image1.jpg --question "图片中的数学题答案是什么?"
- 결과 보기단계별 추론 과정과 최종 정답을 출력하는 프로그램입니다.
기능 2: 수학 문제 해결
- 입력 이미지손으로 쓰거나 인쇄된 제목과 같은 수학 공식이 포함된 이미지를 업로드합니다.
- 실행 중인 코드시각적 사고 연쇄와 마찬가지로 문제를 "그림으로 수학 문제 풀기"로 설정하고 실행합니다:
python inference_with_transformers.py --model_path ./model --image_paths math_image.jpg --question "求解图片中的数学问题"
- 결과 쇼케이스모델이 공식을 인식하고 단계별로 계산하여 최종적으로 답을 제공합니다.
기능 3: 과학적 이미지 해석
- 사진 업로드엑스레이나 세포 현미경 이미지와 같은 의료 이미지나 과학 도표를 준비합니다.
- 질문하기"사진 속 세포 구조는 무엇인가요?"와 같은 구체적인 질문을 입력합니다. .
- 실행 중인 프로그램::
python inference_with_transformers.py --model_path ./model --image_paths science_image.jpg --question "图片中的细胞结构是什么?"
- 출력 분석모델은 이미지 특징을 추출하고 문제와 함께 자세한 설명을 제공합니다.
취급 시 주의사항
- 사진 형식JPG, PNG와 같은 일반적인 형식이 지원되며 이미지 선명도가 높은 것이 좋습니다.
- 하드웨어 요구 사항GPU가 없는 컴퓨터에서 실행되지만 속도가 느립니다. 최소 16GB의 RAM이 권장됩니다.
- 문제 디버깅오류가 발생하면 다음과 같이 확인하세요.
<requirements.txt>
를 참조하거나 GitHub의 이슈 페이지에서 도움말을 확인하세요.
위의 단계를 통해 Skywork-R1V를 사용하여 이미지 및 텍스트 작업을 쉽게 처리할 수 있습니다. 더 고급 사용법은 공식 문서를 참조하세요. <Skywork_R1V.pdf>
.
애플리케이션 시나리오
- 교육 보조 자료
학생들은 Skywork-R1V를 사용하여 수학 숙제에서 그림 문제를 분석하여 빠른 답과 문제 풀이 단계를 확인하고 요점을 이해하는 데 도움을 받을 수 있습니다. - 과학 연구
연구자는 실험 이미지를 업로드하여 모델이 데이터 또는 이미지 콘텐츠를 해석할 수 있도록 하여 분석 시간을 절약할 수 있습니다. - 의료 지원
의사는 초기 진단 조언을 위해 엑스레이 또는 현미경 이미지를 입력할 수 있어 업무 효율성이 향상됩니다.
QA
- Skywork-R1V는 어떤 언어를 지원하나요?
현재 중국어와 영어를 주로 지원하며, 텍스트 입력과 출력은 두 언어 모두 가능합니다. - 결제해야 하나요?
아니요. Skywork-R1V는 완전한 오픈 소스이며 코드와 모델을 무료로 사용할 수 있습니다. - GPU 없이도 작동하나요?
가능하지만 추론 속도가 훨씬 느려집니다. CPU를 사용할 때는 이미지 해상도를 낮추는 것이 좋습니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...