Skywork-R1V: 쿤룬 완웬의 그래픽 하이브리드 멀티모달 추론 모델 오픈 소스

최신 AI 리소스5개월 전에 게시 됨 AI 공유 서클
1.4K 00

일반 소개

Skywork-R1V는 SkyworkAI(쿤룬 완웨이) 팀이 개발하여 GitHub에 공개한 오픈 소스 멀티모달 추론 모델로, 이미지와 텍스트를 모두 처리하고 다단계 논리적 추론을 수행할 수 있으며 특히 복잡한 이미지 문제를 분석하는 데 능숙합니다. 이 모델은 2025년 3월 18일에 38억 개의 매개변수 크기로 공식 출시되었습니다. 이미지 콘텐츠를 단계별로 분해하여 사용자가 수학, 과학 등의 문제를 해결할 수 있도록 돕는 연역적 사고(Chain-of-Thought)를 지원합니다. Skywork-R1V는 AI 기술을 발전시키고 더 많은 사람들이 강력한 추론 도구를 자유롭게 사용할 수 있도록 하는 것을 목표로 합니다. 강력할 뿐만 아니라 개발자가 사용하고 개선할 수 있도록 자세한 문서와 코드도 제공합니다.

Skywork-R1V:昆仑万文开源的图文混合多模态推理模型

 

기능 목록

  • 시각적 사고 연쇄 추론이미지의 내용을 단계별로 분석하여 복잡한 질문을 세분화하고 명확한 답변을 제공하는 기능입니다.
  • 수학 문제 풀이이미지에서 수학 문제를 인식하고 고정밀 답변을 제공합니다.
  • 과학적 이미지 해석의료 또는 과학 이미지를 분석하여 핵심 정보를 추출합니다.
  • 모달 간 이해텍스트와 이미지를 결합하여 보다 포괄적인 추론 결과를 제공합니다.
  • 오픈 소스 지원전체 코드와 모델이 제공되므로 사용자가 자유롭게 수정하고 배포할 수 있습니다.

 

도움말 사용

Skywork-R1V는 오픈 소스 프로젝트이므로 사용자는 GitHub를 통해 다운로드하고 로컬에서 환경을 구성해야 사용할 수 있습니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 가이드입니다.

설치 프로세스

  1. 환경 준비하기
    • 컴퓨터에 Python 3.8 이상이 설치되어 있는지 확인합니다. 다음 명령을 사용하여 이 작업을 수행할 수 있습니다. python --version 확인.
    • 코드를 다운로드하려면 Git이 설치되어 있어야 하며, Windows 사용자는 공식 웹사이트에서, Linux 또는 Mac 사용자는 터미널에서 다음을 입력하여 다운로드할 수 있습니다. sudo apt install git 어쩌면 brew install git 설치.
    • 성능 향상을 위해 GPU 환경(예: NVIDIA 그래픽 카드)이 권장되며, CUDA 및 cuDNN이 설치되어 있어야 합니다.
  2. 코드 다운로드
    • 터미널 또는 명령줄을 열고 다음 명령을 입력하여 리포지토리를 복제합니다:
      git clone https://github.com/SkyworkAI/Skywork-R1V.git
      
    • 프로젝트 폴더로 이동합니다:
      cd Skywork-R1V
      
  3. 종속성 설치
    • 프로젝트는 종속성 파일을 제공합니다. <requirements.txt>. 다음 명령을 실행하여 필요한 라이브러리를 설치합니다:
      pip install -r requirements.txt
      
    • 추론 속도를 높여야 한다면 플래시 어텐션을 설치하세요:
      pip install flash-attn --no-build-isolation
      
  4. 모델 다운로드
    • Skywork-R1V의 모델 파일은 허깅 페이스에서 호스팅됩니다. 액세스 https://huggingface.co/Skywork/Skywork-R1V-38B를 클릭하고 모델 파일을 수동으로 다운로드하거나 다음 명령을 사용하세요:
      huggingface-cli download Skywork/Skywork-R1V-38B --local-dir ./model
      
    • 다운로드한 모델 파일을 프로젝트 디렉토리 아래의 model 폴더.
  5. 런타임 환경 구성
    • GPU가 두 개 이상인 경우 표시되는 장치를 설정합니다. 예를 들어 두 개의 GPU를 사용합니다:
      export CUDA_VISIBLE_DEVICES="0,1"
      

주요 기능 사용 방법

Skywork-R1V의 핵심 기능은 이미지와 텍스트를 통한 추론입니다. 작동 절차는 다음과 같습니다.

기능 1: 시각적 사고 연쇄 추론

  • 입장 준비분석할 이미지(예: 수학 주제 또는 과학 도표)를 로컬에 저장합니다. image1.jpg.
  • 질문 준비: 코드에 질문을 지정합니다. 예를 들어 "그림의 수학 문제에 대한 답은 무엇인가요?"라고 질문하고 싶다고 가정합니다. .
  • 추론 실행사설:: 사설 <inference_with_transformers.py> 파일을 열고 이미지 경로와 질문을 입력합니다:
    image_paths = ["image1.jpg"]
    question = "图片中的数学题答案是什么?"
  • 명령을 실행합니다.: 터미널에서 실행됩니다:
    python inference_with_transformers.py --model_path ./model --image_paths image1.jpg --question "图片中的数学题答案是什么?"
    
  • 결과 보기단계별 추론 과정과 최종 정답을 출력하는 프로그램입니다.

기능 2: 수학 문제 해결

  • 입력 이미지손으로 쓰거나 인쇄된 제목과 같은 수학 공식이 포함된 이미지를 업로드합니다.
  • 실행 중인 코드시각적 사고 연쇄와 마찬가지로 문제를 "그림으로 수학 문제 풀기"로 설정하고 실행합니다:
    python inference_with_transformers.py --model_path ./model --image_paths math_image.jpg --question "求解图片中的数学问题"
    
  • 결과 쇼케이스모델이 공식을 인식하고 단계별로 계산하여 최종적으로 답을 제공합니다.

기능 3: 과학적 이미지 해석

  • 사진 업로드엑스레이나 세포 현미경 이미지와 같은 의료 이미지나 과학 도표를 준비합니다.
  • 질문하기"사진 속 세포 구조는 무엇인가요?"와 같은 구체적인 질문을 입력합니다. .
  • 실행 중인 프로그램::
    python inference_with_transformers.py --model_path ./model --image_paths science_image.jpg --question "图片中的细胞结构是什么?"
    
  • 출력 분석모델은 이미지 특징을 추출하고 문제와 함께 자세한 설명을 제공합니다.

취급 시 주의사항

  • 사진 형식JPG, PNG와 같은 일반적인 형식이 지원되며 이미지 선명도가 높은 것이 좋습니다.
  • 하드웨어 요구 사항GPU가 없는 컴퓨터에서 실행되지만 속도가 느립니다. 최소 16GB의 RAM이 권장됩니다.
  • 문제 디버깅오류가 발생하면 다음과 같이 확인하세요. <requirements.txt> 를 참조하거나 GitHub의 이슈 페이지에서 도움말을 확인하세요.

위의 단계를 통해 Skywork-R1V를 사용하여 이미지 및 텍스트 작업을 쉽게 처리할 수 있습니다. 더 고급 사용법은 공식 문서를 참조하세요. <Skywork_R1V.pdf>.

 

애플리케이션 시나리오

  1. 교육 보조 자료
    학생들은 Skywork-R1V를 사용하여 수학 숙제에서 그림 문제를 분석하여 빠른 답과 문제 풀이 단계를 확인하고 요점을 이해하는 데 도움을 받을 수 있습니다.
  2. 과학 연구
    연구자는 실험 이미지를 업로드하여 모델이 데이터 또는 이미지 콘텐츠를 해석할 수 있도록 하여 분석 시간을 절약할 수 있습니다.
  3. 의료 지원
    의사는 초기 진단 조언을 위해 엑스레이 또는 현미경 이미지를 입력할 수 있어 업무 효율성이 향상됩니다.

 

QA

  1. Skywork-R1V는 어떤 언어를 지원하나요?
    현재 중국어와 영어를 주로 지원하며, 텍스트 입력과 출력은 두 언어 모두 가능합니다.
  2. 결제해야 하나요?
    아니요. Skywork-R1V는 완전한 오픈 소스이며 코드와 모델을 무료로 사용할 수 있습니다.
  3. GPU 없이도 작동하나요?
    가능하지만 추론 속도가 훨씬 느려집니다. CPU를 사용할 때는 이미지 해상도를 낮추는 것이 좋습니다.
© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...