Long-VITA: 매우 긴 컨텍스트 출력을 지원하는 시각적 언어 모델

최신 AI 리소스5개월 전에 게시 됨 AI 공유 서클
2.3K 00

일반 소개

Long-VITA는 매우 긴 컨텍스트를 다루는 시각 및 언어 작업에 중점을 두고 VITA-MLLM 팀에서 개발한 오픈 소스 멀티모달 매크로 모델입니다. 이미지, 비디오, 텍스트를 동시에 분석할 수 있으며 최대 1백만 개까지 지원합니다. 토큰 비디오 이해, 고해상도 이미지 구문 분석, 다중 모드 지능형 추론과 같은 시나리오를 위한 입력입니다. 다른 모델에 비해 Long-VITA는 짧은 컨텍스트 작업에서 뛰어난 성능을 발휘하는 동시에 긴 시퀀스 처리에서 획기적인 이점을 제공합니다. 텐센트 유튜버 연구소, 난징 대학교, 샤먼 대학교와 공동으로 개발한 이 프로젝트는 전적으로 오픈 소스 데이터 세트로 훈련되고, NPU와 GPU 플랫폼을 모두 지원하며, 오픈 소스 커뮤니티에 긴 맥락의 다중 모달 연구를 위한 강력한 도구를 제공하는 것을 목표로 합니다. 모델 코드, 훈련 방법, 가중치가 공개되어 연구자와 개발자가 멀티모달 AI의 최첨단 애플리케이션을 탐색하는 데 적합합니다.

Long-VITA:支持超长上下文输出的视觉语言模型

 

기능 목록

  • 매우 긴 컨텍스트 처리복잡한 장면 분석을 위해 최대 100만 토큰 또는 4K 프레임의 이미지, 동영상, 텍스트 입력을 지원합니다.
  • 멀티모달 이해이미지, 비디오 및 텍스트 처리 기능을 통합하여 여러 데이터 유형을 동시에 분석할 수 있습니다.
  • 효율적인 분산 추론:: 컨텍스트 병렬 처리를 통해 매우 긴 입력에 대한 효율적인 추론.
  • 오픈 소스 데이터 세트 교육1,700만 개의 공개 샘플을 사용하여 모델 재현성과 투명성을 보장합니다.
  • 크로스 플랫폼 지원다양한 하드웨어 환경에 유연하게 적응할 수 있도록 Ascend NPU 및 Nvidia GPU와 호환됩니다.
  • 짧은 컨텍스트 최적화:: 기존 멀티모달 작업에서 최고의 성능을 유지하여 긴 시퀀스 및 짧은 시퀀스 요구 사항을 모두 수용합니다.
  • 로짓-마스크 언어 모델링:: 긴 시퀀스 추론을 강화하는 혁신적인 언어 모델 헤드 설계.

 

도움말 사용

Long-VITA는 오픈 소스 프로젝트로, 사용자가 GitHub 리포지토리를 통해 코드와 모델 가중치를 가져와 로컬 또는 서버에 배포하여 사용할 수 있습니다. 다음은 사용자가 시작하고 강력한 기능을 탐색하는 데 도움이 되는 자세한 가이드입니다.

설치 프로세스

  1. 클론 창고
    터미널을 열고 다음 명령을 입력하여 Long-VITA 리포지토리를 복제합니다:

    git clone https://github.com/VITA-MLLM/Long-VITA.git
    cd Long-VITA

프로젝트의 모든 코드와 문서가 다운로드됩니다.

  1. 가상 환경 만들기
    Conda를 사용하여 별도의 Python 환경을 만들고 종속성 격리를 보장하세요:

    conda create -n long-vita python=3.10 -y
    conda activate long-vita
    
  2. 종속성 설치
    프로젝트에 필요한 Python 패키지를 설치합니다:

    pip install --upgrade pip
    pip install -r requirements.txt
    

    빠른 추론이 필요한 경우 플래시 어텐션을 추가로 설치할 수 있습니다:

    pip install flash-attn --no-build-isolation
    
  3. 모델 가중치 다운로드
    Long-VITA는 허깅 페이스에서 다운로드할 수 있는 여러 버전(예: 16K, 128K, 1M 토큰)으로 제공됩니다:

  4. 하드웨어 환경 구성
    • Nvidia GPUCUDA 및 cuDNN이 설치되어 있고 환경 변수가 설정되어 있는지 확인합니다:
      export CUDA_VISIBLE_DEVICES=0
      
    • 어센드 NPU공식 문서에 따라 마인드스피드 또는 메가트론 환경을 구성합니다.

사용법

Long-VITA는 추론과 평가라는 두 가지 주요 작동 모드를 지원하며, 다음 단계에 대해 설명합니다.

추론 실행

  1. 데이터 입력 준비
    • 이미지: 이미지 파일(예 .jpg 어쩌면 .png(컴퓨팅) 넣다(에) asset 폴더.
    • 비디오일반적인 동영상 형식 지원(예 .mp4), 지정된 경로에 배치합니다.
    • 복사본질문 또는 지침 작성, 다른 이름으로 저장 .txt 파일로 이동하거나 명령줄에 직접 입력하세요.
  2. 추론 명령 실행
    이미지 이해의 예로 다음 명령을 실행합니다:

    CUDA_VISIBLE_DEVICES=0 python video_audio_demo.py \
    --model_path [模型权重路径] \
    --image_path asset/sample_image.jpg \
    --model_type qwen2p5_instruct \
    --conv_mode qwen2p5_instruct \
    --question "描述这张图片的内容。"
    

    비디오 입력의 경우 다음을 추가합니다. --video_path 매개변수:

    --video_path asset/sample_video.mp4
    
  3. 출력 보기
    모델은 이미지 설명이나 동영상 분석 콘텐츠와 같은 결과를 엔드포인트에서 출력합니다.

성능 평가

  1. 평가 데이터 세트 준비
    벤치마크 데이터 세트(예: Video-MME)를 다운로드하고 필요에 따라 파일 구조를 구성합니다.
  2. 평가 스크립트 실행
    제공된 스크립트를 사용하여 평가합니다:

    bash script/evaluate.sh [模型路径] [数据集路径]
    

주요 기능 작동

매우 긴 컨텍스트 처리

  • 절차:
    1. 입력 데이터(예: 긴 동영상 또는 여러 개의 HD 이미지)의 총 토큰 수가 1백만 개를 초과하지 않도록 하려면 Long-VITA-1M 모델을 선택합니다.
    2. 활용 --max_seq_len 1048576 매개변수는 최대 시퀀스 길이를 설정합니다.
    3. 추론을 실행하고 모델이 긴 시퀀스 작업(예: 동영상 요약 생성)을 어떻게 처리하는지 관찰합니다.
  • 일반적인 예한 시간 분량의 동영상을 입력하고 "동영상의 주요 줄거리를 요약해 주세요"라는 질문을 하면 모델이 간결한 텍스트 요약을 출력합니다.

멀티모달 이해

  • 절차:
    1. 이미지 + 텍스트 또는 비디오 + 질문과 같은 멀티모달 입력을 준비합니다.
    2. 명령줄에서 둘 다 지정하세요. --image_path 노래로 응답 --questionAs:
      --image_path asset/sample_image.jpg --question "图片中的人物是谁?"
      
    3. 이 모델은 시각적 정보와 텍스트 정보를 결합하여 답을 생성합니다.
  • 일반적인 예:: 유명인의 사진과 "그가 무엇을 하고 있나요?"라는 질문을 입력합니다. 모델이 사진 속 동작을 설명합니다.

분산 추론

  • 절차:
    1. 멀티 GPU 환경을 구성하려면 다음을 수정합니다. CUDA_VISIBLE_DEVICES=0,1,2,3.
    2. 컨텍스트 병렬 옵션으로 실행합니다:
      python -m torch.distributed.launch --nproc_per_node=4 video_audio_demo.py [参数]
      
    3. 이 모델은 처리 속도를 높이기 위해 여러 장치에 작업을 자동으로 할당합니다.
  • 일반적인 예:: 분산 추론은 매우 긴 동영상을 처리할 때 소요되는 시간을 몇 시간에서 몇 분으로 줄일 수 있습니다.

주의

  • 하드웨어에 충분한 메모리가 있는지 확인하세요. 1M 토큰 입력에는 32GB 이상의 비디오 메모리가 필요할 수 있습니다.
  • 입력 데이터는 모델 요구 사항에 맞게 사전 처리(예: 비디오 프레임 추출)해야 합니다.
  • 가중치를 다운로드하려면 안정적인 고속 인터넷 연결이 필요합니다.

이러한 단계를 통해 사용자는 Long-VITA를 쉽게 배포하고 멀티모달 AI 애플리케이션을 연구, 개발 또는 테스트하기 위한 매우 긴 컨텍스트 및 멀티모달 이해 기능을 경험할 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...