Long-VITA: 매우 긴 컨텍스트 출력을 지원하는 시각적 언어 모델

35.4K 00

일반 소개

Long-VITA는 매우 긴 컨텍스트를 다루는 시각 및 언어 작업에 중점을 두고 VITA-MLLM 팀에서 개발한 오픈 소스 멀티모달 매크로 모델입니다. 이미지, 비디오, 텍스트를 동시에 분석할 수 있으며 최대 1백만 개까지 지원합니다. 토큰 비디오 이해, 고해상도 이미지 구문 분석, 다중 모드 지능형 추론과 같은 시나리오를 위한 입력입니다. 다른 모델에 비해 Long-VITA는 짧은 컨텍스트 작업에서 뛰어난 성능을 발휘하는 동시에 긴 시퀀스 처리에서 획기적인 이점을 제공합니다. 텐센트 유튜버 연구소, 난징 대학교, 샤먼 대학교와 공동으로 개발한 이 프로젝트는 전적으로 오픈 소스 데이터 세트로 훈련되고, NPU와 GPU 플랫폼을 모두 지원하며, 오픈 소스 커뮤니티에 긴 맥락의 다중 모달 연구를 위한 강력한 도구를 제공하는 것을 목표로 합니다. 모델 코드, 훈련 방법, 가중치가 공개되어 연구자와 개발자가 멀티모달 AI의 최첨단 애플리케이션을 탐색하는 데 적합합니다.

기능 목록

매우 긴 컨텍스트 처리복잡한 장면 분석을 위해 최대 100만 토큰 또는 4K 프레임의 이미지, 동영상, 텍스트 입력을 지원합니다.
멀티모달 이해이미지, 비디오 및 텍스트 처리 기능을 통합하여 여러 데이터 유형을 동시에 분석할 수 있습니다.
효율적인 분산 추론:: 컨텍스트 병렬 처리를 통해 매우 긴 입력에 대한 효율적인 추론.
오픈 소스 데이터 세트 교육1,700만 개의 공개 샘플을 사용하여 모델 재현성과 투명성을 보장합니다.
크로스 플랫폼 지원다양한 하드웨어 환경에 유연하게 적응할 수 있도록 Ascend NPU 및 Nvidia GPU와 호환됩니다.
짧은 컨텍스트 최적화:: 기존 멀티모달 작업에서 최고의 성능을 유지하여 긴 시퀀스 및 짧은 시퀀스 요구 사항을 모두 수용합니다.
로짓-마스크 언어 모델링:: 긴 시퀀스 추론을 강화하는 혁신적인 언어 모델 헤드 설계.

도움말 사용

Long-VITA는 오픈 소스 프로젝트로, 사용자가 GitHub 리포지토리를 통해 코드와 모델 가중치를 가져와 로컬 또는 서버에 배포하여 사용할 수 있습니다. 다음은 사용자가 시작하고 강력한 기능을 탐색하는 데 도움이 되는 자세한 가이드입니다.

설치 프로세스

클론 창고
터미널을 열고 다음 명령을 입력하여 Long-VITA 리포지토리를 복제합니다:
```
git clone https://github.com/VITA-MLLM/Long-VITA.git
cd Long-VITA
```

프로젝트의 모든 코드와 문서가 다운로드됩니다.

가상 환경 만들기
Conda를 사용하여 별도의 Python 환경을 만들고 종속성 격리를 보장하세요:
```
conda create -n long-vita python=3.10 -y
conda activate long-vita
```
종속성 설치
프로젝트에 필요한 Python 패키지를 설치합니다:
```
pip install --upgrade pip
pip install -r requirements.txt
```
빠른 추론이 필요한 경우 플래시 어텐션을 추가로 설치할 수 있습니다:
```
pip install flash-attn --no-build-isolation
```
모델 가중치 다운로드
Long-VITA는 허깅 페이스에서 다운로드할 수 있는 여러 버전(예: 16K, 128K, 1M 토큰)으로 제공됩니다:
- Long-VITA-16K. 링크(웹사이트)
- Long-VITA-128K. 링크(웹사이트)
- Long-VITA-1M. 링크(웹사이트)
  다운로드 후 가중치 파일을 프로젝트 루트 디렉토리 또는 지정된 경로에 배치합니다.
하드웨어 환경 구성
- Nvidia GPUCUDA 및 cuDNN이 설치되어 있고 환경 변수가 설정되어 있는지 확인합니다:
```
export CUDA_VISIBLE_DEVICES=0
```
- 어센드 NPU공식 문서에 따라 마인드스피드 또는 메가트론 환경을 구성합니다.

사용법

Long-VITA는 추론과 평가라는 두 가지 주요 작동 모드를 지원하며, 다음 단계에 대해 설명합니다.

추론 실행

데이터 입력 준비
- 이미지: 이미지 파일(예 .jpg 어쩌면 .png(컴퓨팅) 넣다(에) asset 폴더.
- 비디오일반적인 동영상 형식 지원(예 .mp4), 지정된 경로에 배치합니다.
- 복사본질문 또는 지침 작성, 다른 이름으로 저장 .txt 파일로 이동하거나 명령줄에 직접 입력하세요.

추론 명령 실행
이미지 이해의 예로 다음 명령을 실행합니다:

CUDA_VISIBLE_DEVICES=0 python video_audio_demo.py \
--model_path [模型权重路径] \
--image_path asset/sample_image.jpg \
--model_type qwen2p5_instruct \
--conv_mode qwen2p5_instruct \
--question "描述这张图片的内容。"

비디오 입력의 경우 다음을 추가합니다. --video_path 매개변수:

--video_path asset/sample_video.mp4

출력 보기
모델은 이미지 설명이나 동영상 분석 콘텐츠와 같은 결과를 엔드포인트에서 출력합니다.

성능 평가

평가 데이터 세트 준비
벤치마크 데이터 세트(예: Video-MME)를 다운로드하고 필요에 따라 파일 구조를 구성합니다.
평가 스크립트 실행
제공된 스크립트를 사용하여 평가합니다:
```
bash script/evaluate.sh [模型路径] [数据集路径]
```

주요 기능 작동

매우 긴 컨텍스트 처리

절차:
1. 입력 데이터(예: 긴 동영상 또는 여러 개의 HD 이미지)의 총 토큰 수가 1백만 개를 초과하지 않도록 하려면 Long-VITA-1M 모델을 선택합니다.
2. 활용 --max_seq_len 1048576 매개변수는 최대 시퀀스 길이를 설정합니다.
3. 추론을 실행하고 모델이 긴 시퀀스 작업(예: 동영상 요약 생성)을 어떻게 처리하는지 관찰합니다.
일반적인 예한 시간 분량의 동영상을 입력하고 "동영상의 주요 줄거리를 요약해 주세요"라는 질문을 하면 모델이 간결한 텍스트 요약을 출력합니다.

멀티모달 이해

절차:
1. 이미지 + 텍스트 또는 비디오 + 질문과 같은 멀티모달 입력을 준비합니다.
2. 명령줄에서 둘 다 지정하세요. --image_path 노래로 응답 --questionAs:
```
--image_path asset/sample_image.jpg --question "图片中的人物是谁？"
```
3. 이 모델은 시각적 정보와 텍스트 정보를 결합하여 답을 생성합니다.
일반적인 예:: 유명인의 사진과 "그가 무엇을 하고 있나요?"라는 질문을 입력합니다. 모델이 사진 속 동작을 설명합니다.

분산 추론

절차:
1. 멀티 GPU 환경을 구성하려면 다음을 수정합니다. CUDA_VISIBLE_DEVICES=0,1,2,3.
2. 컨텍스트 병렬 옵션으로 실행합니다:
```
python -m torch.distributed.launch --nproc_per_node=4 video_audio_demo.py [参数]
```
3. 이 모델은 처리 속도를 높이기 위해 여러 장치에 작업을 자동으로 할당합니다.
일반적인 예:: 분산 추론은 매우 긴 동영상을 처리할 때 소요되는 시간을 몇 시간에서 몇 분으로 줄일 수 있습니다.