일반 소개
Long-VITA는 매우 긴 컨텍스트를 다루는 시각 및 언어 작업에 중점을 두고 VITA-MLLM 팀에서 개발한 오픈 소스 멀티모달 매크로 모델입니다. 이미지, 비디오, 텍스트를 동시에 분석할 수 있으며 최대 1백만 개까지 지원합니다. 토큰 비디오 이해, 고해상도 이미지 구문 분석, 다중 모드 지능형 추론과 같은 시나리오를 위한 입력입니다. 다른 모델에 비해 Long-VITA는 짧은 컨텍스트 작업에서 뛰어난 성능을 발휘하는 동시에 긴 시퀀스 처리에서 획기적인 이점을 제공합니다. 텐센트 유튜버 연구소, 난징 대학교, 샤먼 대학교와 공동으로 개발한 이 프로젝트는 전적으로 오픈 소스 데이터 세트로 훈련되고, NPU와 GPU 플랫폼을 모두 지원하며, 오픈 소스 커뮤니티에 긴 맥락의 다중 모달 연구를 위한 강력한 도구를 제공하는 것을 목표로 합니다. 모델 코드, 훈련 방법, 가중치가 공개되어 연구자와 개발자가 멀티모달 AI의 최첨단 애플리케이션을 탐색하는 데 적합합니다.

기능 목록
- 매우 긴 컨텍스트 처리복잡한 장면 분석을 위해 최대 100만 토큰 또는 4K 프레임의 이미지, 동영상, 텍스트 입력을 지원합니다.
- 멀티모달 이해이미지, 비디오 및 텍스트 처리 기능을 통합하여 여러 데이터 유형을 동시에 분석할 수 있습니다.
- 효율적인 분산 추론:: 컨텍스트 병렬 처리를 통해 매우 긴 입력에 대한 효율적인 추론.
- 오픈 소스 데이터 세트 교육1,700만 개의 공개 샘플을 사용하여 모델 재현성과 투명성을 보장합니다.
- 크로스 플랫폼 지원다양한 하드웨어 환경에 유연하게 적응할 수 있도록 Ascend NPU 및 Nvidia GPU와 호환됩니다.
- 짧은 컨텍스트 최적화:: 기존 멀티모달 작업에서 최고의 성능을 유지하여 긴 시퀀스 및 짧은 시퀀스 요구 사항을 모두 수용합니다.
- 로짓-마스크 언어 모델링:: 긴 시퀀스 추론을 강화하는 혁신적인 언어 모델 헤드 설계.
도움말 사용
Long-VITA는 오픈 소스 프로젝트로, 사용자가 GitHub 리포지토리를 통해 코드와 모델 가중치를 가져와 로컬 또는 서버에 배포하여 사용할 수 있습니다. 다음은 사용자가 시작하고 강력한 기능을 탐색하는 데 도움이 되는 자세한 가이드입니다.
설치 프로세스
- 클론 창고
터미널을 열고 다음 명령을 입력하여 Long-VITA 리포지토리를 복제합니다:git clone https://github.com/VITA-MLLM/Long-VITA.git cd Long-VITA
프로젝트의 모든 코드와 문서가 다운로드됩니다.
- 가상 환경 만들기
Conda를 사용하여 별도의 Python 환경을 만들고 종속성 격리를 보장하세요:conda create -n long-vita python=3.10 -y conda activate long-vita
- 종속성 설치
프로젝트에 필요한 Python 패키지를 설치합니다:pip install --upgrade pip pip install -r requirements.txt
빠른 추론이 필요한 경우 플래시 어텐션을 추가로 설치할 수 있습니다:
pip install flash-attn --no-build-isolation
- 모델 가중치 다운로드
Long-VITA는 허깅 페이스에서 다운로드할 수 있는 여러 버전(예: 16K, 128K, 1M 토큰)으로 제공됩니다: - 하드웨어 환경 구성
- Nvidia GPUCUDA 및 cuDNN이 설치되어 있고 환경 변수가 설정되어 있는지 확인합니다:
export CUDA_VISIBLE_DEVICES=0
- 어센드 NPU공식 문서에 따라 마인드스피드 또는 메가트론 환경을 구성합니다.
- Nvidia GPUCUDA 및 cuDNN이 설치되어 있고 환경 변수가 설정되어 있는지 확인합니다:
사용법
Long-VITA는 추론과 평가라는 두 가지 주요 작동 모드를 지원하며, 다음 단계에 대해 설명합니다.
추론 실행
- 데이터 입력 준비
- 이미지: 이미지 파일(예
.jpg
어쩌면.png
(컴퓨팅) 넣다(에)asset
폴더. - 비디오일반적인 동영상 형식 지원(예
.mp4
), 지정된 경로에 배치합니다. - 복사본질문 또는 지침 작성, 다른 이름으로 저장
.txt
파일로 이동하거나 명령줄에 직접 입력하세요.
- 이미지: 이미지 파일(예
- 추론 명령 실행
이미지 이해의 예로 다음 명령을 실행합니다:CUDA_VISIBLE_DEVICES=0 python video_audio_demo.py \ --model_path [模型权重路径] \ --image_path asset/sample_image.jpg \ --model_type qwen2p5_instruct \ --conv_mode qwen2p5_instruct \ --question "描述这张图片的内容。"
비디오 입력의 경우 다음을 추가합니다.
--video_path
매개변수:--video_path asset/sample_video.mp4
- 출력 보기
모델은 이미지 설명이나 동영상 분석 콘텐츠와 같은 결과를 엔드포인트에서 출력합니다.
성능 평가
- 평가 데이터 세트 준비
벤치마크 데이터 세트(예: Video-MME)를 다운로드하고 필요에 따라 파일 구조를 구성합니다. - 평가 스크립트 실행
제공된 스크립트를 사용하여 평가합니다:bash script/evaluate.sh [模型路径] [数据集路径]
주요 기능 작동
매우 긴 컨텍스트 처리
- 절차:
- 입력 데이터(예: 긴 동영상 또는 여러 개의 HD 이미지)의 총 토큰 수가 1백만 개를 초과하지 않도록 하려면 Long-VITA-1M 모델을 선택합니다.
- 활용
--max_seq_len 1048576
매개변수는 최대 시퀀스 길이를 설정합니다. - 추론을 실행하고 모델이 긴 시퀀스 작업(예: 동영상 요약 생성)을 어떻게 처리하는지 관찰합니다.
- 일반적인 예한 시간 분량의 동영상을 입력하고 "동영상의 주요 줄거리를 요약해 주세요"라는 질문을 하면 모델이 간결한 텍스트 요약을 출력합니다.
멀티모달 이해
- 절차:
- 이미지 + 텍스트 또는 비디오 + 질문과 같은 멀티모달 입력을 준비합니다.
- 명령줄에서 둘 다 지정하세요.
--image_path
노래로 응답--question
As:--image_path asset/sample_image.jpg --question "图片中的人物是谁?"
- 이 모델은 시각적 정보와 텍스트 정보를 결합하여 답을 생성합니다.
- 일반적인 예:: 유명인의 사진과 "그가 무엇을 하고 있나요?"라는 질문을 입력합니다. 모델이 사진 속 동작을 설명합니다.
분산 추론
- 절차:
- 멀티 GPU 환경을 구성하려면 다음을 수정합니다.
CUDA_VISIBLE_DEVICES=0,1,2,3
. - 컨텍스트 병렬 옵션으로 실행합니다:
python -m torch.distributed.launch --nproc_per_node=4 video_audio_demo.py [参数]
- 이 모델은 처리 속도를 높이기 위해 여러 장치에 작업을 자동으로 할당합니다.
- 멀티 GPU 환경을 구성하려면 다음을 수정합니다.
- 일반적인 예:: 분산 추론은 매우 긴 동영상을 처리할 때 소요되는 시간을 몇 시간에서 몇 분으로 줄일 수 있습니다.
주의
- 하드웨어에 충분한 메모리가 있는지 확인하세요. 1M 토큰 입력에는 32GB 이상의 비디오 메모리가 필요할 수 있습니다.
- 입력 데이터는 모델 요구 사항에 맞게 사전 처리(예: 비디오 프레임 추출)해야 합니다.
- 가중치를 다운로드하려면 안정적인 고속 인터넷 연결이 필요합니다.
이러한 단계를 통해 사용자는 Long-VITA를 쉽게 배포하고 멀티모달 AI 애플리케이션을 연구, 개발 또는 테스트하기 위한 매우 긴 컨텍스트 및 멀티모달 이해 기능을 경험할 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...