VITA: 실시간 시각 및 음성 상호 작용을 위한 오픈 소스 멀티모달 대규모 언어 모델

85.7K 00

일반 소개

VITA는 선도적인 오픈 소스 대화형 대규모 언어 모델링 프로젝트로, 진정한 완전한 멀티모달 상호 작용을 실현하는 기능을 개척하고 있습니다. 이 프로젝트는 2024년 8월 최초의 오픈소스 대화형 멀티모달 대규모 언어 모델을 개척한 VITA-1.0을 출시했으며, 2024년 12월에는 상호작용 경험과 성능을 크게 개선한 주요 업그레이드 버전인 VITA-1.5를 출시했습니다.VITA 모델은 이미지, 비디오, 오디오 등 다중 모드 입출력을 지원하고 실시간 상호작용 기능을 탑재하여 엔드투엔드 음성 상호작용 지연 시간을 4초에서 1.5초로 대폭 줄였습니다. VITA 모델은 이미지, 비디오, 오디오 등 멀티 모달 입출력을 지원하고 실시간 상호작용 기능을 갖추고 있어 엔드투엔드 음성 상호작용 지연 시간을 4초에서 1.5초로 대폭 단축하여 사용자 경험을 크게 향상시킵니다. 완전한 오픈 소스 프로젝트인 VITA는 연구자와 개발자가 멀티모달 AI를 탐구할 수 있는 이상적인 플랫폼을 제공합니다.

기능 목록

멀티모달 입력 처리: 이미지, 비디오, 오디오 및 기타 형태의 입력 지원
실시간 음성 상호 작용: 단 1.5초의 엔드투엔드 음성 상호 작용 지연 시간
시각적 분석 기능: 강력한 이미지 및 동영상 이해 및 분석 기능
오디오 처리: 음성 인식 및 음성 합성 지원
크로스 모달 이해: 텍스트, 이미지, 오디오 간의 지능적인 상관관계를 지향합니다.
오픈 소스 지원: 전체 교육 및 추론 코드 공개
사전 학습된 모델: 여러 버전의 사전 학습된 모델을 사용할 수 있습니다.
유연한 배포 옵션: 여러 하드웨어 플랫폼 배포 지원

VITA-1.5 개요

2024년 8월 12일, 저희는 VITA-1.0이것은 최초의 오픈 소스 대화형 올인원 멀티모달 매크로 언어 모델. 그리고 지금(2024년 12월 20일), 저희는 여러분께 새 버전 VITA-1.5!

VITA-1.5의 새로운 기능은 무엇인가요?

다음과 같이 소개합니다. VITA-1.5를 통해 일련의 발전된 기능을 소개했습니다:

인터랙션 지연 시간 대폭 단축.. 종단 간 음성 상호 작용 지연 시간이 다음에서 증가했습니다. 약 4초 감소 1.5초를 통해 거의 즉각적인 상호 작용을 가능하게 하고 사용자 경험을 크게 향상시킵니다.
향상된 멀티모달 성능. In MME및MMBench 노래로 응답 MathVista 다음과 같은 멀티모달 벤치마크의 평균 성능은 다음과 같습니다. 59.8 로 올리십시오. 70.8.
음성 처리 기능 향상.. 새로운 수준의 음성 처리 성능을 달성하여 ASR WER(단어 오류율, 기타 테스트)이 다음에서 증가했습니다. 18.4 로 감소 7.5. 또한, 저희는 엔드투엔드 TTS 모듈 대규모 언어 모델의 임베딩을 입력으로 받아들이는 VITA-1.0의 독립형 TTS 모듈을 대체합니다.
점진적 교육 전략. 이러한 방식으로 음성 모듈을 포함해도 다른 멀티모달 성능(시각-언어)에는 거의 영향을 미치지 않습니다. 이미지 이해의 평균 성능은 71.3에서 70.8로 감소했을 뿐입니다.

결과

이미지 및 비디오 이해도 벤치마크 테스트 평가

ASR 벤치마크에서 전문 음성 모델보다 뛰어난 성능의 VITA-1.5

오디오 양식의 포함은 이미지 및 비디오 이해도에 거의 영향을 미치지 않습니다.

도움말 사용

1. 환경 구성 및 설치

1.1 기초 요구 사항:

Python 환경
PyTorch 프레임워크
CUDA 지원(GPU 가속 권장)

1.2 설치 단계:

# 克隆项目仓库
git clone https://github.com/VITA-MLLM/VITA.git
cd VITA
# 安装依赖
pip install -r requirements.txt

2. 모델 사용

2.1 사전 학습된 모델 불러오기:

from vita.model.builder import load_pretrained_model
from vita.conversation import conv_templates
from vita.util.mm_utils import get_model_name_from_path
# 加载模型
model_path = 'VITA/vita'
model_name = get_model_name_from_path(model_path)
tokenizer, model, image_processor, _ = load_pretrained_model(
model_path, 
None, 
model_name, 
model_type='mixtral-8x7b', 
device_map='auto'
)

2.2 오디오 처리 구성:

# 初始化音频编码器
audio_encoder = model.get_audio_encoder()
audio_encoder.to(dtype=torch.float16)
audio_processor = audio_encoder.audio_processor

3. 실시간 대화형 기능

실시간 음성 입력 및 응답 지원
통합 이미지 인식 및 분석
다원 대화 상호작용 지원
완벽한 대화 템플릿 시스템 제공

4. 고급 기능 사용

4.1 멀티모달 입력 처리:

일괄 이미지 처리 지원
비디오 스트림의 실시간 분석
오디오 스트림 처리 및 합성

4.2 모델 교육 및 미세 조정:

완전한 교육 스크립트 제공
지속적인 학습 기능 지원
맞춤형 데이터 세트 교육 지원

5. 평가 및 테스트

주요 멀티모달 평가 벤치마크 지원
통합 VLMEvalKit 평가 도구
자세한 성능 테스트 지표 제공

6. 주의 사항

모델 추론에는 GPU를 권장합니다.
특히 대규모 멀티모달 입력을 처리할 때는 메모리 관리에 주의하세요.
최신 기능 및 최적화를 위한 프로젝트 업데이트를 정기적으로 확인하세요.

Magentic-UI - 인간과 컴퓨터의 협업을 위한 Microsoft 오픈 소스 AI 에이전트

최신 AI 리소스

9개월 전

040.5K

CSM-MLX: Apple 디바이스용 CSM 음성 생성 모델

1 년 전

058.2K

랭플로 데스크톱: 랭플로 데스크톱 클라이언트 다운로드

최신 AI 리소스 # 지능형 바디 애플리케이션

11개월 전

054.5K

SpeechGPT 2.0-프리뷰: 실시간 상호작용을 위한 엔드투엔드 의인화된 음성 대화 매크로 모델

1 년 전

050.6K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

VITA: 실시간 시각 및 음성 상호 작용을 위한 오픈 소스 멀티모달 대규모 언어 모델

일반 소개

기능 목록

VITA-1.5 개요

VITA-1.5의 새로운 기능은 무엇인가요?

결과

도움말 사용

1. 환경 구성 및 설치

2. 모델 사용

3. 실시간 대화형 기능

4. 고급 기능 사용

5. 평가 및 테스트

6. 주의 사항

트렌드 파인더: 마케팅 의사 결정을 위해 소셜 미디어 트렌드, 인기 주제 및 새 게시물을 실시간으로 추적합니다.

SHMT: 자체 감독 계층적 메이크업 전송 모델, 가상 메이크업, 새로운 인물 사진으로의 메이크업 마이그레이션

관련 문서

Magentic-UI - 인간과 컴퓨터의 협업을 위한 Microsoft 오픈 소스 AI 에이전트

CSM-MLX: Apple 디바이스용 CSM 음성 생성 모델

랭플로 데스크톱: 랭플로 데스크톱 클라이언트 다운로드

SpeechGPT 2.0-프리뷰: 실시간 상호작용을 위한 엔드투엔드 의인화된 음성 대화 매크로 모델

댓글 없음

최신 컬렉션

최신 기사

VITA: 실시간 시각 및 음성 상호 작용을 위한 오픈 소스 멀티모달 대규모 언어 모델

일반 소개

기능 목록

VITA-1.5 개요

VITA-1.5의 새로운 기능은 무엇인가요?

결과

도움말 사용

1. 환경 구성 및 설치

2. 모델 사용

3. 실시간 대화형 기능

4. 고급 기능 사용

5. 평가 및 테스트

6. 주의 사항

트렌드 파인더: 마케팅 의사 결정을 위해 소셜 미디어 트렌드, 인기 주제 및 새 게시물을 실시간으로 추적합니다.

SHMT: 자체 감독 계층적 메이크업 전송 모델, 가상 메이크업, 새로운 인물 사진으로의 메이크업 마이그레이션

관련 문서

Magentic-UI - 인간과 컴퓨터의 협업을 위한 Microsoft 오픈 소스 AI 에이전트

CSM-MLX: Apple 디바이스용 CSM 음성 생성 모델

랭플로 데스크톱: 랭플로 데스크톱 클라이언트 다운로드

SpeechGPT 2.0-프리뷰: 실시간 상호작용을 위한 엔드투엔드 의인화된 음성 대화 매크로 모델

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사