R1-Omni: 비디오와 오디오를 통해 감정을 분석하는 오픈 소스 모델

최신 AI 리소스5개월 전에 게시 됨 AI 공유 서클
2K 00

일반 소개

R1-Omni는 HumanMLLM 팀이 GitHub에서 시작한 오픈 소스 프로젝트입니다. 이 프로젝트는 감정 인식에 중점을 둔 멀티모달 대규모 언어 모델에 처음으로 검증 가능한 보상이 포함된 강화 학습(RLVR) 기법을 적용합니다. 이 프로젝트는 비디오 및 오디오 데이터를 분석하여 분노, 행복 또는 놀라움과 같은 인물의 감정을 식별합니다. 휴먼옴니-0.5B를 기본 모델로 개발되어 연구자와 개발자를 위해 코드와 모델을 무료로 다운로드할 수 있으며, R1-Omni는 DFEW, MAFW 등과 같은 데이터 세트에서 우수한 성능을 보이며 특히 복잡한 장면에서 감정을 더 정확하게 이해합니다. 이 프로젝트는 지속적으로 업데이트되고 있으며 더 많은 학습 데이터와 기능을 공개할 계획입니다.

R1-Omni:通过视频和音频分析情感的开源模型

 

기능 목록

  • 감정 인식비디오 및 오디오를 분석하여 캐릭터의 감정 상태(예: 분노, 행복, 놀라움 등)를 파악합니다.
  • 멀티모달 처리시각 및 청각 데이터를 결합하여 감정 인식의 정확도를 향상시킵니다.
  • 향상된 학습 최적화RLVR 기술을 통한 모델 추론 및 적응 향상.
  • 모델 다운로드휴먼옴니-0.5B, EMER-SFT, MAFW-DFEW-SFT 및 R1-Omni 모델을 사용할 수 있습니다.
  • 오픈 소스 지원사용자의 2차 개발을 지원하기 위한 오픈 소스 코드 및 일부 데이터 세트.
  • 성능사용자가 쉽게 효과를 평가할 수 있도록 여러 데이터 세트에 대한 테스트 결과를 제공합니다.

 

도움말 사용

설치 및 환경 설정

R1-Omni를 사용하려면 일정 수준의 기술이 필요합니다. 자세한 설치 단계는 다음과 같습니다:

1. 시스템 요구 사항

  • 운영 체제Linux, Windows 또는 macOS 지원.
  • Python 버전Python 3.8 이상을 권장합니다.
  • 하드웨어 지원NVIDIA GPU 권장(가속이 필요한 경우), CPU도 실행할 수 있습니다.
  • 도구 준비코드를 다운로드하려면 Git을 설치해야 합니다.

2. 코드 액세스

터미널에 다음 명령을 입력하여 R1-Omni용 코드를 다운로드합니다:

git clone https://github.com/HumanMLLM/R1-Omni.git
cd R1-Omni

3. 구성 환경

R1-Omni는 R1-V 프레임워크를 기반으로 개발되었으므로 환경 설정은 R1-V 리포지토리를 참조하세요. 단계는 다음과 같습니다:

  • 가상 환경을 만듭니다:
python -m venv venv
source venv/bin/activate  # Linux/macOS
venv\Scripts\activate     # Windows
  • 종속성 패키지 설치: 다음 버전이 공식적으로 권장되며, 설치하려면 명령을 입력하세요:
pip install torch==2.5.1+cu124 torchvision==0.20.1+cu124 torchaudio==2.5.1+cu124 -f https://download.pytorch.org/whl/torch_stable.html
pip install transformers==4.49.0 flash-attn==2.7.4

참고: NVIDIA 드라이버 버전이 535.54 이상이어야 합니다. 전체 종속성 목록이 누락된 경우 R1-V 리포지토리를 참조하세요.

4. 모델 다운로드

R1-Omni는 허깅 페이스 또는 모델스코프에서 다운로드할 수 있는 여러 모델 버전을 제공합니다. 허깅 페이스가 예시로 사용됩니다:

  • 인터뷰 허깅 페이스 R1-옴니.
  • 다운로드 R1-Omni-0.5B 모델과 같은 로컬 경로에 저장합니다. /path/to/models/R1-Omni-0.5B.
  • 종속성 모델을 다운로드합니다:
  • 오디오 모델링:위스퍼-대형-V3다음에 저장 /path/to/models/whisper-large-v3.
  • 시각적 모델링:siglip-base-patch16-224다음에 저장 /path/to/models/siglip-base-patch16-224.

5. 구성 파일 수정

존재 R1-Omni-0.5B 폴더에서 찾기 config.json를 클릭하고 텍스트 편집기로 열어 다음 두 줄을 수정합니다:

"mm_audio_tower": "/path/to/models/whisper-large-v3",
"mm_vision_tower": "/path/to/models/siglip-base-patch16-224"

파일을 저장하고 닫습니다.

기능 작동 흐름

1. 감정 인식 추론

R1-Omni 제공 inference.py 단일 동영상의 감정을 분석하기 위한 스크립트입니다. 작업 단계는 다음과 같습니다:

  • 동영상 파일을 준비합니다(예 video.mp4), 영상과 소리가 있는지 확인하세요.
  • 터미널에서 실행됩니다:
    python inference.py --modal video_audio \
    --model_path /path/to/models/R1-Omni-0.5B \
    --video_path video.mp4 \
    --instruct "As an emotional recognition expert; throughout the video, which emotion conveyed by the characters is the most obvious to you? Output the thinking process in <think> </think> and final emotion in <answer> </answer> tags."
    
  • 출력 예시:
    <think>视频中一名男子站在彩色壁画前,穿棕色夹克,眉头紧皱,嘴巴张开,表情显得激动。音频中有“降低声音”和“别慌”的词语,语速快且语气紧张。综合分析,他的情绪是愤怒和不安。</think>
    <answer>angry</answer>
    

2. 모델 성능 테스트

모델 성능은 DFEW, MAFW 및 RAVDESS 데이터 세트에서 공식적으로 테스트되었습니다. 사용자는 이러한 데이터 세트를 다운로드(DFEW 공식 웹사이트 또는 MAFW 공식 웹사이트 참조)한 다음 위의 명령으로 로컬 효과를 확인할 수 있습니다. 비교 데이터는 다음과 같습니다:

  • R1-Omni는 DFEW(WAR)에서 65.831 TP3T를 기록하여 HumanOmni-0.5B의 22.641 TP3T보다 높습니다.

3. 맞춤형 교육

  • 콜드 스타트 교육설명 가능한 다중 모드 감정 추론(232개 샘플) 및 휴먼 옴니(348개 샘플) 데이터 세트를 기반으로 모델을 초기화합니다. 데이터 형식 예시:
    [{"video": "MER24/sample_00000967.mp4", "conversations": [{"from": "human", "value": "<video>\n<audio>\n请识别视频中的主要情绪"}, {"from": "gpt", "value": "<think>视频中一名男子在打电话,眉头紧皱,语速快,语气紧张,表现出焦虑。</think>\n<answer>anxious</answer>"}]}]
    

    데이터는 아직 완전한 오픈 소스가 아니므로 GitHub에서 업데이트를 계속 주시하세요.

  • RLVR 교육MAFW 및 DFEW 데이터 세트 사용(총 15,306개 동영상). 데이터 형식의 예:
    [{"video": "DFEW/videos/1.mp4", "conversations": [{"from": "human", "value": "<video>\n<audio>\n请识别视频中的主要情绪"}, {"from": "gpt", "value": "sad"}]}]
    

    교육에 대한 자세한 내용은 추후 공식 발표를 기다리는 중입니다.

주의

  • 비디오 요청MP4 등의 형식을 지원하며 선명한 화질과 오디오를 포함해야 합니다.
  • 모델 선택R1-Omni는 최적의 성능을 갖춘 최종 버전이며, 다른 모델은 비교 실험을 위해 사용할 수 있습니다.
  • 기술 지원문제가 있는 경우 GitHub에 이슈를 제출하면 팀에서 계속해서 문서를 개선해 나갈 것입니다.

위의 단계를 통해 사용자는 R1-Omni를 빠르게 설치하고 사용하여 감정 인식 기능을 경험할 수 있습니다.

© 저작권 정책

관련 게시물

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...