일반 소개
R1-Omni는 HumanMLLM 팀이 GitHub에서 시작한 오픈 소스 프로젝트입니다. 이 프로젝트는 감정 인식에 중점을 둔 멀티모달 대규모 언어 모델에 처음으로 검증 가능한 보상이 포함된 강화 학습(RLVR) 기법을 적용합니다. 이 프로젝트는 비디오 및 오디오 데이터를 분석하여 분노, 행복 또는 놀라움과 같은 인물의 감정을 식별합니다. 휴먼옴니-0.5B를 기본 모델로 개발되어 연구자와 개발자를 위해 코드와 모델을 무료로 다운로드할 수 있으며, R1-Omni는 DFEW, MAFW 등과 같은 데이터 세트에서 우수한 성능을 보이며 특히 복잡한 장면에서 감정을 더 정확하게 이해합니다. 이 프로젝트는 지속적으로 업데이트되고 있으며 더 많은 학습 데이터와 기능을 공개할 계획입니다.

기능 목록
- 감정 인식비디오 및 오디오를 분석하여 캐릭터의 감정 상태(예: 분노, 행복, 놀라움 등)를 파악합니다.
- 멀티모달 처리시각 및 청각 데이터를 결합하여 감정 인식의 정확도를 향상시킵니다.
- 향상된 학습 최적화RLVR 기술을 통한 모델 추론 및 적응 향상.
- 모델 다운로드휴먼옴니-0.5B, EMER-SFT, MAFW-DFEW-SFT 및 R1-Omni 모델을 사용할 수 있습니다.
- 오픈 소스 지원사용자의 2차 개발을 지원하기 위한 오픈 소스 코드 및 일부 데이터 세트.
- 성능사용자가 쉽게 효과를 평가할 수 있도록 여러 데이터 세트에 대한 테스트 결과를 제공합니다.
도움말 사용
설치 및 환경 설정
R1-Omni를 사용하려면 일정 수준의 기술이 필요합니다. 자세한 설치 단계는 다음과 같습니다:
1. 시스템 요구 사항
- 운영 체제Linux, Windows 또는 macOS 지원.
- Python 버전Python 3.8 이상을 권장합니다.
- 하드웨어 지원NVIDIA GPU 권장(가속이 필요한 경우), CPU도 실행할 수 있습니다.
- 도구 준비코드를 다운로드하려면 Git을 설치해야 합니다.
2. 코드 액세스
터미널에 다음 명령을 입력하여 R1-Omni용 코드를 다운로드합니다:
git clone https://github.com/HumanMLLM/R1-Omni.git
cd R1-Omni
3. 구성 환경
R1-Omni는 R1-V 프레임워크를 기반으로 개발되었으므로 환경 설정은 R1-V 리포지토리를 참조하세요. 단계는 다음과 같습니다:
- 가상 환경을 만듭니다:
python -m venv venv
source venv/bin/activate # Linux/macOS
venv\Scripts\activate # Windows
- 종속성 패키지 설치: 다음 버전이 공식적으로 권장되며, 설치하려면 명령을 입력하세요:
pip install torch==2.5.1+cu124 torchvision==0.20.1+cu124 torchaudio==2.5.1+cu124 -f https://download.pytorch.org/whl/torch_stable.html
pip install transformers==4.49.0 flash-attn==2.7.4
참고: NVIDIA 드라이버 버전이 535.54 이상이어야 합니다. 전체 종속성 목록이 누락된 경우 R1-V 리포지토리를 참조하세요.
4. 모델 다운로드
R1-Omni는 허깅 페이스 또는 모델스코프에서 다운로드할 수 있는 여러 모델 버전을 제공합니다. 허깅 페이스가 예시로 사용됩니다:
- 인터뷰 허깅 페이스 R1-옴니.
- 다운로드
R1-Omni-0.5B
모델과 같은 로컬 경로에 저장합니다./path/to/models/R1-Omni-0.5B
. - 종속성 모델을 다운로드합니다:
- 오디오 모델링:위스퍼-대형-V3다음에 저장
/path/to/models/whisper-large-v3
. - 시각적 모델링:siglip-base-patch16-224다음에 저장
/path/to/models/siglip-base-patch16-224
.
5. 구성 파일 수정
존재 R1-Omni-0.5B
폴더에서 찾기 config.json
를 클릭하고 텍스트 편집기로 열어 다음 두 줄을 수정합니다:
"mm_audio_tower": "/path/to/models/whisper-large-v3",
"mm_vision_tower": "/path/to/models/siglip-base-patch16-224"
파일을 저장하고 닫습니다.
기능 작동 흐름
1. 감정 인식 추론
R1-Omni 제공 inference.py
단일 동영상의 감정을 분석하기 위한 스크립트입니다. 작업 단계는 다음과 같습니다:
- 동영상 파일을 준비합니다(예
video.mp4
), 영상과 소리가 있는지 확인하세요. - 터미널에서 실행됩니다:
python inference.py --modal video_audio \ --model_path /path/to/models/R1-Omni-0.5B \ --video_path video.mp4 \ --instruct "As an emotional recognition expert; throughout the video, which emotion conveyed by the characters is the most obvious to you? Output the thinking process in <think> </think> and final emotion in <answer> </answer> tags."
- 출력 예시:
<think>视频中一名男子站在彩色壁画前,穿棕色夹克,眉头紧皱,嘴巴张开,表情显得激动。音频中有“降低声音”和“别慌”的词语,语速快且语气紧张。综合分析,他的情绪是愤怒和不安。</think> <answer>angry</answer>
2. 모델 성능 테스트
모델 성능은 DFEW, MAFW 및 RAVDESS 데이터 세트에서 공식적으로 테스트되었습니다. 사용자는 이러한 데이터 세트를 다운로드(DFEW 공식 웹사이트 또는 MAFW 공식 웹사이트 참조)한 다음 위의 명령으로 로컬 효과를 확인할 수 있습니다. 비교 데이터는 다음과 같습니다:
- R1-Omni는 DFEW(WAR)에서 65.831 TP3T를 기록하여 HumanOmni-0.5B의 22.641 TP3T보다 높습니다.
3. 맞춤형 교육
- 콜드 스타트 교육설명 가능한 다중 모드 감정 추론(232개 샘플) 및 휴먼 옴니(348개 샘플) 데이터 세트를 기반으로 모델을 초기화합니다. 데이터 형식 예시:
[{"video": "MER24/sample_00000967.mp4", "conversations": [{"from": "human", "value": "<video>\n<audio>\n请识别视频中的主要情绪"}, {"from": "gpt", "value": "<think>视频中一名男子在打电话,眉头紧皱,语速快,语气紧张,表现出焦虑。</think>\n<answer>anxious</answer>"}]}]
데이터는 아직 완전한 오픈 소스가 아니므로 GitHub에서 업데이트를 계속 주시하세요.
- RLVR 교육MAFW 및 DFEW 데이터 세트 사용(총 15,306개 동영상). 데이터 형식의 예:
[{"video": "DFEW/videos/1.mp4", "conversations": [{"from": "human", "value": "<video>\n<audio>\n请识别视频中的主要情绪"}, {"from": "gpt", "value": "sad"}]}]
교육에 대한 자세한 내용은 추후 공식 발표를 기다리는 중입니다.
주의
- 비디오 요청MP4 등의 형식을 지원하며 선명한 화질과 오디오를 포함해야 합니다.
- 모델 선택R1-Omni는 최적의 성능을 갖춘 최종 버전이며, 다른 모델은 비교 실험을 위해 사용할 수 있습니다.
- 기술 지원문제가 있는 경우 GitHub에 이슈를 제출하면 팀에서 계속해서 문서를 개선해 나갈 것입니다.
위의 단계를 통해 사용자는 R1-Omni를 빠르게 설치하고 사용하여 감정 인식 기능을 경험할 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 게시물
댓글 없음...