R1-Omni: 비디오와 오디오를 통해 감정을 분석하는 오픈 소스 모델

일반 소개

R1-Omni는 HumanMLLM 팀이 GitHub에서 시작한 오픈 소스 프로젝트입니다. 이 프로젝트는 감정 인식에 중점을 둔 멀티모달 대규모 언어 모델에 처음으로 검증 가능한 보상이 포함된 강화 학습(RLVR) 기법을 적용합니다. 이 프로젝트는 비디오 및 오디오 데이터를 분석하여 분노, 행복 또는 놀라움과 같은 인물의 감정을 식별합니다. 휴먼옴니-0.5B를 기본 모델로 개발되어 연구자와 개발자를 위해 코드와 모델을 무료로 다운로드할 수 있으며, R1-Omni는 DFEW, MAFW 등과 같은 데이터 세트에서 우수한 성능을 보이며 특히 복잡한 장면에서 감정을 더 정확하게 이해합니다. 이 프로젝트는 지속적으로 업데이트되고 있으며 더 많은 학습 데이터와 기능을 공개할 계획입니다.

기능 목록

감정 인식비디오 및 오디오를 분석하여 캐릭터의 감정 상태(예: 분노, 행복, 놀라움 등)를 파악합니다.
멀티모달 처리시각 및 청각 데이터를 결합하여 감정 인식의 정확도를 향상시킵니다.
향상된 학습 최적화RLVR 기술을 통한 모델 추론 및 적응 향상.
모델 다운로드휴먼옴니-0.5B, EMER-SFT, MAFW-DFEW-SFT 및 R1-Omni 모델을 사용할 수 있습니다.
오픈 소스 지원사용자의 2차 개발을 지원하기 위한 오픈 소스 코드 및 일부 데이터 세트.
성능사용자가 쉽게 효과를 평가할 수 있도록 여러 데이터 세트에 대한 테스트 결과를 제공합니다.

도움말 사용

설치 및 환경 설정

R1-Omni를 사용하려면 일정 수준의 기술이 필요합니다. 자세한 설치 단계는 다음과 같습니다:

1. 시스템 요구 사항

운영 체제Linux, Windows 또는 macOS 지원.
Python 버전Python 3.8 이상을 권장합니다.
하드웨어 지원NVIDIA GPU 권장(가속이 필요한 경우), CPU도 실행할 수 있습니다.
도구 준비코드를 다운로드하려면 Git을 설치해야 합니다.

2. 코드 액세스

터미널에 다음 명령을 입력하여 R1-Omni용 코드를 다운로드합니다:

git clone https://github.com/HumanMLLM/R1-Omni.git
cd R1-Omni

3. 구성 환경

R1-Omni는 R1-V 프레임워크를 기반으로 개발되었으므로 환경 설정은 R1-V 리포지토리를 참조하세요. 단계는 다음과 같습니다:

가상 환경을 만듭니다:

python -m venv venv
source venv/bin/activate  # Linux/macOS
venv\Scripts\activate     # Windows

종속성 패키지 설치: 다음 버전이 공식적으로 권장되며, 설치하려면 명령을 입력하세요:

pip install torch==2.5.1+cu124 torchvision==0.20.1+cu124 torchaudio==2.5.1+cu124 -f https://download.pytorch.org/whl/torch_stable.html
pip install transformers==4.49.0 flash-attn==2.7.4

참고: NVIDIA 드라이버 버전이 535.54 이상이어야 합니다. 전체 종속성 목록이 누락된 경우 R1-V 리포지토리를 참조하세요.

4. 모델 다운로드

R1-Omni는 허깅 페이스 또는 모델스코프에서 다운로드할 수 있는 여러 모델 버전을 제공합니다. 허깅 페이스가 예시로 사용됩니다:

인터뷰 허깅 페이스 R1-옴니.
다운로드 R1-Omni-0.5B 모델과 같은 로컬 경로에 저장합니다. /path/to/models/R1-Omni-0.5B.
종속성 모델을 다운로드합니다:
오디오 모델링:위스퍼-대형-V3다음에 저장 /path/to/models/whisper-large-v3.
시각적 모델링:siglip-base-patch16-224다음에 저장 /path/to/models/siglip-base-patch16-224.

5. 구성 파일 수정

존재 R1-Omni-0.5B 폴더에서 찾기 config.json를 클릭하고 텍스트 편집기로 열어 다음 두 줄을 수정합니다:

"mm_audio_tower": "/path/to/models/whisper-large-v3",
"mm_vision_tower": "/path/to/models/siglip-base-patch16-224"

파일을 저장하고 닫습니다.

기능 작동 흐름

1. 감정 인식 추론

R1-Omni 제공 inference.py 단일 동영상의 감정을 분석하기 위한 스크립트입니다. 작업 단계는 다음과 같습니다:

동영상 파일을 준비합니다(예 video.mp4), 영상과 소리가 있는지 확인하세요.

터미널에서 실행됩니다:

python inference.py --modal video_audio \
--model_path /path/to/models/R1-Omni-0.5B \
--video_path video.mp4 \
--instruct "As an emotional recognition expert; throughout the video, which emotion conveyed by the characters is the most obvious to you? Output the thinking process in <think> </think> and final emotion in <answer> </answer> tags."

출력 예시:

<think>视频中一名男子站在彩色壁画前，穿棕色夹克，眉头紧皱，嘴巴张开，表情显得激动。音频中有“降低声音”和“别慌”的词语，语速快且语气紧张。综合分析，他的情绪是愤怒和不安。</think>
<answer>angry</answer>

2. 모델 성능 테스트

모델 성능은 DFEW, MAFW 및 RAVDESS 데이터 세트에서 공식적으로 테스트되었습니다. 사용자는 이러한 데이터 세트를 다운로드(DFEW 공식 웹사이트 또는 MAFW 공식 웹사이트 참조)한 다음 위의 명령으로 로컬 효과를 확인할 수 있습니다. 비교 데이터는 다음과 같습니다:

R1-Omni는 DFEW(WAR)에서 65.831 TP3T를 기록하여 HumanOmni-0.5B의 22.641 TP3T보다 높습니다.

3. 맞춤형 교육

콜드 스타트 교육설명 가능한 다중 모드 감정 추론(232개 샘플) 및 휴먼 옴니(348개 샘플) 데이터 세트를 기반으로 모델을 초기화합니다. 데이터 형식 예시:
```
[{"video": "MER24/sample_00000967.mp4", "conversations": [{"from": "human", "value": "<video>\n<audio>\n请识别视频中的主要情绪"}, {"from": "gpt", "value": "<think>视频中一名男子在打电话，眉头紧皱，语速快，语气紧张，表现出焦虑。</think>\n<answer>anxious</answer>"}]}]
```
데이터는 아직 완전한 오픈 소스가 아니므로 GitHub에서 업데이트를 계속 주시하세요.
RLVR 교육MAFW 및 DFEW 데이터 세트 사용(총 15,306개 동영상). 데이터 형식의 예:
```
[{"video": "DFEW/videos/1.mp4", "conversations": [{"from": "human", "value": "<video>\n<audio>\n请识别视频中的主要情绪"}, {"from": "gpt", "value": "sad"}]}]
```
교육에 대한 자세한 내용은 추후 공식 발표를 기다리는 중입니다.

주의

비디오 요청MP4 등의 형식을 지원하며 선명한 화질과 오디오를 포함해야 합니다.
모델 선택R1-Omni는 최적의 성능을 갖춘 최종 버전이며, 다른 모델은 비교 실험을 위해 사용할 수 있습니다.
기술 지원문제가 있는 경우 GitHub에 이슈를 제출하면 팀에서 계속해서 문서를 개선해 나갈 것입니다.

위의 단계를 통해 사용자는 R1-Omni를 빠르게 설치하고 사용하여 감정 인식 기능을 경험할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

xiaozhi-esp32-server: 샤오지 AI 챗봇 오픈 소스 백엔드 서비스

8개월 전

089K

Text generation web UI：基于 Gradio 大语言模型聊天界面，支持多种后端服务

텍스트 생성 웹 UI: 여러 백엔드 서비스를 지원하는 라디오 기반 대규모 언어 모델 채팅 인터페이스

1 년 전

035K

비디오 오션: 텍스트 또는 이미지에서 사람들의 얼굴을 따라가는 동영상을 생성합니다.

1 년 전

032.3K

Gauth（Gauthmath）：使用AI解决作业问题，提供详细解答，字节旗下海外作业辅导APP

Gauth(고트매쓰): AI를 활용해 숙제 문제를 풀고 자세한 답을 제공하는 바이트의 해외 숙제 도움 앱입니다.

최신 AI 리소스 # AI 교육 도구

6개월 전

043.7K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

R1-Omni: 비디오와 오디오를 통해 감정을 분석하는 오픈 소스 모델

일반 소개

기능 목록

도움말 사용

설치 및 환경 설정

1. 시스템 요구 사항

2. 코드 액세스

3. 구성 환경

4. 모델 다운로드

5. 구성 파일 수정

기능 작동 흐름

1. 감정 인식 추론

2. 모델 성능 테스트

3. 맞춤형 교육

주의

프롬프트 탈옥 매뉴얼: AI의 한계를 뛰어넘는 프롬프트 디자인 가이드

Qdrant 벡터 검색 엔진에 구축된 MCP 서비스

관련 문서

xiaozhi-esp32-server: 샤오지 AI 챗봇 오픈 소스 백엔드 서비스

텍스트 생성 웹 UI: 여러 백엔드 서비스를 지원하는 라디오 기반 대규모 언어 모델 채팅 인터페이스

비디오 오션: 텍스트 또는 이미지에서 사람들의 얼굴을 따라가는 동영상을 생성합니다.

Gauth(고트매쓰): AI를 활용해 숙제 문제를 풀고 자세한 답을 제공하는 바이트의 해외 숙제 도움 앱입니다.

댓글 없음

최신 컬렉션

최신 기사

R1-Omni: 비디오와 오디오를 통해 감정을 분석하는 오픈 소스 모델

일반 소개

기능 목록

도움말 사용

설치 및 환경 설정

1. 시스템 요구 사항

2. 코드 액세스

3. 구성 환경

4. 모델 다운로드

5. 구성 파일 수정

기능 작동 흐름

1. 감정 인식 추론

2. 모델 성능 테스트

3. 맞춤형 교육

주의

프롬프트 탈옥 매뉴얼: AI의 한계를 뛰어넘는 프롬프트 디자인 가이드

Qdrant 벡터 검색 엔진에 구축된 MCP 서비스

관련 문서

xiaozhi-esp32-server: 샤오지 AI 챗봇 오픈 소스 백엔드 서비스

텍스트 생성 웹 UI: 여러 백엔드 서비스를 지원하는 라디오 기반 대규모 언어 모델 채팅 인터페이스

비디오 오션: 텍스트 또는 이미지에서 사람들의 얼굴을 따라가는 동영상을 생성합니다.

Gauth(고트매쓰): AI를 활용해 숙제 문제를 풀고 자세한 답을 제공하는 바이트의 해외 숙제 도움 앱입니다.

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사