휴먼옴니: 사람의 비디오 감정과 행동을 분석하기 위한 멀티모달 매크로 모델

38.3K 00

일반 소개

휴먼옴니는 HumanMLLM 팀이 개발한 오픈 소스 멀티모달 빅 모델로서 GitHub에서 호스팅됩니다. 휴먼 비디오 분석에 중점을 두고 있으며, 영상과 소리를 모두 처리하여 감정, 행동, 대화 내용을 이해하는 데 도움을 줄 수 있습니다. 이 프로젝트에는 사전 학습을 위해 240만 개의 인간 중심 비디오 클립과 1400만 개의 지침 데이터, 미세 조정을 위해 10만 개 이상의 지침이 포함된 5만 개의 수작업 라벨링 비디오 클립이 사용되었습니다. HumanOmni는 얼굴, 신체 및 상호 작용 장면을 세 가지 분기로 처리하고 입력에 따라 융합 방식을 동적으로 조정합니다. 업계 최초의 인간 중심 멀티모달 모델이며 다른 유사한 모델보다 성능이 뛰어납니다. 또한 이 모델을 기반으로 처음으로 강화 학습을 통합하여 추론을 개선한 R1-Omni를 출시했습니다. 코드와 일부 데이터 세트는 연구자와 개발자가 쉽게 액세스할 수 있도록 공개되어 있습니다.

기능 목록

감정 인식동영상에서 얼굴 표정과 음성 톤을 분석하여 행복, 화, 슬픔과 같은 캐릭터의 감정을 파악합니다.
표정 설명미소나 찡그린 표정 등 사람의 얼굴 세부 사항을 인식하고 묘사합니다.
액션 이해동영상 속 인물의 움직임을 분석하여 걷거나 손을 흔드는 등의 동작을 설명합니다.
음성 처리음성 인식 및 억양 분석을 지원하여 오디오에서 콘텐츠를 추출합니다.
멀티모달 융합영상과 사운드를 결합하여 복잡한 장면을 이해하고 더 정확한 분석을 제공합니다.
동적 지점 조정얼굴, 몸, 상호작용의 세 가지 분기로 다양한 장면을 처리하여 자동으로 가중치를 조정합니다.
오픈 소스 지원:: 2차 개발을 지원하기 위해 코드, 사전 학습된 모델 및 부분 데이터 세트를 제공합니다.

도움말 사용

휴먼옴니는 개발자나 연구원 등 기술 기반이 있는 사용자에게 적합합니다. 다음 설치 및 사용 단계는 바로 시작할 수 있을 만큼 상세하게 설명되어 있습니다.

설치 프로세스

휴먼옴니를 실행하려면 먼저 환경을 준비해야 합니다. 구체적인 단계는 다음과 같습니다:

하드웨어 및 소프트웨어 요구 사항 확인
- 운영 체제: Linux, Windows 또는 macOS를 지원합니다.
- Python: 버전 3.10 이상이 필요합니다.
- CUDA: 12.1 이상 권장(GPU를 사용하는 경우).
- PyTorch: CUDA를 지원하는 버전 2.2 이상이 필요합니다.
- 하드웨어: NVIDIA GPU를 권장하며, CPU도 작동하지만 속도가 느립니다.
코드 다운로드
터미널을 열고 명령을 입력하여 프로젝트를 다운로드합니다:

git clone https://github.com/HumanMLLM/HumanOmni.git
cd HumanOmni

가상 환경 만들기
충돌을 피하기 위해 Conda로 별도의 환경을 만드세요:

conda create -n humanOmni python=3.10 -y
conda activate humanOmni

종속성 설치
이 프로젝트에는 requirements.txt 파일에 필요한 라이브러리가 나열되어 있습니다. 다음 명령을 실행하여 설치합니다:

pip install --upgrade pip
pip install -r requirements.txt
pip install flash-attn --no-build-isolation

모델 가중치 다운로드
휴먼옴니에는 세 가지 모델이 있습니다:

HumanOmni-Video비디오 처리, 7B 매개변수.
HumanOmni-Audio오디오 처리, 7B 파라미터.
HumanOmni-Omni비디오와 오디오의 융합, 7B 매개변수(휴먼옴니라고 함).
예를 들어 허깅 페이스 또는 모델스코프에서 다운로드하세요:
휴먼옴니-7B
휴먼 옴니 7B 비디오
다운로드하여 프로젝트 폴더에 넣으세요.

설치 확인
테스트 명령으로 환경을 확인합니다:

python inference.py --modal video --model_path ./HumanOmni_7B --video_path test.mp4 --instruct "Describe this video."

동영상 설명이 출력되면 설치에 성공한 것입니다.

기능 작동 흐름

휴먼옴니의 핵심은 비디오와 오디오 분석입니다. 다음은 주요 기능의 작동 방식에 대한 자세한 분석입니다.

1. 감정 식별

이동
캐릭터가 포함된 동영상을 준비합니다(예 sample.mp4).
실행 명령을 실행합니다:

python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Which emotion is most obvious?"

이 모델은 '화' 또는 '행복'과 같은 감정을 출력합니다.
다음 사항에 유의하십시오.
동영상은 선명해야 하며 등장인물의 표정과 목소리를 알아볼 수 있어야 합니다.
동영상이 길어질수록 계산 시간이 더 많이 필요할 수 있습니다.

2. 표정 설명

이동
동영상을 입력하고 실행합니다:

python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What’s the major facial expression?"

출력은 간단한 설명과 함께 '미소' 또는 '찡그린 표정'이 될 수 있습니다.
제안
10~30초의 짧은 동영상으로 테스트하는 것이 더 효과적입니다.

3. 움직임 이해

이동
동영상을 입력하고 실행합니다:

python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe the major action in detail."

"사람이 걷고 있습니다"와 같은 동작에 대한 설명을 출력합니다.
기교
동작이 명확해야 하고 배경이 어수선하지 않아야 합니다.

4. 음성 처리

이동
오디오와 함께 비디오를 입력하고 실행합니다:

python inference.py --modal audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What did the person say?"

음성 콘텐츠 출력(예: "개가 문 옆에 앉아 있어요").
다음 사항에 유의하십시오.
오디오는 선명하고 잡음 없이 가장 잘 작동해야 합니다.

5. 멀티모달 융합

이동
비디오 및 오디오를 입력하고 실행합니다:

python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe this video."

모델은 그림 및 사운드와 함께 전체 설명을 제공합니다.
최첨단
보다 포괄적인 분석을 위해 감정과 행동 간의 상관관계를 파악할 수 있습니다.

6. 사용자 지정 데이터 집합에 대한 교육

이동
동영상 경로와 명령 대화 상자가 포함된 JSON 형식의 데이터 파일을 준비합니다. 예를 들어

[
{
"video": "path/to/video.mp4",
"conversations": [
{"from": "human", "value": "What’s the emotion?"},
{"from": "gpt", "value": "sad"}
]
}
]

다운로드 HumanOmni-7B-Video 노래로 응답 HumanOmni-7B-Audio 가중치.
교육 스크립트를 실행합니다:

bash scripts/train/finetune_humanomni.sh

사용
자체 동영상 데이터로 모델을 최적화할 수 있습니다.

자주 묻는 질문

런타임 오류파이썬 버전과 파이토치 버전이 일치하는지 확인합니다.
모델 로드 실패경로가 올바른지, 디스크 공간이 충분한지 확인합니다(모델의 경우 약 10GB).
결과가 정확하지 않습니다.선명한 비디오로 전환하거나 지침 표시를 조정합니다.

이 단계를 통해 사용자는 휴먼옴니를 쉽게 설치 및 사용하고 강력한 기능을 경험할 수 있습니다.

애플리케이션 시나리오

교육 연구
교실 비디오를 분석하여 학생의 기분과 참여도를 파악하고 교사가 수업 스타일을 조정할 수 있도록 도와주세요.
의료 지원
환자의 표정과 목소리 톤은 의사가 불안이나 우울증과 같은 심리 상태를 판단하는 데 도움이 됩니다.
영화 및 텔레비전 제작
캐릭터의 감정과 행동을 분석하여 자막이나 줄거리 설명을 생성하여 크리에이티브 효율성을 높일 수 있습니다.
소셜 분석
참가자의 감정과 행동을 이해하고 커뮤니케이션을 최적화하기 위해 회의 비디오에 사용됩니다.

QA

어떤 파일 형식이 지원되나요?
MP4 형식을 지원하며, 오디오는 동영상에 삽입해야 합니다.
네트워크가 필요한가요?
필요하지 않습니다. 오프라인 사용을 위해 코드와 모델을 다운로드하세요.
모델은 어떻게 작동하나요?
감정 이해도 측면에서 휴먼옴니의 DFEW 데이터 UAR은 74.861 TP3T로 GPT4-O의 50.571 TP3T를 훨씬 뛰어넘었으며, 행동 이해도 평균 점수는 72.6점으로 Qwen2-VL-7B의 67.7점보다 높았습니다.
일반인도 사용할 수 있나요?
기본적인 프로그래밍 기술이 필요합니다. 코딩 방법을 모른다면 기술자에게 도움을 요청하는 것이 좋습니다.