일반 소개
휴먼옴니는 HumanMLLM 팀이 개발한 오픈 소스 멀티모달 빅 모델로서 GitHub에서 호스팅됩니다. 휴먼 비디오 분석에 중점을 두고 있으며, 영상과 소리를 모두 처리하여 감정, 행동, 대화 내용을 이해하는 데 도움을 줄 수 있습니다. 이 프로젝트에는 사전 학습을 위해 240만 개의 인간 중심 비디오 클립과 1400만 개의 지침 데이터, 미세 조정을 위해 10만 개 이상의 지침이 포함된 5만 개의 수작업 라벨링 비디오 클립이 사용되었습니다. HumanOmni는 얼굴, 신체 및 상호 작용 장면을 세 가지 분기로 처리하고 입력에 따라 융합 방식을 동적으로 조정합니다. 업계 최초의 인간 중심 멀티모달 모델이며 다른 유사한 모델보다 성능이 뛰어납니다. 또한 이 모델을 기반으로 처음으로 강화 학습을 통합하여 추론을 개선한 R1-Omni를 출시했습니다. 코드와 일부 데이터 세트는 연구자와 개발자가 쉽게 액세스할 수 있도록 공개되어 있습니다.

기능 목록
- 감정 인식동영상에서 얼굴 표정과 음성 톤을 분석하여 행복, 화, 슬픔과 같은 캐릭터의 감정을 파악합니다.
- 표정 설명미소나 찡그린 표정 등 사람의 얼굴 세부 사항을 인식하고 묘사합니다.
- 액션 이해동영상 속 인물의 움직임을 분석하여 걷거나 손을 흔드는 등의 동작을 설명합니다.
- 음성 처리음성 인식 및 억양 분석을 지원하여 오디오에서 콘텐츠를 추출합니다.
- 멀티모달 융합영상과 사운드를 결합하여 복잡한 장면을 이해하고 더 정확한 분석을 제공합니다.
- 동적 지점 조정얼굴, 몸, 상호작용의 세 가지 분기로 다양한 장면을 처리하여 자동으로 가중치를 조정합니다.
- 오픈 소스 지원:: 2차 개발을 지원하기 위해 코드, 사전 학습된 모델 및 부분 데이터 세트를 제공합니다.
도움말 사용
휴먼옴니는 개발자나 연구원 등 기술 기반이 있는 사용자에게 적합합니다. 다음 설치 및 사용 단계는 바로 시작할 수 있을 만큼 상세하게 설명되어 있습니다.
설치 프로세스
휴먼옴니를 실행하려면 먼저 환경을 준비해야 합니다. 구체적인 단계는 다음과 같습니다:
- 하드웨어 및 소프트웨어 요구 사항 확인
- 운영 체제: Linux, Windows 또는 macOS를 지원합니다.
- Python: 버전 3.10 이상이 필요합니다.
- CUDA: 12.1 이상 권장(GPU를 사용하는 경우).
- PyTorch: CUDA를 지원하는 버전 2.2 이상이 필요합니다.
- 하드웨어: NVIDIA GPU를 권장하며, CPU도 작동하지만 속도가 느립니다.
- 코드 다운로드
터미널을 열고 명령을 입력하여 프로젝트를 다운로드합니다:
git clone https://github.com/HumanMLLM/HumanOmni.git
cd HumanOmni
- 가상 환경 만들기
충돌을 피하기 위해 Conda로 별도의 환경을 만드세요:
conda create -n humanOmni python=3.10 -y
conda activate humanOmni
- 종속성 설치
이 프로젝트에는requirements.txt
파일에 필요한 라이브러리가 나열되어 있습니다. 다음 명령을 실행하여 설치합니다:
pip install --upgrade pip
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
- 모델 가중치 다운로드
휴먼옴니에는 세 가지 모델이 있습니다:
HumanOmni-Video
비디오 처리, 7B 매개변수.HumanOmni-Audio
오디오 처리, 7B 파라미터.HumanOmni-Omni
비디오와 오디오의 융합, 7B 매개변수(휴먼옴니라고 함).
예를 들어 허깅 페이스 또는 모델스코프에서 다운로드하세요:- 휴먼옴니-7B
- 휴먼 옴니 7B 비디오
다운로드하여 프로젝트 폴더에 넣으세요.
- 설치 확인
테스트 명령으로 환경을 확인합니다:
python inference.py --modal video --model_path ./HumanOmni_7B --video_path test.mp4 --instruct "Describe this video."
동영상 설명이 출력되면 설치에 성공한 것입니다.
기능 작동 흐름
휴먼옴니의 핵심은 비디오와 오디오 분석입니다. 다음은 주요 기능의 작동 방식에 대한 자세한 분석입니다.
1. 감정 식별
- 이동
- 캐릭터가 포함된 동영상을 준비합니다(예
sample.mp4
). - 실행 명령을 실행합니다:
python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Which emotion is most obvious?"
- 이 모델은 '화' 또는 '행복'과 같은 감정을 출력합니다.
- 다음 사항에 유의하십시오.
- 동영상은 선명해야 하며 등장인물의 표정과 목소리를 알아볼 수 있어야 합니다.
- 동영상이 길어질수록 계산 시간이 더 많이 필요할 수 있습니다.
2. 표정 설명
- 이동
- 동영상을 입력하고 실행합니다:
python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What’s the major facial expression?"
- 출력은 간단한 설명과 함께 '미소' 또는 '찡그린 표정'이 될 수 있습니다.
- 제안
- 10~30초의 짧은 동영상으로 테스트하는 것이 더 효과적입니다.
3. 움직임 이해
- 이동
- 동영상을 입력하고 실행합니다:
python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe the major action in detail."
- "사람이 걷고 있습니다"와 같은 동작에 대한 설명을 출력합니다.
- 기교
- 동작이 명확해야 하고 배경이 어수선하지 않아야 합니다.
4. 음성 처리
- 이동
- 오디오와 함께 비디오를 입력하고 실행합니다:
python inference.py --modal audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What did the person say?"
- 음성 콘텐츠 출력(예: "개가 문 옆에 앉아 있어요").
- 다음 사항에 유의하십시오.
- 오디오는 선명하고 잡음 없이 가장 잘 작동해야 합니다.
5. 멀티모달 융합
- 이동
- 비디오 및 오디오를 입력하고 실행합니다:
python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe this video."
- 모델은 그림 및 사운드와 함께 전체 설명을 제공합니다.
- 최첨단
- 보다 포괄적인 분석을 위해 감정과 행동 간의 상관관계를 파악할 수 있습니다.
6. 사용자 지정 데이터 집합에 대한 교육
- 이동
- 동영상 경로와 명령 대화 상자가 포함된 JSON 형식의 데이터 파일을 준비합니다. 예를 들어
[
{
"video": "path/to/video.mp4",
"conversations": [
{"from": "human", "value": "What’s the emotion?"},
{"from": "gpt", "value": "sad"}
]
}
]
- 다운로드
HumanOmni-7B-Video
노래로 응답HumanOmni-7B-Audio
가중치. - 교육 스크립트를 실행합니다:
bash scripts/train/finetune_humanomni.sh
- 사용
- 자체 동영상 데이터로 모델을 최적화할 수 있습니다.
자주 묻는 질문
- 런타임 오류파이썬 버전과 파이토치 버전이 일치하는지 확인합니다.
- 모델 로드 실패경로가 올바른지, 디스크 공간이 충분한지 확인합니다(모델의 경우 약 10GB).
- 결과가 정확하지 않습니다.선명한 비디오로 전환하거나 지침 표시를 조정합니다.
이 단계를 통해 사용자는 휴먼옴니를 쉽게 설치 및 사용하고 강력한 기능을 경험할 수 있습니다.
애플리케이션 시나리오
- 교육 연구
교실 비디오를 분석하여 학생의 기분과 참여도를 파악하고 교사가 수업 스타일을 조정할 수 있도록 도와주세요. - 의료 지원
환자의 표정과 목소리 톤은 의사가 불안이나 우울증과 같은 심리 상태를 판단하는 데 도움이 됩니다. - 영화 및 텔레비전 제작
캐릭터의 감정과 행동을 분석하여 자막이나 줄거리 설명을 생성하여 크리에이티브 효율성을 높일 수 있습니다. - 소셜 분석
참가자의 감정과 행동을 이해하고 커뮤니케이션을 최적화하기 위해 회의 비디오에 사용됩니다.
QA
- 어떤 파일 형식이 지원되나요?
MP4 형식을 지원하며, 오디오는 동영상에 삽입해야 합니다. - 네트워크가 필요한가요?
필요하지 않습니다. 오프라인 사용을 위해 코드와 모델을 다운로드하세요. - 모델은 어떻게 작동하나요?
감정 이해도 측면에서 휴먼옴니의 DFEW 데이터 UAR은 74.861 TP3T로 GPT4-O의 50.571 TP3T를 훨씬 뛰어넘었으며, 행동 이해도 평균 점수는 72.6점으로 Qwen2-VL-7B의 67.7점보다 높았습니다. - 일반인도 사용할 수 있나요?
기본적인 프로그래밍 기술이 필요합니다. 코딩 방법을 모른다면 기술자에게 도움을 요청하는 것이 좋습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...