HumanOmni: ein multimodales Makromodell zur Analyse menschlicher Videoemotionen und -handlungen

Neueste AI-RessourcenGeschrieben vor 6 Monaten AI-Austauschkreis

10.7K 00

Allgemeine Einführung

HumanOmni ist ein quelloffenes multimodales Big Model, das vom HumanMLLM-Team entwickelt und auf GitHub gehostet wird. Es konzentriert sich auf die Analyse von menschlichem Video und kann sowohl Bild als auch Ton verarbeiten, um Emotionen, Handlungen und Gesprächsinhalte zu verstehen. Das Projekt nutzte 2,4 Millionen menschenzentrierte Videoclips und 14 Millionen Anweisungsdaten für das Vortraining und 50.000 handbeschriftete Videoclips mit über 100.000 Anweisungen für die Feinabstimmung. humanOmni verarbeitet Gesichts-, Körper- und Interaktionsszenen in drei Zweigen und passt seinen Fusionsansatz dynamisch an die Eingaben an. Es ist das branchenweit erste menschenzentrierte multimodale Modell und übertrifft viele ähnliche Modelle. Das Team hat auch das darauf basierende R1-Omni auf den Markt gebracht, das zum ersten Mal Verstärkungslernen zur Verbesserung der Inferenz einsetzt. Der Code und einige der Datensätze sind für den einfachen Zugang von Forschern und Entwicklern offen.

Funktionsliste

EmotionserkennungAnalyse von Gesichtsausdrücken und Stimmtönen in Videos, um die Emotionen von Personen zu bestimmen, z. B. glücklich, wütend oder traurig.
Beschreibung von GesichtsausdrückenErkennen und Beschreiben von Gesichtszügen einer Person, z. B. Lächeln oder Stirnrunzeln.
Aktion VerstehenAnalysieren Sie die Bewegungen von Personen in einem Video und beschreiben Sie, was sie tun, z. B. gehen oder winken.
SprachverarbeitungExtrahieren von Inhalten aus Audio mit Unterstützung für Spracherkennung und Intonationsanalyse.
multimodale VerschmelzungKombinieren Sie Bild und Ton, um komplexe Szenen zu verstehen und genauere Analysen zu erstellen.
Dynamische AstanpassungHandhabung verschiedener Szenen mit drei Zweigen: Gesicht, Körper und Interaktion, automatische Anpassung der Gewichte.
Open-Source-Unterstützung:: Bereitstellung von Code, vortrainierten Modellen und Teildatensätzen zur Unterstützung der Sekundärentwicklung.

Hilfe verwenden

HumanOmni eignet sich für Benutzer mit einer technischen Basis, wie z.B. Entwickler oder Forscher. Die folgenden Installations- und Nutzungsschritte sind detailliert genug, um sofort loslegen zu können.

Einbauverfahren

Um HumanOmni auszuführen, müssen Sie zunächst Ihre Umgebung vorbereiten. Im Folgenden sind die einzelnen Schritte aufgeführt:

Hardware- und Softwareanforderungen prüfen
- Betriebssystem: Unterstützt Linux, Windows oder macOS.
- Python: erfordert Version 3.10 oder höher.
- CUDA: 12.1 oder höher empfohlen (bei Verwendung eines Grafikprozessors).
- PyTorch: Benötigt Version 2.2 oder höher mit CUDA-Unterstützung.
- Hardware: NVIDIA GPUs werden empfohlen, CPUs funktionieren, sind aber langsam.
Code herunterladen
Öffnen Sie ein Terminal und geben Sie den Befehl zum Herunterladen des Projekts ein:

git clone https://github.com/HumanMLLM/HumanOmni.git
cd HumanOmni

Erstellen einer virtuellen Umgebung
Erstellen Sie separate Umgebungen mit Conda, um Konflikte zu vermeiden:

conda create -n humanOmni python=3.10 -y
conda activate humanOmni

Installation von Abhängigkeiten
Das Projekt hat eine requirements.txt die die erforderlichen Bibliotheken auflistet. Führen Sie den folgenden Befehl aus, um sie zu installieren:

pip install --upgrade pip
pip install -r requirements.txt
pip install flash-attn --no-build-isolation

Download Modellgewichte
HumanOmni hat drei Modelle:

HumanOmni-Video: Verarbeitung von Video, 7B Parameter.
HumanOmni-Audio: Audioverarbeitung, 7B Parameter.
HumanOmni-OmniFusion von Video und Audio, 7B Parameter (HumanOmni genannt).
Laden Sie zum Beispiel von Hugging Face oder ModelScope herunter:
HumanOmni-7B
HumanOmni-7B-Video
Laden Sie es herunter und legen Sie es in den Projektordner.

Überprüfen der Installation
Überprüfen Sie die Umgebung mit dem Befehl test:

python inference.py --modal video --model_path ./HumanOmni_7B --video_path test.mp4 --instruct "Describe this video."

Wenn die Videobeschreibung ausgegeben wird, ist die Installation erfolgreich.

Funktion Betriebsablauf

Das Herzstück von HumanOmni ist die Analyse von Video und Audio. Im Folgenden finden Sie eine detaillierte Aufschlüsselung der wichtigsten Funktionen.

1. emotionale Identifikation

umziehen
Bereiten Sie ein Video vor, das eine Figur enthält (z. B. sample.mp4).
Befehl ausführen:

python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Which emotion is most obvious?"

Das Modell gibt Emotionen wie "wütend" oder "glücklich" aus.
zur Kenntnis nehmen
Das Video sollte klar und deutlich sein und die Mimik und Stimmen der Personen müssen erkennbar sein.
Längere Videos können mehr Rechenzeit erfordern.

2. die Beschreibung von Gesichtsausdrücken

umziehen
Geben Sie das Video ein und führen Sie es aus:

python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What’s the major facial expression?"

Die Ausgabe kann "Lächeln" oder "Stirnrunzeln" mit einer kurzen Beschreibung sein.
Anregung
Ein Test mit einem kurzen Video von 10-30 Sekunden funktioniert besser.

3. das Verständnis der Bewegung

umziehen
Geben Sie das Video ein und führen Sie es aus:

python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe the major action in detail."

Gibt eine Beschreibung der Aktion aus, z. B. "eine Person geht".
Finesse
Achten Sie darauf, dass die Aktion klar erkennbar ist, und vermeiden Sie Hintergrundgeräusche.

4. die Sprachverarbeitung

umziehen
Video mit Audio eingeben, ausführen:

python inference.py --modal audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What did the person say?"

Ausgabe von Sprachinhalten, z. B. "Hunde sitzen an der Tür".
zur Kenntnis nehmen
Der Ton sollte klar sein und am besten ohne Rauschen funktionieren.

5. multimodale Verschmelzung

umziehen
Video und Audio eingeben, ausführen:

python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe this video."

Das Modell wird eine vollständige Beschreibung in Verbindung mit Bild und Ton liefern.
Schneidkante
Fähigkeit, die Korrelation zwischen Emotionen und Handlungen für eine umfassendere Analyse zu erfassen.

6 Training mit benutzerdefinierten Datensätzen

umziehen
Bereiten Sie eine Datendatei im JSON-Format vor, die den Videopfad und den Befehlsdialog enthält. Zum Beispiel:

[
{
"video": "path/to/video.mp4",
"conversations": [
{"from": "human", "value": "What’s the emotion?"},
{"from": "gpt", "value": "sad"}
]
}
]

Herunterladen von HumanOmni-7B-Video im Gesang antworten HumanOmni-7B-Audio Gewichte.
Führen Sie das Trainingsskript aus:

bash scripts/train/finetune_humanomni.sh

verwenden.
Es ist möglich, das Modell mit Ihren eigenen Videodaten zu optimieren.

Häufig gestellte Fragen

LaufzeitfehlerÜberprüfen Sie, ob die Versionen von Python und PyTorch übereinstimmen.
Modell des BelastungsausfallsVergewissern Sie sich, dass der Pfad korrekt ist und genügend Speicherplatz auf der Festplatte vorhanden ist (etwa 10 GB für das Modell).
Die Ergebnisse sind nicht genau.Umschalten auf klares Video oder Anpassen der Darstellung von Anweisungen.

Mit diesen Schritten können Benutzer HumanOmni einfach installieren und verwenden und seine leistungsstarken Funktionen erleben.

Anwendungsszenario

Bildungsforschung
Analysieren Sie Videos aus dem Klassenzimmer, um die Stimmung und das Engagement der Schüler zu ermitteln und den Lehrern zu helfen, ihren Unterrichtsstil anzupassen.
medizinisch assistierend
Die Mimik und der Tonfall des Patienten helfen dem Arzt, psychische Zustände wie Angst oder Depression zu erkennen.
Film- und Fernsehproduktion
Analysieren Sie die Emotionen und Handlungen der Figuren, um Untertitel oder Handlungsbeschreibungen zu erstellen und die kreative Effizienz zu steigern.
Sozialanalytik
Wird für Konferenzvideos verwendet, um die Emotionen und das Verhalten der Teilnehmer zu verstehen und die Kommunikation zu optimieren.

QA

Welche Dateiformate werden unterstützt?
Unterstützt das MP4-Format, Audio muss in das Video eingebettet werden.
Brauche ich ein Netzwerk?
Nicht erforderlich. Laden Sie den Code und das Modell zur Offline-Nutzung herunter.
Wie ist die Leistung des Modells?
Was das emotionale Verständnis betrifft, so lag der UAR-Wert der DFEW-Daten von HumanOmni bei 74,861 TP3T und damit weit über dem Wert von GPT4-O (50,571 TP3T). Der Durchschnittswert für das Handlungsverständnis lag bei 72,6 und damit über dem Wert von Qwen2-VL-7B (67,7).
Können normale Menschen sie nutzen?
Grundlegende Programmierkenntnisse sind erforderlich. Wenn Sie nicht wissen, wie man programmiert, ist es empfehlenswert, einen Techniker um Hilfe zu bitten.