AI Personal Learning
und praktische Anleitung
CyberKnife-Zeichenspiegel

HumanOmni: ein multimodales Makromodell zur Analyse menschlicher Videoemotionen und -handlungen

Allgemeine Einführung

HumanOmni ist ein quelloffenes multimodales Makromodell, das vom HumanMLLM-Team entwickelt und auf GitHub gehostet wird. Es konzentriert sich auf die Analyse von menschlichen Videos und kann sowohl Bild als auch Ton verarbeiten, um Emotionen, Handlungen und Gesprächsinhalte zu verstehen. Im Rahmen des Projekts wurden 2,4 Millionen menschenbezogene Videoclips und 14 Millionen Befehlsdaten für das Vortraining und 50.000 handbeschriftete Videoclips mit über 100.000 Befehlen für die Feinabstimmung verwendet. HumanOmni verarbeitet Gesichts-, Körper- und Interaktionsszenarien in drei Zweigen und passt die Fusionsmethoden dynamisch an die Eingaben an. Es ist das branchenweit erste menschenzentrierte multimodale Modell und übertrifft viele ähnliche Modelle. Das Team hat auch das darauf basierende R1-Omni auf den Markt gebracht, das zum ersten Mal Verstärkungslernen zur Verbesserung der Inferenz einsetzt. Der Code und einige der Datensätze sind für den einfachen Zugang von Forschern und Entwicklern offen.

HumanOmni: ein multimodales Makromodell für die Analyse menschlicher Videoemotionen und -handlungen-1


 

Funktionsliste

  • EmotionserkennungAnalyse von Gesichtsausdrücken und Stimmtönen in Videos, um die Emotionen von Personen zu bestimmen, z. B. glücklich, wütend oder traurig.
  • Beschreibung von GesichtsausdrückenErkennen und Beschreiben von Gesichtszügen einer Person, z. B. Lächeln oder Stirnrunzeln.
  • Aktion VerstehenAnalysieren Sie die Bewegungen von Personen in einem Video und beschreiben Sie, was sie tun, z. B. gehen oder winken.
  • SprachverarbeitungExtrahieren von Inhalten aus Audio mit Unterstützung für Spracherkennung und Intonationsanalyse.
  • multimodale VerschmelzungKombinieren Sie Bild und Ton, um komplexe Szenen zu verstehen und genauere Analysen zu erstellen.
  • Dynamische AstanpassungHandhabung verschiedener Szenen mit drei Zweigen: Gesicht, Körper und Interaktion, automatische Anpassung der Gewichte.
  • Open-Source-Unterstützung:: Bereitstellung von Code, vortrainierten Modellen und Teildatensätzen zur Unterstützung der Sekundärentwicklung.

 

Hilfe verwenden

HumanOmni eignet sich für Benutzer mit einer technischen Basis, wie z.B. Entwickler oder Forscher. Die folgenden Installations- und Nutzungsschritte sind detailliert genug, um sofort loslegen zu können.

Ablauf der Installation

Um HumanOmni auszuführen, müssen Sie zunächst Ihre Umgebung vorbereiten. Im Folgenden sind die einzelnen Schritte aufgeführt:

  1. Hardware- und Softwareanforderungen prüfen
    • Betriebssystem: Unterstützt Linux, Windows oder macOS.
    • Python: erfordert Version 3.10 oder höher.
    • CUDA: 12.1 oder höher empfohlen (bei Verwendung eines Grafikprozessors).
    • PyTorch: Benötigt Version 2.2 oder höher mit CUDA-Unterstützung.
    • Hardware: NVIDIA GPUs werden empfohlen, CPUs funktionieren, sind aber langsam.
  2. Code herunterladen
    Öffnen Sie ein Terminal und geben Sie den Befehl zum Herunterladen des Projekts ein:
git clone https://github.com/HumanMLLM/HumanOmni.git
cd HumanOmni
  1. Erstellen einer virtuellen Umgebung
    Erstellen Sie separate Umgebungen mit Conda, um Konflikte zu vermeiden:
conda create -n humanOmni python=3.10 -y
conda activate humanOmni
  1. Installation von Abhängigkeiten
    Das Projekt hat eine Anforderungen.txt die die erforderlichen Bibliotheken auflistet. Führen Sie den folgenden Befehl aus, um sie zu installieren:
pip install --upgrade pip
pip install --r anforderungen.txt
pip install flash-attn --no-build-isolation
  1. Download Modellgewichte
    HumanOmni hat drei Modelle:
  • HumanOmni-Video: Verarbeitung von Video, 7B Parameter.
  • HumanOmni-Audio: Audioverarbeitung, 7B Parameter.
  • MenschOmni-OmniFusion von Video und Audio, 7B Parameter (HumanOmni genannt).
    Laden Sie zum Beispiel von Hugging Face oder ModelScope herunter:
  • HumanOmni-7B
  • HumanOmni-7B-Video
    Laden Sie es herunter und legen Sie es in den Projektordner.
  1. Überprüfen der Installation
    Überprüfen Sie die Umgebung mit dem Befehl test:
python inference.py ---modal video ---model_path . /HumanOmni_7B --video_path test.mp4 --instruct "Beschreiben Sie dieses Video."

Wenn die Videobeschreibung ausgegeben wird, ist die Installation erfolgreich.

Funktion Betriebsablauf

Das Herzstück von HumanOmni ist die Analyse von Video und Audio. Im Folgenden finden Sie eine detaillierte Aufschlüsselung der wichtigsten Funktionen.

1. emotionale Identifikation

  • umziehen
  • Bereiten Sie ein Video vor, das eine Figur enthält (z. B. Beispiel.mp4).
  • Befehl ausführen:
python inference.py --modal video_audio --model_path . /HumanOmni_7B --video_path sample.mp4 --instruct "Welche Emotion ist am offensichtlichsten?"
  • Das Modell gibt Emotionen wie "wütend" oder "glücklich" aus.
  • zur Kenntnis nehmen
  • Das Video sollte klar und deutlich sein und die Mimik und Stimmen der Personen müssen erkennbar sein.
  • Längere Videos können mehr Rechenzeit erfordern.

2. die Beschreibung von Gesichtsausdrücken

  • umziehen
  • Geben Sie das Video ein und führen Sie es aus:
python inference.py ---modal video ---model_path . /HumanOmni_7B --video_path sample.mp4 --instruct "Was ist der wichtigste Gesichtsausdruck?"
  • Die Ausgabe kann "Lächeln" oder "Stirnrunzeln" mit einer kurzen Beschreibung sein.
  • Anregung
  • Ein Test mit einem kurzen Video von 10-30 Sekunden funktioniert besser.

3. das Verständnis der Bewegung

  • umziehen
  • Geben Sie das Video ein und führen Sie es aus:
python inference.py ---modal video ---model_path . /HumanOmni_7B --video_path sample.mp4 --instruct "Beschreiben Sie die Hauptaktion im Detail."
  • Gibt eine Beschreibung der Aktion aus, z. B. "eine Person geht".
  • Fähigkeiten
  • Achten Sie darauf, dass die Aktion klar erkennbar ist, und vermeiden Sie Hintergrundgeräusche.

4. die Sprachverarbeitung

  • umziehen
  • Video mit Audio eingeben, ausführen:
python inference.py ---modal audio ---model_path . /HumanOmni_7B --video_path sample.mp4 --instruct "Was hat die Person gesagt?"
  • Ausgabe von Sprachinhalten, z. B. "Hunde sitzen an der Tür".
  • zur Kenntnis nehmen
  • Der Ton sollte klar sein und am besten ohne Rauschen funktionieren.

5. multimodale Verschmelzung

  • umziehen
  • Video und Audio eingeben, ausführen:
python inference.py --modal video_audio ---model_path . /HumanOmni_7B --video_path sample.mp4 --instruct "Beschreiben Sie dieses Video."
  • Das Modell wird eine vollständige Beschreibung in Verbindung mit Bild und Ton liefern.
  • Schneidkante
  • Fähigkeit, die Korrelation zwischen Emotionen und Handlungen für eine umfassendere Analyse zu erfassen.

6 Training mit benutzerdefinierten Datensätzen

  • umziehen
  • Bereiten Sie eine Datendatei im JSON-Format vor, die den Videopfad und den Befehlsdialog enthält. Zum Beispiel:
[
{
"video": "pfad/zu/video.mp4",
"conversations": [

{"von": "gpt", "wert": "traurig"}
]
}
]
  • Herunterladen von HumanOmni-7B-Video im Gesang antworten HumanOmni-7B-Audio Gewichte.
  • Führen Sie das Trainingsskript aus:
bash skripte/train/finetune_humanomni.sh
  • verwenden.
  • Es ist möglich, das Modell mit Ihren eigenen Videodaten zu optimieren.

Häufig gestellte Fragen

  • LaufzeitfehlerÜberprüfen Sie, ob die Versionen von Python und PyTorch übereinstimmen.
  • Modell des BelastungsausfallsVergewissern Sie sich, dass der Pfad korrekt ist und genügend Speicherplatz auf der Festplatte vorhanden ist (etwa 10 GB für das Modell).
  • Die Ergebnisse sind nicht genau.Umschalten auf klares Video oder Anpassen der Darstellung von Anweisungen.

Mit diesen Schritten können Benutzer HumanOmni einfach installieren und verwenden und seine leistungsstarken Funktionen erleben.

 

Anwendungsszenario

  1. Bildungsforschung
    Analysieren Sie Videos aus dem Klassenzimmer, um die Stimmung und das Engagement der Schüler zu ermitteln und den Lehrern zu helfen, ihren Unterrichtsstil anzupassen.
  2. medizinisch assistierend
    Die Mimik und der Tonfall des Patienten helfen dem Arzt, psychische Zustände wie Angst oder Depression zu erkennen.
  3. Film- und Fernsehproduktion
    Analysieren Sie die Emotionen und Handlungen der Figuren, um Untertitel oder Handlungsbeschreibungen zu erstellen und die kreative Effizienz zu steigern.
  4. Sozialanalytik
    Wird für Konferenzvideos verwendet, um die Emotionen und das Verhalten der Teilnehmer zu verstehen und die Kommunikation zu optimieren.

 

QA

  1. Welche Dateiformate werden unterstützt?
    Unterstützt das MP4-Format, Audio muss in das Video eingebettet werden.
  2. Brauche ich ein Netzwerk?
    Nicht erforderlich. Laden Sie den Code und das Modell zur Offline-Nutzung herunter.
  3. Wie ist die Leistung des Modells?
    Was das emotionale Verständnis betrifft, so lag der UAR-Wert der DFEW-Daten von HumanOmni bei 74,861 TP3T und damit weit über dem Wert von GPT4-O (50,571 TP3T). Der Durchschnittswert für das Handlungsverständnis lag bei 72,6 und damit über dem Wert von Qwen2-VL-7B (67,7).
  4. Können normale Menschen sie nutzen?
    Grundlegende Programmierkenntnisse sind erforderlich. Wenn Sie nicht wissen, wie man programmiert, ist es empfehlenswert, einen Techniker um Hilfe zu bitten.
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " HumanOmni: ein multimodales Makromodell zur Analyse menschlicher Videoemotionen und -handlungen

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)