AI Personal Learning
und praktische Anleitung
CyberKnife-Zeichenspiegel

Audio-Reasoner: ein umfangreiches Sprachmodell zur Unterstützung von Audio-Deep-Reasoning

Allgemeine Einführung

Audio-Reasoner ist ein Open-Source-Projekt, das von einem Team an der Tsinghua-Universität entwickelt und auf GitHub gehostet wird. Es konzentriert sich auf die Entwicklung von groß angelegten Sprachmodellen, die tiefgreifende Schlussfolgerungen in Audio unterstützen. Das Modell basiert auf Qwen2-Audio-Instruct, das komplexes Reasoning und multimodales Verstehen von Audioinhalten durch die Einführung einer strukturierten Chain-of-Thought (CoT) Technologie ermöglicht. Das Projekt umfasst das Audio-Reasoner-7B-Modell und den kommenden CoTA-Datensatz (mit 1,2 Millionen hochwertigen Samples), der in den Benchmarks MMAU-mini und AIR-Bench-Chat eine führende Leistungsverbesserung von 25,42% bzw. 14,57% erzielt hat.Audio-Reasoner Audio-Reasoner ist ein ideales Werkzeug für Forscher und Entwickler, da es die Verarbeitung von Ton, Musik, Sprache und anderen Audiotypen unterstützt und sich für Audioanalysen und Szenarien zum Verstehen von Inhalten eignet.

Audio-Reasoner: ein umfangreiches Sprachmodell zur Unterstützung von Audio Deep Reasoning-1


 

Funktionsliste

  • Audio Deep ReasoningAnalyse von Audiodaten und Erarbeitung detaillierter Argumentationsprozesse und Ergebnisse durch strukturiertes Kettendenken.
  • Multimodale Aufgabenunterstützung: Kombination von Audio- und Texteingaben für cross-modale Verständnis- und Argumentationsaufgaben.
  • Mehrfache AudioverarbeitungUnterstützt die Erkennung und Analyse verschiedener Audiotypen wie Stimme, Musik, Sprache usw.
  • Leistungsstarke vortrainierte ModelleAudio-Reasoner-7B: Bietet das Modell Audio-Reasoner-7B an, das in mehreren Benchmark-Tests hervorragend abschneidet.
  • CoTA-DatensatzEnthält 1,2 Millionen Stichproben zur Unterstützung des strukturierten Inferenztrainings und der Verbesserung der Fähigkeiten von Modellen.
  • Reasoning Code und DemonstrationBietet vollständigen Inferenzcode und Demo-Beispiele für Benutzertests und Entwicklung.
  • Open-Source-Programm:: In Zukunft werden der Datensyntheseprozess und der Trainingscode offengelegt, um die Zusammenarbeit mit der Gemeinschaft zu erleichtern.

 

Hilfe verwenden

Ablauf der Installation

Die Installation von Audio-Reasoner erfordert die Konfiguration der Python-Umgebung und das Herunterladen der Modellgewichte. Im Folgenden werden die einzelnen Schritte beschrieben, um sicherzustellen, dass die Benutzer die Erstellung erfolgreich abschließen können:

1. ein GitHub-Repository klonen

Beginnen Sie damit, das Audio-Reasoner-Projekt lokal zu klonen. Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus:

git clone https://github.com/xzf-thu/Audio-Reasoner.git
cd Audio-Reasoner

Dadurch werden die Projektdateien lokal und in das Projektverzeichnis heruntergeladen.

2. eine virtuelle Umgebung erstellen und aktivieren

Um Abhängigkeitskonflikte zu vermeiden, empfiehlt es sich, mit Conda eine separate Python-Umgebung zu erstellen:

conda create -n Audio-Reasoner python=3.10
conda activate Audio-Reasoner

Dieser Befehl erstellt und aktiviert eine auf Python 3.10 basierende Umgebung namens "Audio-Reasoner".

3. die Installation von Abhängigkeitspaketen

Das Projekt bietet Anforderungen.txt Datei, die die notwendigen Abhängigkeiten enthält. Die Installationsschritte sind wie folgt:

pip install -r anforderungen.txt
pip install transformers==4.48.0

Achtung!Transformatoren Um eine stabile Modellleistung zu gewährleisten, muss Version 4.48.0 installiert werden. Installieren Sie zuerst die anderen Abhängigkeiten und geben Sie dann die Transformatoren Versionen, um Konflikte zu vermeiden.

4 Herunterladen von Modellgewichten

Das Audio-Reasoner-7B-Modell wurde auf HuggingFace veröffentlicht und muss manuell heruntergeladen und der Pfad konfiguriert werden:

  • Interviews Umarmungsgesicht Audio-Reasoner-7Bladen Sie die Modelldatei herunter.
  • Fügen Sie den heruntergeladenen Prüfpunktpfad in den Code in der letzter_model_checkpoint Variablen, zum Beispiel:
last_model_checkpoint = "/pfad/zu/Audio-Reasoner-7B"

Wie zu verwenden

Nach der Installation kann der Benutzer Audio-Reasoner per Code ausführen, um Audioaufgaben zu erledigen. Im Folgenden finden Sie eine detaillierte Bedienungsanleitung:

Schnellstart: Führen Sie den Beispielcode aus

Das Projekt bietet ein Schnellstart-Beispiel, mit dem die Benutzer die Funktionalität des Modells testen können:

  1. Vorbereiten von Audiodateien
    Standardmäßig verwendet es die projekteigene assets/test.wav Datei, oder Sie können sie durch Ihr eigenes WAV-formatiertes Audiomaterial ersetzen. Stellen Sie sicher, dass der Pfad korrekt ist.
  2. Audiopfade und Probleme bei der Bearbeitung von Code
    zeigen (eine Eintrittskarte) inferenz.py Oder verwenden Sie einfach den folgenden Code, um den Audiopfad festzulegen und Fragen zu stellen:

    audiopath = "assets/test.wav"
    prompt = "Was ist das rhythmische Gefühl und der Takt dieses Audios?"
    audioreasoner_gen(audiopath, prompt)
    
  3. laufendes Programm
    Führen Sie es im Terminal aus:

    conda Audio-Reasoner aktivieren
    cd Audio-Reasoner
    python inference.py
    

    Das Modell gibt strukturierte Inferenzergebnisse aus, darunter (planen, beschreiben, begründen, zusammenfassen) und (Endgültige Antwort).

Kernfunktionalität: Audio Deep Reasoning

Das Herzstück von Audio-Reasoner ist das Audio-Reasoning, das auf dem Kettenprinzip basiert, und so funktioniert es:

  1. Audioeingang und Probleme
    • ausnutzen audioreasoner_gen Funktion, wobei der Audiopfad und eine bestimmte Frage übergeben werden. Beispiel:
      audiopath = "Ihr_Audio.wav"
      prompt = "Ist ein Vogelruf im Audio zu hören?"
      audioreasoner_gen(audiopath, prompt)
      
  2. Inferenzausgabe anzeigen
    Das Modell liefert detaillierte Argumentationsprozesse, zum Beispiel:

    
    : Untersucht die Klangsignatur in den Audiodaten, um das Vorhandensein von Vogelstimmen zu erkennen.
    : Der Ton enthält natürliche Umgebungsgeräusche, möglicherweise Wind und Tierrufe.
    : Analysiert hochfrequente Klangmerkmale, um Vogelstimmenmuster zu erkennen.
    : Die Audiodaten enthalten möglicherweise Vogelstimmen.
    : Vogelstimmen können in den Audiodaten vorhanden sein.
    : Ja, es sind Vogelstimmen in der Tonaufnahme enthalten.
    
  3. Einstellung der Ausgangsparameter (optional)
    Wenn eine längere oder flexiblere Antwort erforderlich ist, kann sie geändert werden RequestConfig Parameter:

    request_config = RequestConfig(max_tokens=4096, temperature=0.5, stream=True)
    

Lokale Prüfung von voreingestellten Proben

Das Projekt verfügt über integrierte Test-Audios und Fragen zur schnellen Überprüfung:

conda Audio-Reasoner aktivieren
cd Audio-Reasoner
python inference.py

Nach der Ausführung zeigt das Terminal eine Beschreibung der assets/test.wav Die Ergebnisse der Analysen sind für erste Erfahrungen geeignet.

Merkmal: Multimodales Verstehen

Audio-Reasoner unterstützt die gemeinsame Analyse von Audio und Text. Beispiel:

prompt = "Stimmt die Stimmung dieser Musik mit der Beschreibung 'traurig' überein?"
audioreasoner_gen("sad_music.wav", prompt)

Das Modell kombiniert Audiomerkmale und Textsemantik, um Schlussfolgerungsergebnisse auszugeben.

Vorsichtsmaßnahmen und häufig gestellte Fragen

  • AudioformatEmpfohlenes WAV-Format, Abtastrate 16kHz, mono.
  • LangsamfahrendeWenn es langsam ist, prüfen Sie, ob die GPU aktiviert ist (erfordert PyTorch für CUDA).
  • Modell antwortet nichtÜberprüfen Sie, ob der Modellpfad korrekt ist und ob die Abhängigkeiten vollständig installiert sind.
  • AbhängigkeitskonfliktWenn die Installation fehlschlägt, versuchen Sie, eine neue Umgebung zu erstellen und die Abhängigkeiten in strikter Reihenfolge zu installieren.

Erweiterte Nutzung

  • Benutzerdefinierte Argumentationslogik:: Änderungen System Stichwortwörter zur Anpassung des Denkstils des Modells.
  • Stapeldatei:: Wille max_batch_size Setzen Sie den Wert auf einen höheren Wert (z. B. 128), um die gleichzeitige Inferenz mehrerer Audios zu unterstützen.
  • Kombiniert mit CoTA-DatensatzKünftige CoTA-Datensätze können zum weiteren Training oder zur Feinabstimmung des Modells verwendet werden, wenn sie veröffentlicht werden.
CDN1
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Audio-Reasoner: ein umfangreiches Sprachmodell zur Unterstützung von Audio-Deep-Reasoning

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)