Allgemeine Einführung
Transformatoren.js ist eine JavaScript-Bibliothek, die von Hugging Face zur Verfügung gestellt wird, um modernste maschinelle Lernmodelle direkt im Browser ohne Serverunterstützung auszuführen. Die Bibliothek ist funktional äquivalent zu Hugging Face's Transformers-Bibliothek für Python und unterstützt eine breite Palette von vortrainierten Modellen und Aufgaben, einschließlich der Verarbeitung natürlicher Sprache, Computer Vision und Audioverarbeitung. Das "llama-3.2-reasoning-webgpu"-Beispiel in diesem Projekt wurde entwickelt, um die Argumentationsfähigkeiten des LLama-3.2-Modells auf der WebGPU zu demonstrieren, so dass Benutzer effiziente Sprachmodelle direkt im Browser erleben können. Dieses Beispiel demonstriert nicht nur den Stand der Technik, sondern gibt auch einen Einblick, wie die Rechenleistung moderner Browser zur Bewältigung komplexer KI-Aufgaben genutzt werden kann.
Funktionsliste
- Ausführen des LLama-3.2-Modells in einem BrowserLeveraging WebGPU technology for efficient model inference.
- Demonstration der WebGPU-LeistungHervorhebung der Überlegenheit von WebGPUs durch Vergleich der Leistung auf verschiedenen Geräten.
- Bieten Sie eine interaktive BenutzererfahrungBenutzer können über eine einfache Schnittstelle mit dem Modell interagieren, Text eingeben und die Ergebnisse des Modells abrufen.
- Codebeispiele und TutorialsEnthält vollständige Code-Beispiele und Anweisungen zur Einrichtung und Ausführung des LLama-3.2-Modells.
Hilfe verwenden
Installations- und Konfigurationsumgebung
Da dieses Beispiel in einer Browserumgebung ausgeführt wird, sind keine besonderen Installationsschritte erforderlich, aber Sie müssen sicherstellen, dass Ihr Browser WebGPU unterstützt:
- Überprüfung der Browserunterstützung::
- Wenn Sie die Beispielseite öffnen, prüft der Browser automatisch, ob WebGPU unterstützt wird. Ist dies nicht der Fall, zeigt die Seite eine entsprechende Aufforderung an.
- WebGPU wird derzeit von den neuesten Versionen von Chrome, Edge und Firefox unterstützt. Für Safari-Nutzer müssen möglicherweise bestimmte experimentelle Funktionen aktiviert werden.
- Besuchen Sie die Musterseite::
- Direkter Zugriff über einen Link auf GitHub
lama-3.2-grundlagen-webgpu
Die Beispielseite der
- Direkter Zugriff über einen Link auf GitHub
Anwendungsbeispiel
- Modelle laden::
- Sobald die Seite geladen ist, wird sie automatisch mit dem Laden des LLama-3.2-Modells beginnen. Der Ladevorgang kann einige Minuten dauern, abhängig von Ihrer Internetgeschwindigkeit und der Leistung Ihres Geräts.
- Eingabetext::
- Sobald die Seite geladen ist, sehen Sie ein Texteingabefeld. Geben Sie in dieses Feld den Text ein, über den Sie nachdenken möchten.
- Argumentationsprozess::
- Klicken Sie auf die Schaltfläche "Reasoning" und das Modell beginnt mit der Verarbeitung Ihrer Eingaben. Bitte beachten Sie, dass der Reasoning-Prozess je nach Länge und Komplexität des Textes einige Zeit dauern kann.
- Ergebnisse anzeigen::
- Die Ergebnisse werden in einem weiteren Textfeld auf der Seite angezeigt. Das LLama-3.2-Modell generiert Schlussfolgerungsergebnisse auf der Grundlage Ihrer Eingabe, die eine Antwort auf eine Frage, eine Übersetzung oder eine andere Form der Verarbeitung des Textes sein kann.
- Fehlersuche und Leistungsüberwachung::
- Bei der Durchführung von Inferenzen kann die Seite Leistungsstatistiken wie die Geschwindigkeit der Inferenz (Token pro Sekunde, TPS) anzeigen. Dies hilft Ihnen, die Fähigkeiten der WebGPU und die Leistung des aktuellen Geräts zu verstehen.
Weitere Studien und Erkundungen
- Quellcode-StudieSie können eine gute Vorstellung davon bekommen, was vor sich geht, wenn Sie sich den Quellcode auf GitHub ansehen (insbesondere die
worker.js
Datei), um einen Einblick in die Funktionsweise des Modells im Browser zu erhalten. - Änderungen und BeiträgeWenn Sie interessiert sind, können Sie dieses Projekt klonen, um Änderungen vorzunehmen oder neue Funktionen beizutragen. Das Projekt verwendet die Reagieren Sie und Vite-Builds, und wenn Sie mit diesen Tools vertraut sind, können Sie relativ einfach entwickeln.
caveat
- Browser-KompatibilitätVergewissern Sie sich, dass Ihr Browser auf dem neuesten Stand ist, um eine optimale Nutzung zu gewährleisten.
- LeistungsabhängigkeitDa die Inferenz auf der Client-Seite stattfindet, wird die Leistung durch die Gerätehardware (insbesondere die GPU) beeinflusst.
- PrivatwirtschaftAlle Daten werden lokal verarbeitet und nicht auf einen Server hochgeladen, wodurch die Privatsphäre der Nutzerdaten geschützt wird.
Mit diesen Schritten und Anweisungen können Sie dieses Beispielprojekt vollständig erforschen und nutzen, um die Fortschritte der KI-Technologie in Ihrem Browser zu erleben.