AI Personal Learning
und praktische Anleitung

Petals: verteilte gemeinsame GPU-Ausführung und Feinabstimmung großer Sprachmodelle, gemeinsame Nutzung von GPU-Ressourcen wie ein BitTorrent-Netzwerk

Allgemeine Einführung

Petals ist ein Open-Source-Projekt, das vom BigScience Workshop entwickelt wurde, um große Sprachmodelle (Large Language Models, LLMs) über einen verteilten Rechenansatz auszuführen. Benutzer können LLMs wie Llama 3.1, Mixtral, Falcon und BLOOM zu Hause mit Consumer-GPUs oder Google Colab ausführen und feinabstimmen. Petals verwendet einen BitTorrent-ähnlichen Ansatz, um verschiedene Teile des Modells auf die Geräte mehrerer Benutzer zu verteilen, was eine effiziente Inferenz und Feinabstimmung ermöglicht.

Petals: verteilte Inferenz, Feinabstimmung großer Sprachmodelle, gemeinsame Nutzung von GPU-Ressourcen wie ein BitTorrent-Netzwerk-1


 

Funktionsliste

  • Ausführen großer SprachmodelleUnterstützt werden die Modelle Llama 3.1 (bis zu 405B), Mixtral (8x22B), Falcon (40B+) und BLOOM (176B).
  • verteilte SchlussfolgerungAusführen des Modells über ein verteiltes Netzwerk mit Single-Batch-Inferenzgeschwindigkeiten von bis zu 6 Token/Sek. (Llama 2 70B) und 4 Token/Sek. (Falcon 180B).
  • Schnelle FeinabstimmungUnterstützung für eine schnelle Feinabstimmung der Modelle durch den Benutzer für eine Vielzahl von Aufgaben.
  • von der Gemeinschaft gesteuertAuf der Grundlage einer Gemeinschaft von Nutzern, die GPU-Ressourcen gemeinsam nutzen, können Nutzer ihre eigenen GPUs beisteuern, um die Rechenleistung von Petals zu erhöhen.
  • Flexible APIPyTorch: Bietet eine flexible API ähnlich wie PyTorch und Transformers, mit Unterstützung für benutzerdefinierte Pfade und die Anzeige von versteckten Status.
  • DatenschutzDatenverarbeitung: Die Datenverarbeitung erfolgt über ein öffentliches Netz, und die Benutzer können private Netze einrichten, um sensible Daten zu schützen.

 

Hilfe verwenden

Installation und Nutzung

  1. Installation von Abhängigkeiten::
    • Linux + Anaconda::
      conda install pytorch pytorch-cuda=11.7 -c pytorch -c nvidia
      pip install git+https://github.com/bigscience-workshop/petals
      python -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
      
    • Fenster + WSLBitte beachten Sie Wiki.
    • Docker::
      sudo docker run -p 31330:31330 --ipc host --gpus all --volume petals-cache:/cache --rm \
      learningathome/petals:main \
      python -m petals.cli.run_server --port 31330 meta-llama/Meta-Llama-3.1-405B-Instruct
      
    • macOS + Apple M1/M2-GPUs::
      brew install python
      python3 -m pip install git+https://github.com/bigscience-workshop/petals
      python3 -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
      
  2. Betriebsmodell::
    • Wählen Sie eines der verfügbaren Modelle aus, zum Beispiel:
      from transformers import AutoTokenizer
      from petals import AutoDistributedModelForCausalLM
      modell_name = "meta-llama/Meta-Llama-3.1-405B-Instruct"
      tokenizer = AutoTokenizer.from_pretrained(model_name)
      model = AutoDistributedModelForCausalLM.from_pretrained(model_name)
      inputs = tokeniser("Eine Katze saß", return_tensors="pt")["input_ids"]
      outputs = model.generate(inputs, max_new_tokens=5)
      print(tokeniser.decode(outputs[0]))
      
  3. Beitrag GPU::
    • Die Nutzer können die Rechenleistung von Petals durch den Anschluss eines Grafikprozessors erhöhen. Modell Nabe.

Hauptfunktionen

  1. Modell auswählen: Zugang Blütenblätter Website das gewünschte Modell aus.
  2. Modelle ladenLaden Sie das Modell und führen Sie es gemäß den oben beschriebenen Installationsschritten aus.
  3. Feinabstimmung des ModellsVerwenden Sie die von Petals bereitgestellte API zur Feinabstimmung des Modells für eine Vielzahl von Aufgaben.
  4. Text generierenTextgenerierung über verteilte Netzwerke für Chatbots und interaktive Anwendungen.
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Petals: verteilte gemeinsame GPU-Ausführung und Feinabstimmung großer Sprachmodelle, gemeinsame Nutzung von GPU-Ressourcen wie ein BitTorrent-Netzwerk

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)