Zusammenfassung: Elon Musk und xAI haben soeben die Gewichte und die Architektur ihres gewaltigen parametrischen 314B-Sprachmodells Grok-1 unter der Open-Source-Lizenz Apache 2.0 veröffentlicht.
Wir haben die Gewichte und die Architektur unseres 314 Milliarden Parameter umfassenden Mixture-of-Experts-Modells Grok-1 veröffentlicht. Dies ist der ursprüngliche Basismodell-Checkpoint für Grok-1 in der Pre-Trainingsphase im Oktober 2023 und wurde nicht für eine bestimmte Anwendung feinabgestimmt. Das Modell wurde mit großen Mengen von Textdaten trainiert, wobei benutzerdefinierte Trainingsstacks auf JAX und Rust verwendet wurden. Die Gewichte und die Architektur werden unter der Apache 2.0-Lizenz veröffentlicht. Um das Modell zu verwenden, finden Sie das Modell in der github.com/xai-org/grok Sehen Sie sich die Anweisungen an.
Einzelheiten.
Grok-1 ist ein hybrides Expertenmodell, bei dem nur 25% Gewichte für ein bestimmtes Eingabe-Token aktiv sind, um eine effizientere Berechnung zu ermöglichen.
Bei den veröffentlichten Modellen handelt es sich um untrainierte Kontrollpunkte vom Oktober 2023, die nicht auf eine bestimmte Aufgabe abgestimmt wurden.
xAI stellt auf seinem GitHub-Repository eine Anleitung für Entwickler zur Verfügung und hat das Modell auf Hugging Face veröffentlicht.
Bedeutung: Durch das Open-Sourcing eines der weltweit größten LLMs ist xAI dem, was Musk als moralischen Kampf gegen das geschlossene Modell von OpenAI ansieht, einen Schritt voraus. Auch wenn die Funktionen von Grok noch keine neuen Barrieren durchbrochen haben, ist dieser Schritt ein weiterer großer Sieg für die kollaborative und transparente KI-Entwicklung.