Welche Version ist die beste, um DeepSeek-R1 große Modelle mit RTX 4090 Grafikkarte auszuführen?

AI-AntwortenGeschrieben vor 7 Monaten AI-Austauschkreis

18.5K 00

DeepSeek-R1 läuft mit einer RTX 4090 Grafikkarte.Empfohlene Präferenz für Q4_K_M quantisiert 671B Vollblutversion, gefolgt von einer quantisierten Version von 14B oder 32B, sofern sie auf KTransformern basiert, und wenn es eine Qual ist, die Untuch Es wurde eine quantitative Version eingeführt, und hier ist eine weitere Ollama Anleitung zur Installation DeepSeek R1 671B Tutorial zum lokalen Einsatz: Basierend auf Ollama und dynamischer QuantisierungEs kommt darauf an, ob Sie "extreme Leistung" oder "mehr Geschwindigkeit" benötigen. Hängt davon ab, ob Sie "extreme Leistung" oder "mehr Geschwindigkeit" benötigen.

1️⃣ RTX 4090 Die Vollblutversion (671B) läuft auch?

Ja! Das Team der Tsinghua KTransformatoren Lassen Sie eine einzige 4090-Grafikkarte die Vollblutversion laufen.

VGA-SpeicherbedarfDie Q4_K_M Quantised Edition benötigt nur 14 GB Videospeicher, und die 24 GB des 4090 sind vollkommen ausreichend.
TempoVorverarbeitungsgeschwindigkeiten von bis zu 286 Wörtern/Sekunde und Erzeugungsgeschwindigkeiten von etwa 14 Wörtern/Sekunde sind für den Durchschnittsbürger bereits zu viel.
SzenarioAufgaben, die komplexes Denken erfordern, wie z. B. das Schreiben von Code, Dialoge mit mehreren Runden.

2️⃣ Wenn es zu langsam ist? Versuchen Sie eine kleinere Version

Wenn Sie 14 Wörter/Sekunde zu langsam finden, können Sie ein kleineres Modell wählen:

14B quantisierte VersionDer Grafikspeicherbedarf liegt bei etwa 6,5 GB, was höhere Geschwindigkeiten beim täglichen Schreiben und Übersetzen ermöglicht.
32B quantisierte VersionBenötigt 14,9 GB Videospeicher und unterstützt die Verarbeitung langer Texte (z. B. die Analyse ganzer Zeitungen).

3️⃣ Warum läuft stattdessen die Vollblutversion?

Hier ist ein technischer Trick:Quantitative + rechnerische Entlastung.

quantifizierbarKomprimierung" des Modells auf eine kleinere Größe, z. B. 4-Bit-Quantisierung (Q4), reduziert den Speicherbedarf um 701 TP3T.
Entladung berechnenDie GPU soll nur das tun, was sie am besten kann: Unwichtige Rechenaufgaben von der CPU erledigen lassen.

4️⃣ Vergleich mit anderen Grafiklösungen

Auch hier sollten Sie die Vollversion verwenden:

H100 Grafik-ClusterEs kostet Hunderttausende von Dollar und ist schneller, aber für den Durchschnittsbürger nicht erschwinglich.
selbstentwickelte GrafikkarteKompatibilität ist nicht genug und es ist leicht, in die Grube zu treten.
zu einem Urteil gelangenDer 4090 ist bei weitem die kostengünstigste Option.

5️⃣ Tipps für den Einsatz

Kosten oder AufwandKTransformersDas Framework kann mit einem einzigen Klick eingesetzt werden und verfügt über die gleiche Schnittstelle wie ChatGPT.
Wenn Ihnen der Speicherplatz ausgeht, können Sie den Modus "Nur 6 Experten aktivieren" ausprobieren, der etwas schneller ist.

Für die intelligenteste KI wählen Sie das 671B Quantized, für einen reibungslosen Dialog das 14B/32B, das 4090 bietet alles!