DeepSeek-R1-FP4: FP4-optimierte Version von DeepSeek-R1 Inferenz 25x schneller

Neueste AI-RessourcenAktualisiert vor 5 Monaten AI-Austauschkreis

2.7K 00

Allgemeine Einführung

DeepSeek-R1-FP4 ist ein quantifiziertes Sprachmodell, das von NVIDIA als Open-Source bereitgestellt und optimiert wurde und auf dem DeepSeek KIs DeepSeek-R1 Entwicklung. Es quantisiert Gewichte und Aktivierungswerte in FP4-Datentypen unter Verwendung des TensorRT Model Optimizer, was es dem Modell ermöglicht, den Ressourcenbedarf bei gleichbleibend hoher Leistung deutlich zu reduzieren. Mit etwa 1,6x weniger Festplattenplatz und GPU-Speicher im Vergleich zum ursprünglichen Modell ist es ideal für effiziente Inferenz in Produktionsumgebungen geeignet. Das Modell wurde speziell für die Blackwell-Architektur von NVIDIA optimiert und soll eine bis zu 25-mal schnellere Inferenz pro Token Sie ist 20 Mal billiger und weist ein hohes Leistungspotenzial auf. Mit der Unterstützung von Kontextlängen bis zu 128K eignet sie sich für die Verarbeitung komplexer Textaufgaben und ist sowohl für die kommerzielle als auch für die nichtkommerzielle Nutzung offen, was Entwicklern eine kostengünstige KI-Lösung bietet.

DeepSeek-R1-FP4：FP4优化版DeepSeek-R1推理速度25倍

Funktionsliste

Effizientes ReasoningFP4-Quantisierung: Drastische Verbesserung der Inferenzgeschwindigkeit und Optimierung der Ressourcennutzung durch FP4-Quantisierung.
Lange KontextunterstützungUnterstützt eine maximale Kontextlänge von 128K, was für die Verarbeitung langer Textgenerierungsaufgaben geeignet ist.
TensorRT-LLM-EinsatzKann mit Hilfe des TensorRT-LLM-Frameworks schnell auf NVIDIA-GPUs eingesetzt werden.
Open-Source-Nutzung:: Unterstützung für kommerzielle und nicht-kommerzielle Szenarien, die eine freie Modifikation und Weiterentwicklung ermöglichen.
LeistungsoptimierungEntwickelt für die Blackwell-Architektur, bietet es eine extrem hohe Inferenz-Effizienz und Kosteneffizienz.

Hilfe verwenden

Installations- und Bereitstellungsprozess

Der Einsatz von DeepSeek-R1-FP4 erfordert die Unterstützung bestimmter Hardware- und Softwareumgebungen, insbesondere NVIDIA GPU und TensorRT-LLM Framework. Nachfolgend finden Sie eine ausführliche Installations- und Nutzungsanleitung, um den Benutzern einen schnellen Einstieg zu ermöglichen.

1. die Vorbereitung der Umwelt

Hardware-VoraussetzungNVIDIA Blackwell-Architektur-GPUs (z. B. B200) werden empfohlen, was mindestens 8 GPUs erfordert (jede mit ~336 GB VRAM ohne Quantisierung, ~1342 GB nach Quantisierung, um die Modellanforderungen zu erfüllen). Für kleinere Tests wird mindestens 1 Hochleistungs-GPU (z. B. A100/H100) empfohlen.
Software-Abhängigkeit:
- Betriebssystem: Linux (z. B. Ubuntu 20.04 oder höher).
- NVIDIA-Treiber: neueste Version (unterstützt CUDA 12.4 oder höher).
- TensorRT-LLM: Die neueste Version des Master-Zweigs sollte aus den GitHub-Quellen kompiliert werden.
- Python: 3.11 oder höher.
- Andere Bibliotheken:tensorrt_llmundtorch usw.

2. das Modell herunterladen

Interviews Gesicht umarmen SeiteKlicken Sie auf die Registerkarte "Dateien und Versionen".
Laden Sie die Modelldatei herunter (z. B. model-00001-of-00080.safetensors (usw., insgesamt 80 Slices, mit einer Gesamtgröße von mehr als 400 GB).
Speichern Sie die Datei in einem lokalen Verzeichnis, z. B. /path/to/model/.

3. die Installation von TensorRT-LLM

Klonen Sie das neueste TensorRT-LLM Repository von GitHub:

git clone https://github.com/NVIDIA/TensorRT-LLM.git
cd TensorRT-LLM

Kompilieren und installieren:

make build
pip install -r requirements.txt

Überprüfen Sie die Installation:

python -c "import tensorrt_llm; print(tensorrt_llm.__version__)"

4. einsatzmodell

Laden Sie das Modell und führen Sie es anhand des mitgelieferten Beispielcodes aus:

from tensorrt_llm import SamplingParams, LLM
# 初始化模型
llm = LLM(
model="/path/to/model/nvidia/DeepSeek-R1-FP4",
tensor_parallel_size=8,  # 根据 GPU 数量调整
enable_attention_dp=True
)
# 设置采样参数
sampling_params = SamplingParams(max_tokens=32)
# 输入提示
prompts = [
"你好，我的名字是",
"美国总统是",
"法国的首都是",
"AI的未来是"
]
# 生成输出
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
print(output)

Bevor Sie den obigen Code ausführen, vergewissern Sie sich, dass die GPU-Ressourcen korrekt zugewiesen wurden. Wenn die Ressourcen nicht ausreichen, passen Sie die tensor_parallel_size Parameter.

5. funktionale Betriebsanleitung

Effizientes Reasoning

Die zentrale Stärke von DeepSeek-R1-FP4 ist seine FP4-Quantisierungstechnologie. Anstatt die Modellparameter manuell zu verändern, können die Nutzer einfach sicherstellen, dass ihre Hardware die Blackwell-Architektur unterstützt, und so die Inferenzgeschwindigkeit erhöhen. Es wird empfohlen, zur Laufzeit max_tokens steuert die Ausgabelänge, damit keine Ressourcen verschwendet werden.
Beispiel: Führen Sie ein Python-Skript in einem Terminal aus, geben Sie verschiedene Eingabeaufforderungen ein, und beobachten Sie die Geschwindigkeit und Qualität der Ausgabe.

lange Kontextverarbeitung

Das Modell unterstützt Kontextlängen bis zu 128K, was für die Erstellung langer Artikel oder die Verarbeitung komplexer Dialoge geeignet ist.
Betrieb: In der prompts Geben Sie einen langen Kontext ein, z. B. den Anfang eines Artikels mit 5.000 Wörtern, und setzen Sie dann die max_tokens=1000Der Text wird auf dieselbe Weise erzeugt wie der folgende Text. Überprüfen Sie die Konsistenz des generierten Textes nach der Ausführung.
Achtung: Lange Kontexte können die Speichernutzung erhöhen, es wird empfohlen, die GPU-Speichernutzung zu überwachen.

Leistungsoptimierung

Wenn Sie Blackwell-GPUs verwenden, können Sie direkt von einer 25-fachen Beschleunigung der Inferenz profitieren. Bei Verwendung anderer Architekturen (z. B. A100) kann der Leistungsgewinn etwas geringer ausfallen, ist aber immer noch deutlich besser als beim nicht quantifizierten Modell.
Vorschlag für den Betrieb: In einer Multi-GPU-Umgebung sollten Sie die tensor_parallel_size Parameter, um die Hardwareressourcen voll auszunutzen. Zum Beispiel wird 8 GPUs auf 8 und 4 GPUs auf 4 gesetzt.

6. häufig gestellte Fragen und Lösungen

unzureichender VideospeicherWenn Sie zu einem Speicherüberlauf aufgefordert werden, reduzieren Sie tensor_parallel_size oder eine weniger quantifizierte Version verwenden (z. B. das von der Gemeinschaft bereitgestellte GGUF-Format).
Langsame ArgumentationVergewissern Sie sich, dass TensorRT-LLM korrekt kompiliert wurde und die GPU-Beschleunigung aktiviert ist, überprüfen Sie, ob die Treiberversion übereinstimmt.
Output-AnomalieÜberprüfen Sie das Format der Eingabeaufforderung, um sicherzustellen, dass das Modell nicht durch Sonderzeichen beeinträchtigt wird.

Empfehlungen für die Verwendung

Ersteinsatz: Beginnen Sie mit einfachen Hinweisen und steigern Sie schrittweise die Länge des Kontextes, um sich mit der Leistung des Modells vertraut zu machen.
ProduktionsumgebungTesten Sie mehrere Sätze von Eingabeaufforderungen vor der Bereitstellung, um sicherzustellen, dass die Ausgabe den Erwartungen entspricht. Es wird empfohlen, den Multi-User-Zugriff mit Lastausgleichswerkzeugen zu optimieren.
Anpassung für Entwickler:: Modelle können auf der Grundlage von Open-Source-Lizenzen modifiziert werden, um spezifische Aufgaben zu erfüllen, wie z. B. die Codegenerierung oder Q&A-Systeme.

Mit diesen Schritten können Benutzer DeepSeek-R1-FP4 schnell einsetzen und nutzen, um die Vorteile effizienter Inferenzen zu genießen.