KTransformers: Big Model Inference Performance Engine: Extreme Beschleunigung, flexible Befähigung

🚀 Einladung zum Erleben: Chinas erste KI-IDE Intelligente Programmiersoftware Trae Chinesische Version downloadDer DeepSeek-R1 und Doubao-pro sind unbegrenzt verfügbar!

Allgemeine Einführung

KTransformers: Ein hochleistungsfähiges Python-Framework, das entwickelt wurde, um den Engpass bei der Inferenz großer Modelle zu durchbrechen. KTransformers ist mehr als nur ein einfaches Werkzeug für die Modellinferenz, es ist eine Reihe von extrem leistungsfähigen Optimierungsmaschinen und eine flexible Plattform für die Ermächtigung von Schnittstellen. KTransformers ist darauf ausgerichtet, die Effizienz großer Modellinferenzen von Grund auf zu verbessern, die Geschwindigkeit der Modellinferenzen erheblich zu beschleunigen und die Hardware-Schwelle durch fortschrittliche Kernel-Optimierung, leistungsstarke Parallelitätsstrategien (Multi-GPU, Sparse Attention) und andere Kerntechnologien zu senken.

Neben der einfachen Ausführung von Modellen bietet KTransformers eine ganze Reihe von Leistungsverbesserungen und Anwendungsskalierbarkeit. Sie erhalten nicht nur eine native Transformers-kompatible Schnittstelle, um Ihre bestehenden Projekte nahtlos zu migrieren, sondern können auch problemlos Anwendungen erstellen, die mit OpenAI und Ollama Standard-RESTful-API-Dienste für die schnelle Integration in alle Arten von Anwendungen. Wir bieten auch sofort einsatzbereite ChatGPT Style-Webinterface für schnelles Erleben und Testen von Modelleffekten ohne langwierige Konfiguration.

KTransformers ist für Benutzer konzipiert, die mehr Leistung verlangen. Ganz gleich, ob Sie ein Entwickler sind, der die ultimative Argumentationsgeschwindigkeit sucht, ein Ingenieur, der große Modellanwendungen effizient einsetzen muss, oder ein Benutzer, der große Modelle mit hoher Leistung einfach lokal erleben möchte, KTransformers bietet Ihnen eine leistungsstarke Unterstützung, um das volle Potenzial großer Modelle für innovative Anwendungen zu entfesseln.

KTransformers: Leistungsmotor für die Inferenz großer Modelle: Extreme Beschleunigung, flexibles Empowerment-1

Zentrale Stärken:

Extreme Leistung: Optimierungen auf Kernel-Ebene und parallele Strategien bringenUm eine Größenordnung schnellere Argumentation.
Flexible Schnittstellen: Transformers-konforme Schnittstellen, RESTful APIs und Webschnittstellen.Erfüllung der Anforderungen verschiedener Anwendungsszenarien.
Weitgehend kompatibel: Unterstützung für mehrere GPUs, mehrere CPU-Architekturen und mehrere Mainstream-Makromodelle.Anpassung an eine breite Palette von Hardware- und Modellierungsoptionen.
Benutzerfreundlichkeit geht Hand in Hand mit Anpassungsfähigkeit: bestehendeSofort einsatzbereiter KomfortAuch verfügbarUmfangreiche Konfigurationsmöglichkeitenum den hohen Optimierungsbedarf fortgeschrittener Nutzer zu decken.

Funktionsliste

Hochleistungstransformatoren Kompatible Schnittstelle : bietet eine vollständig kompatible Schnittstelle mit der Transformers-Bibliothek.Migrieren Sie bestehende Projekte zum Nulltarif und genießen Sie sofortige Leistungsverbesserungen!.
Flexible und einfach zu verwendende RESTful API-Dienste : Nach den Standards von OpenAI und Ollama.Schnelles Erstellen skalierbarer API-DiensteDie Produkte des Unternehmens sind so konzipiert, dass sie sich leicht in eine Vielzahl von Anwendungen und Plattformen integrieren lassen.
Sofort einsatzbereite Webschnittstelle im ChatGPT-Stil Eine freundliche und interaktive Schnittstelle.Null Code zum schnellen Erleben und Testen der Modellleistungfür eine einfache Demonstration und Validierung.
Parallele Multi-GPU-Rechenmaschine :: Entfesseln Sie die Leistung mehrerer GPUsDadurch wird die Geschwindigkeit der Schlussfolgerungen linear verbessert und die Reaktionszeit drastisch verkürzt.
Tiefgreifende Leistungsoptimierung auf Kernel-Ebene : Einsatz fortschrittlicher Kernel-Optimierungstechniken.Erschließung des Hardware-Potenzials von unten nach obenund erreicht damit einen qualitativen Sprung in der Leistung der Modellinferenz.
Intelligenter Rahmen für spärliche Aufmerksamkeit Unterstützung für den Block Sparse Attention Mechanismus.Erheblich reduzierter Speicherbedarfund unterstützt eine CPU-effiziente Dekodierung.Überwindung von Hardware-Engpässen.
Umfassende ökologische Unterstützung für große Modelle Kompatibel mit InternLM, DeepSeek-Coder, etc.Eine Vielzahl von großen Mainstream-Modellen (unter ständiger Erweiterung).Flexibilität bei der Auswahl der besten Modellierungslösung.
Leichtgewichtiges lokales High-Performance Reasoning Kein Bedarf an teurer Spezialhardware.Hervorragende Inferenzleistung in einer gemeinsamen Desktop-UmgebungDadurch wird die Schwelle für die Nutzung gesenkt.

Hilfe verwenden

Montage

Klon-Lager ::

git clone https://github.com/kvcache-ai/ktransformers.git
cd ktransformers

Installation von Abhängigkeiten ::

pip install -r anforderungen-local_chat.txt

Einbau von KTransformatoren ::

python setup.py installieren

Erste Schritte

Modelle laden ::

from ktransformers import KTransformers
model = KTransformers(model_name="Ihr_Modell_name")

Beispiel für eine Argumentation ::

input_text = "Hallo, KTransformers!"
output = model.infer(input_text)
print(ausgabe)

Verwendung der RESTful-API Starten Sie den API-Dienst:

python -m ktransformers.api

Anfrage senden:

curl -X POST "http://localhost:8000/infer" -d '{"text": "Hallo, KTransformers!"}'

Erweiterte Funktionen

Multi-GPU-Unterstützung Bearbeiten Sie die Konfigurationsdatei im Hauptverzeichnis des Projekts. config.yamllegen Sie Multi-GPU-Einstellungen fest, um die Inferenzgeschwindigkeit zu erhöhen.
kurze Aufmerksamkeitsspanne Konfiguration: Konfigurationsdatei im Hauptverzeichnis des Projekts config.yaml Hinzufügen einer spärlichen Aufmerksamkeitskonfiguration zur Optimierung der Speichernutzung, insbesondere in Umgebungen mit eingeschränkten Ressourcen.
lokale Inferenz Konfiguration: Konfigurationsdatei im Hauptverzeichnis des Projekts config.yaml Spezifizieren Sie Arbeitsspeicher- und Videospeicherparameter für eine effiziente Inferenz in einer lokalen Desktop-Umgebung und unterstützen Sie 24 GB VRAM und 150 GB DRAM.

Details zur Konfiguration

Mehrere GPUs konfigurieren : Konfigurationsdatei bearbeiten config.yaml::

gpu.
- id: 0 # GPU-Geräte-Index 0
- id: 1 #-GPU-Geräte-Index 1

Spärliche Aufmerksamkeit ermöglichen : Fügen Sie es in die Konfigurationsdatei ein:

Achtung!
Typ: spärlich

Lokale Einstellungen zur Argumentation Speicher- und Videospeicherparameter in der Konfigurationsdatei angeben:

Speicher.
vram: 24GB #-Speicherlimit (GB), angepasst an die tatsächliche Situation
dram: 150 GB #-Speicherlimit (GB), Anpassung an die tatsächliche Situation