Xinference: Einfache verteilte KI-Modellbereitstellung und -wartung

AI-NachrichtenAktualisiert vor 7 Monaten AI-Austauschkreis

16.4K 00

Allgemeine Einführung

Xorbits Inference (oder kurz Xinference) ist eine leistungsstarke und vielseitige Bibliothek, die sich auf die verteilte Bereitstellung von Sprachmodellen, Spracherkennungsmodellen und multimodalen Modellen konzentriert. Mit Xorbits Inference können Benutzer ihre eigenen Modelle oder integrierte fortgeschrittene Modelle mit einem einzigen Befehl bereitstellen und nutzen. Ob in der Cloud, auf einem lokalen Server oder auf einem Personal Computer, Xorbits Inference läuft effizient. Die Bibliothek ist besonders für Forscher, Entwickler und Datenwissenschaftler geeignet und hilft ihnen, das volle Potenzial modernster KI-Modelle auszuschöpfen.

Funktionsliste

verteilte BereitstellungUnterstützt verteilte Einsatzszenarien, so dass Modellinferenzaufgaben nahtlos auf mehrere Geräte oder Maschinen verteilt werden können.
ModellierungsdienstRationalisierung des Prozesses der Bereitstellung großer Sprachmodelle, Spracherkennungsmodelle und multimodaler Modelle.
Bereitstellung mit einem einzigen BefehlBereitstellung und Wartung von Modellen mit einem einzigen Befehl, sowohl für experimentelle als auch für Produktionsumgebungen.
Heterogene Hardware-NutzungIntelligence nutzt heterogene Hardware, einschließlich GPUs und CPUs, um Modellinferenzaufgaben zu beschleunigen.
Flexible APIs und SchnittstellenBereitstellung einer Vielzahl von Schnittstellen zur Interaktion mit dem Modell, die RPC, RESTful API (kompatibel mit OpenAI API), CLI und WebUI unterstützen.
Eingebaute fortschrittliche ModelleIntegrierte Unterstützung für eine breite Palette modernster Open-Source-Modelle, die der Benutzer direkt für seine Experimente verwenden kann.

Hilfe verwenden

Einbauverfahren

Vorbereitung der UmweltStellen Sie sicher, dass Python 3.7 oder höher installiert ist.
Installation von Xorbits Inference::

   pip install xorbits-inference

Überprüfen der InstallationNachdem die Installation abgeschlossen ist, können Sie mit dem folgenden Befehl überprüfen, ob die Installation erfolgreich war:

   xinference --version

Leitlinien für die Verwendung

Bereitstellungsmodell

Modelle laden: Verwenden Sie den folgenden Befehl, um ein vorab trainiertes Modell zu laden:

   xinference load-model --model-name <模型名称>

Beispiel:

   xinference load-model --model-name gpt-3

Neue DiensteNach dem Laden des Modells starten Sie den Dienst:

   xinference serve --model-name <模型名称>

Beispiel:

   xinference serve --model-name gpt-3

Aufrufen der APISobald der Dienst gestartet ist, kann er über eine RESTful-API aufgerufen werden:

   curl -X POST http://localhost:8000/predict -d '{"input": "你好"}'

Verwendung des eingebauten Modells

Xorbits Inference verfügt über eine eingebaute Unterstützung für eine breite Palette von fortgeschrittenen Modellen, die vom Benutzer direkt zur Durchführung von Experimenten verwendet werden können. Beispiel:

Sprachmodellz.B. GPT-3, BERT, usw.
Spracherkennungsmodell: z.B. DeepSpeech, etc.
multimodales Modell: z.B. CLIP, etc.

verteilte Bereitstellung

Xorbits Inference unterstützt die verteilte Bereitstellung, so dass Benutzer Modellinferenzaufgaben nahtlos auf mehrere Geräte oder Maschinen verteilen können. Die Schritte werden im Folgenden beschrieben:

Konfigurieren einer verteilten UmgebungInstallieren Sie Xorbits Inference auf jedem Knoten und konfigurieren Sie die Netzwerkverbindung.
Verteilte Dienste startenVerteilte Dienste auf dem Master-Knoten starten:

   xinference serve --distributed --nodes <节点列表>

Beispiel:

   xinference serve --distributed --nodes "node1,node2,node3"

Aufrufen der verteilten APIÄhnlich wie bei Single-Node-Implementierungen wird sie über eine RESTful-API aufgerufen:

   curl -X POST http://<主节点IP>:8000/predict -d '{"input": "你好"}'

allgemeine Probleme

Wie kann ich das Modell aktualisieren? Verwenden Sie den folgenden Befehl, um das Modell zu aktualisieren:

  xinference update-model --model-name <模型名称>

Wie kann ich die Protokolle einsehen? Verwenden Sie den folgenden Befehl, um das Dienstprotokoll anzuzeigen:

  xinference logs --model-name <模型名称>

AI-Nachrichten # Lokal eingesetztes Open-Source-Werkzeug für große Modelle

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Offizieller Claude-Insight-Bericht: Chinesische Benutzer lieben das Schreiben von Romanen mit Claude

AI-Nachrichten

vor 9 Monaten

014.3K

全新 Qwen2.5-VL-32B-Instruct 多模态模型发布，性能超72B！

Neues Qwen2.5-VL-32B-Instruct Multi-Modal Modell mit Super 72B Leistung veröffentlicht!

AI-Nachrichten

vor 6 Monaten

014.5K

哈佛 CS197课程：人工智能研究体验 (AI Research Experiences)PDF下载

Harvard CS197: KI-Forschungserfahrungen PDF Download

AI-Nachrichten

vor 9 Monaten

012.9K

Qwen2.5-Max auf Basis der MoE-Architektur übertrifft DeepSeek V3 vollständig

AI-Nachrichten

vor 8 Monaten

021K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

Xinference: Einfache verteilte KI-Modellbereitstellung und -wartung

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Einbauverfahren

Leitlinien für die Verwendung

Bereitstellungsmodell

Verwendung des eingebauten Modells

verteilte Bereitstellung

allgemeine Probleme

Durchgesickertes Microsoft-Papier: nur 8B für GPT-4o-mini und 100B für o1-mini?

SiliconCloud x FastGPT: Ermöglicht 200.000 Benutzern den Aufbau einer exklusiven KI-Wissensdatenbank

Ähnliche Artikel

Offizieller Claude-Insight-Bericht: Chinesische Benutzer lieben das Schreiben von Romanen mit Claude

Neues Qwen2.5-VL-32B-Instruct Multi-Modal Modell mit Super 72B Leistung veröffentlicht!

Harvard CS197: KI-Forschungserfahrungen PDF Download

Qwen2.5-Max auf Basis der MoE-Architektur übertrifft DeepSeek V3 vollständig

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

Xinference: Einfache verteilte KI-Modellbereitstellung und -wartung

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Einbauverfahren

Leitlinien für die Verwendung

Bereitstellungsmodell

Verwendung des eingebauten Modells

verteilte Bereitstellung

allgemeine Probleme

Durchgesickertes Microsoft-Papier: nur 8B für GPT-4o-mini und 100B für o1-mini?

SiliconCloud x FastGPT: Ermöglicht 200.000 Benutzern den Aufbau einer exklusiven KI-Wissensdatenbank

Ähnliche Artikel

Offizieller Claude-Insight-Bericht: Chinesische Benutzer lieben das Schreiben von Romanen mit Claude

Neues Qwen2.5-VL-32B-Instruct Multi-Modal Modell mit Super 72B Leistung veröffentlicht!

Harvard CS197: KI-Forschungserfahrungen PDF Download

Qwen2.5-Max auf Basis der MoE-Architektur übertrifft DeepSeek V3 vollständig

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel