Seit dem 27. August hat Wisdom Spectrum die GLM-4-Flash API der Öffentlichkeit kostenlos zur Verfügung gestellt. In einem dreitägigen Englisch-Chinesisch-Übersetzungstest wurde GLM-4-Flash mit dem Siliziumfluss von GLM-4-9b verglichen und OpenRouter: Einheitliche Schnittstelle für die Integration mehrerer LLMs, freie Schnittstelle für große Modelle Es ist nicht weniger effektiv oder schneller als die vielen kostenlosen Modell-APIs, die vom RIP angeboten werden.
GLM-4-9b hat zuvor eine kostenlose API auf der SILICONFLOW (Silicon Flow): Beschleunigung der AGI für die Menschheit, Integration von freien großen Modellschnittstellen GLM-4-Flash und GLM-4-9b unterscheiden sich in Bezug auf die Modellgröße, die Anzahl der Parameter, die Anwendungsszenarien usw. Außerdem sind beide kostenlose APIs und bieten beide kostenlose Dienste an - wie sollen wir uns entscheiden?
Man kann sagen, dass das Modell GLM-4-Flash sowohl in Bezug auf die "Geschwindigkeit" als auch auf die "Leistung" einen großen Vorteil hat.
Um die Inferenzgeschwindigkeit des Modells zu verbessern, wendet GLM-4-Flash eine Reihe von Optimierungsmaßnahmen an, wie z. B. adaptive Gewichtsquantisierung, mehrere parallele Verarbeitungstechniken, Stapelverarbeitungsstrategie und spekulatives Sampling. Nach den Testergebnissen von Drittanbietern liegt die Inferenzgeschwindigkeit von GLM-4-Flash in einem einwöchigen Testzyklus stabil bei 72,14 Token/s, was deutlich besser ist als bei anderen Modellen.
In Bezug auf die Leistung verwendet GLM-4-Flash bis zu 10T hochwertige mehrsprachige Daten in der Pre-Trainingsphase des Modells, was das Modell in die Lage versetzt, auf Dialoge mit mehreren Runden, Websuchen, Tool-Aufrufe und lange Texte (mit Unterstützung für Kontextlängen von bis zu 128K) zu schließen.Ausgabe 4K Länge), usw. Es werden 26 Sprachen unterstützt, darunter Chinesisch, Englisch, Japanisch, Koreanisch und Deutsch.
Auf der Grundlage der völlig freien und offenen GLM-4-Flash-API bieten wir gleichzeitig Funktionen zur Feinabstimmung des Modells an, um den Bedürfnissen der verschiedenen Nutzer gerecht zu werden und sie bei der Anwendung des Modells in spezifischen Anwendungsszenarien zu unterstützen. Willkommen zur Nutzung!