Hinter dem DeepSeek-Sturm: Ng warnt, dass ein offener Modellwettbewerb die KI-Werte-Landschaft in den USA und China neu gestalten wird

AI-NachrichtenGeschrieben vor 7 Monaten AI-Austauschkreis

7.8K 00

Liebe Freunde.

diese Woche DeepSeek Die Begeisterung, die dadurch ausgelöst wurde, hat viele wichtige Trends deutlich gemacht: (i) China holt im Bereich der generativen KI gegenüber den USA auf, was sich erheblich auf die KI-Lieferkette auswirkt; (ii) offene Gewichtungsmodelle machen die Basismodellschicht zur Massenware, was Chancen für Anwendungsentwickler schafft; und (iii) die Skalierung ist nicht der einzige Weg für den Fortschritt der KI. Trotz der starken Fokussierung und des Hypes der Branche auf die Rechenleistung senken algorithmische Innovationen die Schulungskosten rapide.

Vor etwa einer Woche veröffentlichte das chinesische Unternehmen DeepSeek die DeepSeek-R1 Das Modell, das in Benchmarks vergleichbare Leistungen wie OpenAI o1 erbringt, wird unter der MIT-Lizenz veröffentlicht. Letzte Woche wurde ich in Davos von vielen Wirtschaftsführern mit nichttechnischem Hintergrund dazu befragt. Am Montag kam es an der Börse zu einem "DeepSeek-Ausverkauf": Die Aktien einer Reihe von US-Tech-Unternehmen, darunter NVIDIA, stürzten ab (und haben sich bei Redaktionsschluss teilweise wieder erholt).

Ich denke, DeepSeek macht die folgenden Punkte deutlich:

Chinesische generative KI schließt die Lücke zu den USA.. Wenn ChatGPT im November 2022 veröffentlicht wird, sind die USA China im Bereich der generativen KI deutlich voraus. Die Wahrnehmung der Menschen ändert sich nur langsam, so dass es in letzter Zeit immer noch Freunde in China und den USA gibt, die glauben, dass China im Rückstand ist. Tatsächlich aber hat sich dieser Rückstand in den letzten zwei Jahren rapide verringert. via lit. zehntausend Fragen zu allgemeinen Grundsätzen (Idiom); fig. eine lange Liste von Fragen und Antworten (Mein Team verwendet es seit Monaten), Kimi Mit chinesischen Modellen wie InternVL und DeepSeek ist klar, dass China den Rückstand aufholt und in Bereichen wie der Videogenerierung sogar vorübergehend die Nase vorn hat.

Ich finde es ermutigend, dass DeepSeek-R1 mit einem detaillierten technischen Bericht als Open-Source-Projekt veröffentlicht wird. Im Gegensatz dazu haben mehrere US-Unternehmen eine Politik gefördert, die Open Source einschränkt, indem sie hypothetische Risiken wie das "Aussterben der KI" heraufbeschworen haben. Es ist nun klar, dass Modelle mit offenem Quellcode und offener Gewichtung zu einem wichtigen Bestandteil der KI-Lieferkette geworden sind: Viele Unternehmen werden sie übernehmen. Wenn die USA Open Source weiterhin blockieren, wird China die Lieferkette dominieren, und letztlich werden die meisten Unternehmen Modelle verwenden, die eher chinesische als amerikanische Werte widerspiegeln.

Offene Gewichtungsmodelle machen die Basismodellschicht zur Massenware. Wie bereits erwähnt, sinken die Preise für Token für große Sprachmodelle rapide, und die offene Gewichtung beschleunigt diesen Trend und bietet Entwicklern mehr Optionen. openAI o1 verlangt 60 US-Dollar pro Million Output-Token.Und der DeepSeek R1 kostet nur $2,19Der fast 30-fache Preisunterschied hat zu einer weit verbreiteten Besorgnis über den Trend der Preissenkungen geführt. Der fast 30-fache Preisunterschied hat zu einer Tendenz von Preissenkungen geführt, die weithin Aufmerksamkeit erregt hat.

Das Geschäft mit der Schulung von Basismodellen und dem Verkauf von API-Zugang ist mit vielen Herausforderungen verbunden. Viele Unternehmen in diesem Bereich suchen immer noch nach Möglichkeiten, die hohen Kosten für die Ausbildung wieder hereinzuholen. Der Artikel "AI's $600 Billion Conundrum" beschreibt diese Herausforderung sehr anschaulich (aber um das klarzustellen, ich denke, dass die Basismodellunternehmen großartige Arbeit leisten und freue mich über ihren Erfolg). Im Gegensatz dazu bietet die Entwicklung von Anwendungen auf der Grundlage von Basismodellen eine enorme Geschäftsmöglichkeit. Da andere Milliarden in Trainingsmodelle investiert haben, kann man sie für ein paar Dollar bekommen, um Anwendungen wie Chatbots für den Kundenservice, E-Mail-Zusammenfassungen, KI-Ärzte, Assistenten für juristische Dokumente und mehr zu entwickeln.

KI-Fortschritte beruhen nicht nur auf Skalierung.. Das Argument, dass die Vergrößerung von Modellen den Fortschritt fördert, ist weit verbreitet. Um fair zu sein, war ich ein früher Verfechter des Skalierungsarguments. Unternehmen sammelten Milliarden von Dollar ein, indem sie die Behauptung aufstellten, dass mehr Kapital (i) zu einer Skalierung und (ii) zu einer stetigen Verbesserung der Leistung führen würde. Dies hat dazu geführt, dass man sich zu sehr auf die Skalierung konzentriert hat, was auf Kosten zahlreicher anderer Wege des Fortschritts ging. Aufgrund des Verbots von KI-Chips in den USA musste das DeepSeek-Team viele Optimierungen an den schwächeren H800-Grafikprozessoren vornehmen, wodurch die Kosten für das Modelltraining (ohne Forschungsinvestitionen) letztlich unter 6 Mio. USD blieben.

Es bleibt abzuwarten, ob dies tatsächlich zu einer Verringerung der rechnerischen Nachfrage führt. Manchmal führt ein Rückgang des Stückpreises von Gütern stattdessen zu einem Anstieg der Gesamtausgaben. Ich denke, dass es auf lange Sicht fast keine Obergrenze für die menschliche Nachfrage nach Intelligenz und Rechenleistung gibt, so dass die Menschen auch bei sinkenden Kosten mehr intelligente Ressourcen verbrauchen werden.

Die sozialen Medien waren voll von widersprüchlichen Interpretationen der DeepSeek-Fortschritte, die verschiedene Positionen wie ein Rorschach-Tintenklecks-Test aufzeigten. Ich glaube nicht, dass die geopolitischen Auswirkungen von DeepSeek-R1 schon vollständig erkannt wurden, aber es ist ein Segen für die Entwickler von KI-Anwendungen. Mein Team hat bereits mit dem Brainstorming neuer Ideen begonnen, die nur mit Hilfe offener, fortschrittlicher Inferenzmodelle realisiert werden können. Dies ist immer noch die beste Zeit, um KI-Anwendungen zu entwickeln!

AI-Nachrichten

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Kann Microsoft Copilot Studio wirklich das Potenzial autonomer Intelligenzen erschließen?

AI-Nachrichten

vor 7 Monaten

08.3K

字节跳动等发布首个1.58-bit FLUX量化模型，参数减少99.5%，媲美全精度FLUX！

ByteDance und andere veröffentlichen das erste 1,58-Bit-FLUX-Quantisierungsmodell mit 99,51 TP3T-Parameter-Reduktion, vergleichbar mit Full-Precision-FLUX!

AI-Nachrichten

vor 8 Monaten

08.9K

吴恩达论 AI 模型战略：从 DeepSeek、Gemini 看技术选型与价值观考量

Wu Enda über die KI-Modellstrategie: Technologieauswahl und Werteabwägung von DeepSeek, Gemini

AI-Nachrichten

vor 5 Monaten

09.4K

Wie die Bots von OpenAI "wie ein DDoS-Angriff" agierten, um die Website des siebenköpfigen Unternehmens zu zerstören

AI-Nachrichten

vor 8 Monaten

08.2K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

Hinter dem DeepSeek-Sturm: Ng warnt, dass ein offener Modellwettbewerb die KI-Werte-Landschaft in den USA und China neu gestalten wird

DeepSeek: von den Medien ignorierte Themen

[Deepseek R1 könnte einen Weg gefunden haben, den Menschen zu übertreffen

Ähnliche Artikel

Kann Microsoft Copilot Studio wirklich das Potenzial autonomer Intelligenzen erschließen?

ByteDance und andere veröffentlichen das erste 1,58-Bit-FLUX-Quantisierungsmodell mit 99,51 TP3T-Parameter-Reduktion, vergleichbar mit Full-Precision-FLUX!

Wu Enda über die KI-Modellstrategie: Technologieauswahl und Werteabwägung von DeepSeek, Gemini

Wie die Bots von OpenAI "wie ein DDoS-Angriff" agierten, um die Website des siebenköpfigen Unternehmens zu zerstören

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

Hinter dem DeepSeek-Sturm: Ng warnt, dass ein offener Modellwettbewerb die KI-Werte-Landschaft in den USA und China neu gestalten wird

DeepSeek: von den Medien ignorierte Themen

[Deepseek R1 könnte einen Weg gefunden haben, den Menschen zu übertreffen

Ähnliche Artikel

Kann Microsoft Copilot Studio wirklich das Potenzial autonomer Intelligenzen erschließen?

ByteDance und andere veröffentlichen das erste 1,58-Bit-FLUX-Quantisierungsmodell mit 99,51 TP3T-Parameter-Reduktion, vergleichbar mit Full-Precision-FLUX!

Wu Enda über die KI-Modellstrategie: Technologieauswahl und Werteabwägung von DeepSeek, Gemini

Wie die Bots von OpenAI "wie ein DDoS-Angriff" agierten, um die Website des siebenköpfigen Unternehmens zu zerstören

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel