Der CEO von Anthropic verteidigt die KI-Hegemonie der USA mit dem Hinweis auf die "Bedrohung durch China"

🚀 Einladung zum Erleben: Chinas erste KI-IDE Intelligente Programmiersoftware Trae Chinesische Version downloadDer DeepSeek-R1 und Doubao-pro sind unbegrenzt verfügbar!

Kommentar:

1. die Verleumdung von Chinas KI-Entwicklung und die Darstellung der "chinesischen Bedrohungstheorie".

Der Autor des Artikels vertritt den Standpunkt, dass die Vereinigten Staatenabsichtlich übertreiben DeepSeek Die so genannte "Bedrohung" der USA durch die technologischen Fortschritte chinesischer KI-Unternehmen und anderer, die zwangsweise mit der so genannten "XXX-Bedrohung" in Verbindung gebracht wird, ist ein Argument, das voller Widersprüche steckt.Mentalität des Kalten Kriegesim Gesang antwortenideologisches Vorurteil.

Der Autor erkennt die Innovation und Effizienz von DeepSeek an, dreht sich dann aber um und führt den Erfolg darauf zurück, dass "ein XXXX gegen XXXX verstoßen hat" - ein unbegründeter Vorwurf, der die Tatsache völlig außer Acht lässt, dass Chinas KI-Unternehmen auf eigene Anstrengungen und marktbasierte Mechanismen angewiesen sind, um erfolgreich zu sein.
Der Autor benutzt den Vorwand, "China daran zu hindern, sich XX Vorteile zu verschaffen", um die Chip-Exportkontrollpolitik der Vereinigten Staaten zu verteidigen, vermeidet es aber, über seinen eigenen Gebrauch von technologischen Vorteilen zur Unterdrückung seiner Konkurrenten zu sprechen.DoppelmoralEntlarvt.

2. die technologische Hegemonie der USA aufrechtzuerhalten und zu versuchen, Chinas KI-Entwicklung zu bremsen

Das Hauptziel des Artikels ist esErhaltung der globalen Vorherrschaft der USA im Bereich der KIund versuchte, dies zu tun, indem er:

Übertreibung der Rolle der ExportkontrollenDer Autor behauptet, dass Exportkontrollen "der einzige Weg sind, um zu verhindern, dass China Millionen von Chips erwirbt", und sieht sie als Schlüsselfaktor für die zukünftige Weltlandschaft. Dieses Argument ignoriert die Komplexität der globalen Industriekette und Chinas eigenen technologischen Fortschritt.
- Tatsächlich erhöht China seine Investitionen in die Chip-Forschung und -Entwicklung und hat erhebliche Fortschritte erzielt. Auch wenn die US-Exportkontrollen einen gewissen Einfluss auf die chinesische KI-Entwicklung hatten, können sie den weiteren Fortschritt der chinesischen KI-Technologie nicht aufhalten.
Befürwortung der "technologischen Entkopplung"Der Autor deutet an, dass die Vereinigten Staaten ihr technologisches Embargo gegen China weiter verstärken sollten, und schlägt sogar vor, dass die Vereinigten Staaten die KI-Technologie nutzen sollten, um sich einen "dauerhaften Vorteil" zu verschaffen, was zweifellos eine "technologische Entkopplung" befürwortet und dem Trend der Globalisierung zuwiderläuft.
- Ein solches Vorgehen schadet nicht nur den Interessen Chinas, sondern auch den Interessen der Vereinigten Staaten selbst und behindert den weltweiten wissenschaftlichen und technologischen Fortschritt und die wirtschaftliche Entwicklung.

3. die Natur der KI-Entwicklung zu ignorieren und die Öffentlichkeit in die Irre zu führen

Der Artikel ist voreingenommen, was die Entwicklung der KI angeht, dieÜberbetonungDas "Gesetz der Skalierung" und der "Skaleneffekt" ignorieren die folgenden wichtigen Faktoren:

Der multipolare Trend in der KI-EntwicklungDie Entwicklung der KI-Technologie ist nicht der einzige Weg in den Vereinigten Staaten. China, Europa und andere Länder und Regionen erforschen aktiv den Weg der KI-Entwicklung und haben ihre eigenen Vorteile erreicht.
KI-Ethik und SicherheitDie ethischen und sicherheitspolitischen Fragen, die durch die Entwicklung von KI aufgeworfen werden, müssen gemeinsam durch globale Zusammenarbeit angegangen werden, nicht durch Unilateralismus und technologische Blockaden.
Auswirkungen der KI auf die menschliche Gesellschaft:: Die KI-Technologie sollte letztlich der Entwicklung und dem Fortschritt der menschlichen Gesellschaft dienen und nicht zu einem Instrument für Großmachtkämpfe werden.

4) Aufruf zu einer rationalen Betrachtung des KI-Wettbewerbs zwischen China und den USA und zur Förderung der globalen Zusammenarbeit

Angesichts der Chancen und Herausforderungen der KI-Entwicklung sollten China und die Vereinigten Staaten:

Abkehr von der Nullsummenspiel-MentalitätChina und die USA stehen nicht nur in einem Wettbewerbsverhältnis im Bereich der künstlichen Intelligenz, sondern sollten ihre Zusammenarbeit verstärken und gemeinsam den weltweiten Fortschritt der KI-Technologie und die industrielle Entwicklung fördern.
Verstärkung der Kommunikation und des DialogsDie beiden Seiten sollten sich eingehend über Schlüsselfragen der KI-Entwicklung austauschen, um das Verständnis zu verbessern und Missverständnisse und Fehleinschätzungen zu vermeiden.
Gemeinsame Ausarbeitung von KI-Governance-RegelnChina und die Vereinigten Staaten sollten mit anderen Ländern zusammenarbeiten, um die Einrichtung eines fairen, gerechten und inklusiven globalen KI-Governance-Systems zu fördern, um sicherzustellen, dass die KI-Technologie der gesamten Menschheit zugutekommt.

Schnelllesen

1. Die technologischen Fortschritte und Kostenvorteile von DeepSeek

Leistungen, die denen der modernsten KI-Modelle in den USA nahe kommenDie von DeepSeek herausgegebenen Modelle (insbesondere DeepSeek-V3) nähern sich in einigen wichtigen Aufgaben wie Codierung, mathematischen Wettbewerben und logischem Denken der Leistung der modernsten US-Modelle an [Teil II des Originalartikels, "DeepSeek's Models"].
Erhebliche KostensenkungenDeepSeek: Die Kosten für die Ausbildung von DeepSeek-Modellen sind viel niedriger als die von US-Unternehmen. So kostete die Ausbildung von DeepSeek-V3 etwa 6 Millionen Dollar, verglichen mit Anthropisch (in Form eines Nominalausdrucks) Claude 3.5 Die Ausbildung von Sonnet kostet zig Millionen Dollar [Teil II des Originalartikels, "DeepSeek's Model"].
Das ist kein "bahnbrechender" Durchbruch.Die Autoren argumentieren, dass die Errungenschaften von DeepSeek keine "einzigartigen Durchbrüche" sind, sondern innerhalb der erwarteten Kurve der sinkenden KI-Kosten liegen [Teil II des Originalartikels, "DeepSeek's Model"].

2. Drei wichtige Entwicklungen in der KI-Entwicklung

das Gesetz der ExpansionWenn der Trainingsumfang des KI-Systems zunimmt, verbessert sich die Leistung bei kognitiven Aufgaben reibungslos. Wenn beispielsweise die Modellgröße von 1 Million Dollar auf 100 Millionen Dollar steigt, erhöht sich die Aufgabenlösungsrate von 20% auf 60% [Originalartikel, Teil I, "Three Key Dynamics"].
gekrümmte Übertragung (Physik)Die Kosten für die Ausbildung können durch die Verbesserung der Modellarchitektur, die Steigerung der Hardware-Effizienz usw. gesenkt werden. So ist die API von Claude 3.5 Sonnet etwa zehnmal billiger als GPT-4. Zum Beispiel ist der API-Preis von Claude 3.5 Sonnet etwa 10-mal niedriger als der von GPT-4 [Teil 1 des Originalartikels "Drei wichtige Entwicklungen"].
ParadigmenwechselNeue Trainingsmethoden, wie z. B. das Verstärkungslernen, werden in den KI-Trainingsprozess eingeführt. So erforschen Unternehmen wie Anthropic, DeepSeek und andere den Einsatz von Reinforcement Learning zum Trainieren von Modellen zur Verbesserung des Denkens [Teil 1 des Originalartikels "Three Big Developments"].

3. Die Ressourcen von DeepSeek im Vergleich zu US-KI-Unternehmen

Anzahl der ChipsDeepSeek verfügt über etwa 50.000 Chips der Hopper-Generation (einschließlich H100, H800 und H20), was etwa der 2-3-fachen Anzahl von Chips entspricht, die sich im Besitz großer KI-Unternehmen in den USA befinden [Teil 2 des Originalartikels "DeepSeek's Model"].
KapitalanlageDeepSeek und amerikanische KI-Firmen unterscheiden sich in Bezug auf die Kapitalinvestitionen kaum, beide haben viel Geld in die KI-Forschung und -Entwicklung investiert [Teil 2 des Originalartikels, "DeepSeeks Modell"].

4. U.S.-Chip-Exportkontrollen für China

KontrolleDie Vereinigten Staaten haben mehrere Runden von Chip-Exportkontrollmaßnahmen gegen China durchgeführt, wie z. B. das Verbot der Ausfuhr von H100-Chips nach China und die Beschränkung der Ausfuhr von H800-Chips [Teil II des Originalartikels, "DeepSeek's Model"].
Auswirkungen der KontrolleDie Autoren argumentieren, dass die Exportkontrollen wirksam sind und dass die meisten der von DeepSeek verwendeten Chips entweder nicht verboten waren oder vor dem Verbot ausgeliefert wurden [Teil II des Originalartikels, "DeepSeek's Model"].
ZukunftsaussichtenDer Autor argumentiert, dass strenge Exportkontrollen der Schlüssel sind, um zu verhindern, dass China Millionen von Chips erwirbt, und dass dies darüber entscheiden wird, ob die zukünftige Weltlandschaft unipolar oder bipolar sein wird [Teil II des Originalartikels, "Export Controls"].

5. Geopolitische Implikationen für die KI-Entwicklung

KI-Wettbewerb zwischen China und den USADer Autor ist der Ansicht, dass die Entwicklung von KI zu einem verstärkten Wettbewerb zwischen China und den Vereinigten Staaten führen wird und zu einem bipolaren Muster von "genialen Ländern in Datenzentren" führen könnte [Teil II des Originalartikels, "Exportkontrollen"].
Amerikanischer VorteilDer Autor argumentiert, dass die Vereinigten Staaten ihren technologischen Vorsprung im Bereich der KI nutzen sollten, um einen dauerhaften Vorteil zu schaffen und China daran zu hindern, eine Vormachtstellung im Bereich der KI zu erlangen [Teil II des Originalartikels, "Export Controls"].

6. Andere Ansichten zur KI-Entwicklung

Kosten und Wert von AIObwohl die Kosten für das Training von KI-Modellen mit dem technologischen Fortschritt gesunken sind, ist der wirtschaftliche Wert der gesteigerten Intelligenz von KI-Modellen höher, was dazu führt, dass Unternehmen bereit sind, mehr Geld zu investieren [Originalartikel, Teil I, "Die drei Dynamiken"].
Ungewissheit in der KI-EntwicklungDie Autoren räumen ein, dass es bei der Entwicklung von KI Unsicherheiten gibt, z. B. dass KI-Systeme dazu beitragen können, intelligentere KI-Systeme zu entwickeln, was dazu führen könnte, dass ein vorübergehender Vorsprung in einen dauerhaften Vorteil umgewandelt wird [Teil II des Originalartikels, "Export Controls"].

Kritisches Lesen Vollständiger Text des Beitrags von Anthropic CEO: "Über DeepSeek und Exportkontrollen".

Anthropic-CEO unterstützt die KI-Hegemonie der USA, indem er die "chinesische Bedrohung" anprangert -1

Vor ein paar Wochen habe ichArtikel (in Veröffentlichung)argumentierte, dass die USA die Kontrollen für chinesische Chipexporte verschärfen sollten. Seitdem hat ein chinesisches KI-Unternehmen namens DeepSeek - zumindest in gewisser Weise - die Leistung modernster KI-Modelle in den USA erreicht, obwohl sie weniger kosten.

Ich werde mich hier nicht darauf konzentrieren, ob DeepSeek eine Bedrohung für US-KI-Unternehmen wie Anthropic darstellt (obwohl ich denke, dass Behauptungen über ihre Bedrohung der US-KI-Führerschaft stark übertrieben sind). Stattdessen werde ich mich darauf konzentrieren, ob die Veröffentlichung von DeepSeek die Argumente für eine Exportkontrollpolitik für Chips schwächt. Ich glaube nicht, dass das der Fall ist. Im Gegenteil.Ich denke, sie machen die Exportkontrollpolitik noch wichtiger als sie es noch vor einer Woche war..

Exportkontrollen dienen einem wichtigen Zweck: Sie sollen dafür sorgen, dass die Demokratien bei der KI-Entwicklung an der Spitze stehen. Um es klar zu sagen: Sie sind kein Mittel, um sich vor dem Wettbewerb zwischen den Vereinigten Staaten und China zu verstecken. Letztlich müssen die KI-Unternehmen in den Vereinigten Staaten und anderen Demokratien bessere Modelle haben als China, wenn wir uns durchsetzen wollen. Aber wir sollten China nicht einen technologischen Vorsprung überlassen, wenn wir nicht zu XXX müssen.

Drei wichtige Entwicklungen im Bereich der künstlichen Intelligenz

Bevor ich mein politisches Argument darlege, werde ich drei grundlegende Dynamiken von KI-Systemen beschreiben, die entscheidend sind:

Erweiterte Gesetze. Eines der Merkmale der künstlichen Intelligenz - ich habe mit meinen Mitbegründern bei OpenAI gearbeitet - ist dieFrüheste AufzeichnungenEiner der Menschen dieses Charakters - ist dasUnter sonst gleichen Bedingungen(math.) GattungDie Skalierung des Trainings von KI-Systemen führt zu gleichmäßig besseren Ergebnissen bei einer Reihe von kognitiven Aufgaben. Ein 1-Millionen-Dollar-Modell könnte beispielsweise die wichtige Codierungsaufgabe 20% lösen, ein 10-Millionen-Dollar-Modell 40%, ein 100-Millionen-Dollar-Modell 60% und so weiter. Diese Unterschiede haben in der Praxis oft enorme Auswirkungen - eine weitere Steigerung um eine Größenordnung kann einem Unterschied im Qualifikationsniveau von einem Hochschulabsolventen zu einem Doktoranden entsprechen -, so dass Unternehmen viel in die Ausbildung dieser Modelle investieren.
Kurvenverschiebung. In diesem Bereich werden ständig kleine und große Ideen entwickelt, um Dinge effektiver oder effizienter zu machen: z. B. die Modellierung vonbauenVerbesserungen (Optimierungen an der Transformer-Architektur, die von allen heutigen Modellen verwendet wird) oder einfach eine effizientere Ausführung der Modelle auf der zugrunde liegenden Hardware. Neuere Hardware-Generationen haben denselben Effekt. Dies wird in der RegelÜbertragungskurveWenn eine Innovation ein 2-facher "Berechnungsmultiplikator" (CM) ist, dann können Sie 5 Mio. $ statt 10 Mio. $ für eine Codierungsaufgabe ausgeben, um auf 40% zu kommen; oder 50 Mio. $ statt 100 Mio. $, um auf 60% zu kommen, und so weiter. Jedes innovative KI-Unternehmen findet regelmäßig viele dieser CMs: in der Regel kleine (~1,2x), manchmal mittlere (~2x) und gelegentlich sehr große (~10x). Da der Wert des Besitzes eines intelligenteren Systems so hoch ist, führt diese Verschiebung der Kurve normalerweise dazu, dass das UnternehmenMehr ausgebenNicht weniger, nicht mehr, um Modelle zu trainieren: Kosteneffizienzgewinne werden letztlich ausschließlich dazu verwendet, intelligentere Modelle zu trainieren, die nur durch die finanziellen Ressourcen eines Unternehmens begrenzt sind. Die Menschen fühlen sich natürlich von der Idee angezogen, dass "erst etwas teuer ist, dann wird es billiger" - als ob KI eine konstante Masse wäre, und je billiger sie wird, desto weniger Chips brauchen wir, um sie zu trainieren. Aber das ist der springende Punkt.ExpansionskurveWenn sie sich verschiebt, durchqueren wir sie einfach schneller, weil der Wert am Ende der Kurve so hoch ist. Im Jahr 2020 veröffentlichte mein Team eineein Papier oder eine These diskutieren (alt)Dies deutet darauf hin, dass aufgrund derArithmetikFortschritt, verschob sich die Kurve etwa 1,68 Mal pro Jahr. Dies hat sich seither wahrscheinlich erheblich beschleunigt; außerdem werden Effizienz und Hardware nicht berücksichtigt. Ich schätze, dass diese Zahl heute etwa 4x pro Jahr liegt. Eine andere Schätzung lautethier sind. Die Verschiebung der Ausbildungskurve hat auch die Inferenzkurve verschoben, so dass im Laufe der Jahre in derKonstanthaltung der Masse des ModellsIn den letzten Jahren hat es erhebliche Preissenkungen gegeben. So wurde z. B. Claude 3.5 Sonnet 15 Monate nach dem ursprünglichen GPT-4 veröffentlicht und schnitt in fast allen Benchmarks besser ab als das GPT-4, während gleichzeitig der API-Preis um einen Faktor von etwa 10 gesenkt wurde.
Paradigmenwechsel. Von Zeit zu Zeit ändert sich die zugrundeliegende Sache, die erweitert wird, ein wenig, oder eine neue Art der Erweiterung wird während der Ausbildung hinzugefügt. Von 2020 bis 2023 werden vor allem die folgenden Dinge erweitertPre-Training Modell: Modelle, die anhand einer immer größeren Menge von Internettexten trainiert werden, plus ein wenig anderes Training. 2024 werden Modelle, die anhand vonIntensives Lernen(Anthropic, DeepSeek und viele andere (vielleicht am bemerkenswertesten OpenAI mit der Veröffentlichung ihres o1-Preview-Modells im September) haben herausgefunden, dass diese Art von Training die Leistung bei bestimmten, objektiv messbaren Aufgaben (z. B. Mathematik, Codierwettbewerbe und logisches Denken, das diesen Aufgaben ähnlich ist) dramatisch verbessert. ähnliches Denken). Dieses neue Paradigma beinhaltetdurch (eine Lücke)Gewöhnliche vortrainierte ModelleEröffnungsfeierund nutzten dann RL als zweite Stufe, um Argumentationsfähigkeiten hinzuzufügen. Da diese Art von RL neu ist, befinden wir uns noch in einem sehr frühen Stadium der Expansionskurve: Die Ausgaben für die zweite RL-Phase waren bei allen Teilnehmern gering. Eine Million Dollar statt 100.000 Dollar reichen aus, um enorme Vorteile zu erzielen. Die Unternehmen arbeiten jetzt sehr schnell daran, die Phase II auf Hunderte von Millionen oder sogar Milliarden von Dollar auszuweiten, aber es ist wichtig zu verstehen, dass wir uns an einem einzigartigen "Schnittpunkt" befinden, an dem sich ein leistungsstarkes neues Paradigma in einem frühen Stadium der Skalierungskurve befindet und daher sehr schnell enorme Gewinne erzielen kann.

Das Modell von DeepSeek

Die drei oben genannten Dynamiken können uns helfen, die jüngste Veröffentlichung von DeepSeek zu verstehen. Vor etwa einem Monat veröffentlichte DeepSeek eine neue Software namens "DeepSeek-V3"Das Modell, das ein reinesPre-Training Modell-Phase 1, wie oben erwähnt. Dann, letzte Woche, veröffentlichten sie "DeepSeek-R1", wodurch eine zweite Phase hinzugefügt wird. Es ist unmöglich, alle Details dieser Modelle von außen zu bestimmen, aber hier ist mein bestes Verständnis der beiden Versionen.

DeepSeek-V3wirklich innovativ ist, undsollteEs hat vor etwa einem Monat die Aufmerksamkeit der Leute auf sich gezogen (wir haben es jedenfalls bemerkt). Als vortrainiertes Modell scheint es bei bestimmten wichtigen Aufgaben an die Leistung hochmoderner US-Modelle heranzukommen und ist gleichzeitig wesentlich billiger zu trainieren (obwohl wir festgestellt haben, dass Claude 3.5 Sonnet bei bestimmten anderen kritischen Aufgaben, wie z. B. der Codierung in der realen Welt, immer noch viel besser ist). Das DeepSeek-Team hat dies mit einigen wirklich beeindruckenden Innovationen erreicht, die sich hauptsächlich auf die technische Effizienz konzentrieren. Das DeepSeek-Team hat dies mit einigen wirklich beeindruckenden Innovationen erreicht, die sich hauptsächlich auf die technische Effizienz konzentrieren. Besonders innovativ waren die Verbesserungen bei der Verwaltung eines Key-Value-Caches, dem so genannten "Key-Value-Caching", und bei der Umsetzung eines Ansatzes, der "Expert Blending" genannt wird.

Es ist jedoch wichtig, genau hinzusehen:

DeepSeek hat nicht "für 6 Millionen Dollar das getan, was US-KI-Unternehmen für Milliarden von Dollar tun können". Ich kann nur für Anthropic sprechen, aber Claude 3.5 Sonnet ist ein mittelgroßes Modell, dessen Training zig Millionen Dollar gekostet hat (ich werde keine genauen Zahlen nennen). Außerdem wurde für das Training von 3.5 Sonnet keineswegs ein größeres oder teureres Modell verwendet (entgegen einiger Gerüchte). Sonnet wurde vor 9-12 Monaten trainiert, während das Modell von DeepSeek im November/Dezember trainiert wurde, und Sonnet hat in vielen internen und externen Bewertungen immer noch einen klaren Vorsprung. Ich denke also, eine faire Aussage wäre "DeepSeek hat vor 7-10 Monaten ein Modell mit ähnlicher Leistung wie das US-Modell hergestellt, und zwar zu wesentlich geringeren Kosten (aber bei weitem nicht in dem Ausmaß, wie hier behauptet wird)".
Wenn der historische Trend bei den Kostenrückgängen etwa 4x pro Jahr beträgt, bedeutet dies, dass wir bei normaler Geschäftstätigkeit - bei dem normalen historischen Trend der Kostenrückgänge in den Jahren 2023 und 2024 - erwarten würden, dass wir jetzt ein Modell haben, das 3,5 mal billiger ist als das Sonnet/GPT-4o um den Faktor 3-4 billiger ist. Da DeepSeek-V3 schlechter ist als diese US-Frontier-Modelle - sagen wir, etwa um den Faktor 2 schlechter auf der Expansionskurve, denke ich, dass das schon ziemlich großzügig für DeepSeek-V3 ist - was bedeutet, dass wenn DeepSeek V3 etwa 8-mal weniger kostet als das aktuelle US-Modell, das vor einem Jahr entwickelt wurde, wäre das völlig normal und absolut "im Trend". Ich werde keine konkreten Zahlen nennen, aber aus dem vorangegangenen Aufzählungspunkt geht klar hervor, dass die Ausbildungskosten von DeepSeek, selbst wenn man sie für bare Münze nimmt, bestenfalls im Trend liegen, wahrscheinlich aber nicht einmal annähernd. Zum Beispiel ist der Unterschied im Inferenzpreis (10x) zwischen dem ursprünglichen GPT-4 und Claude 3.5 Sonnet, das ein besseres Modell als GPT-4 ist, flacher. **All dies deutet darauf hin, dass DeepSeek-V3 weder ein einzigartiger Durchbruch ist, noch die Wirtschaftlichkeit von LLM grundlegend verändert; es ist ein erwarteter Punkt auf der Kurve der fortlaufenden Kostensenkung. Der Unterschied besteht darin, dass es diesmal ein chinesisches Unternehmen war, das als erstes die erwartete Kostensenkung nachgewiesen hat. **Das hat es noch nie gegeben und hat erhebliche geopolitische Auswirkungen. Die US-Unternehmen werden jedoch bald folgen - und zwar nicht, weil sie DeepSeek kopieren, sondern weil auch sie die üblichen Kostensenkungstrends erkennen.
DeepSeek und AI America verfügen beide über mehr Geld und mehr Chips als je zuvor. Die zusätzlichen Chips werden für Forschung und Entwicklung verwendet, um die Ideen hinter den Modellen zu entwickeln, und manchmal für das Training größerer Modelle, die noch nicht fertig sind (oder mehrere Versuche benötigen, um richtig zu funktionieren). Es gibt Berichte - wir sind nicht sicher, ob sie wahr sind - dass DeepSeek tatsächlich über50.000 TrichterGeneration, was schätzungsweise 2-3 Mal mehr ist als die Anzahl der Chips der großen US-KI-Firmen (z. B. mehr als xAIs "Koloss"Cluster" sind 2-3 mal kleiner). Die Kosten für diese 50.000 Hopper-Chips belaufen sich auf etwa 1 Milliarde Dollar.Infolgedessen unterscheiden sich die Gesamtausgaben von DeepSeek als Unternehmen (im Gegensatz zu den Ausgaben für das Training einzelner Modelle) nicht wesentlich von denen US-amerikanischer KI-Labors.
Es ist erwähnenswert, dass die Analyse der "erweiterten Kurve" eine etwas zu starke Vereinfachung ist, da die Modelle etwas unterschiedlich sind und verschiedene Stärken und Schwächen haben; die Zahl der erweiterten Kurve ist ein grober Durchschnitt, der viele Details auslässt. Ich kann nur über das Modell von Anthropic sprechen, aber wie ich bereits angedeutet habe, ist Claude in Bezug auf die Programmierung und die Art und Weise, wie er mit Menschen interagiert, sehr gut konzipiert (viele Menschen nutzen es, um persönlichen Rat oder Unterstützung zu suchen). Bei diesen und einigen weiteren Aufgaben gibt es einfach keinen Vergleich mit DeepSeek. Diese Faktoren sind in den erweiterten Zahlen nicht enthalten.

R1ein Modell, das letzte Woche veröffentlicht wurde und viel Aufmerksamkeit in der Öffentlichkeit erregt hat (einschließlichNVIDIA Aktien fallen um 17%), ist aus innovativer oder technischer Sicht bei weitem nicht so interessant wie V3. Es fügt eine zweite Trainingsphase hinzu - Verstärkungslernen, wie in Punkt 3 des vorherigen Abschnitts beschrieben - und wiederholt im Wesentlichen, was OpenAI mit o1 gemacht hat (sie scheinen ähnliche Ergebnisse in ähnlichem Umfang zu erzielen)^8^. Da wir uns jedoch in der Anfangsphase der Expansionskurve befinden, wird es wahrscheinlich mehrere Unternehmen geben, die diese Art von Modellen herstellen, solange sie mit starken vortrainierten Modellen beginnen. Angesichts der Tatsache, dass V3 wahrscheinlich sehr billig in der Herstellung von R1 ist. Wir befinden uns also an einem interessanten "Kreuzungspunkt", an dem vorerst mehrere Unternehmen gute Inferenzmodelle herstellen. Dies wird schnell aufhören, da alle Unternehmen ihre Kurven bei dieser Art von Modellen weiter ausbauen.

Ausfuhrkontrolle

All dies ist nur ein Vorspiel zu meinem Hauptthema: Chip-Exportkontrollen gegenüber China. Angesichts dieser Fakten sehe ich die Situation wie folgt:

Es gibt einen anhaltenden Trend zu UnternehmenMehr und mehr ausgeben.um leistungsstarke KI-Modelle zu trainieren, auch wenn sich die Kurve regelmäßig verschiebt und das TrainingvorausschickenDie Kosten für horizontale Modellintelligenz sinken rapide. Es ist nur so, dass der wirtschaftliche Wert der Ausbildung intelligenterer Modelle so groß ist, dass sich jeder Kostenvorteil fast sofortsich vollständig aufheben--Sie werden in die Entwicklung intelligenterer Modelle reinvestiert, und zwar zu denselben enormen Kosten, die wir ursprünglich geplant hatten. Da die US-Labors sie noch nicht entdeckt haben, werden die von DeepSeek entwickelten Effizienzinnovationen bald von Labors in den USA und China angewandt werden, um Modelle im Wert von Milliarden von Dollar zu trainieren. Diese Modelle werden besser sein als die milliardenschweren Modelle, die sie bisher trainieren wollten - aber sie werden immer noch Milliarden von Dollar kosten. Diese Zahl wird weiter steigen, bis wir den Punkt erreichen, an dem die KI in fast allen Bereichen intelligenter ist als der Mensch.
Um eine KI zu entwickeln, die in fast allen Bereichen intelligenter ist als der Mensch, werden Millionen von Chips benötigt, die mindestens zehn Milliarden Dollar kosten und höchstwahrscheinlich in den Jahren 2026 bis 2027 zum Einsatz kommen werden. Die DeepSeek-Veröffentlichungen ändern daran nichts, da sie in etwa der Kostensenkungskurve entsprechen, die bei diesen Berechnungen immer berücksichtigt wurde.
Das bedeutet, dass wir im Jahr 2026-2027 in zwei sehr unterschiedlichen Welten leben könnten. In den USA werden sicherlich mehrere Unternehmen über die benötigten Millionen von Chips verfügen (zu Kosten von mehreren zehn Milliarden Dollar). Die Frage ist, ob China auch Zugang zu Millionen von Chips haben wird.
- Wenn sie das könnten, würden wir in einerden Nord- und SüdpolenDie USA und China verfügen beide über leistungsstarke KI-Modelle, die zu extrem schnellen Fortschritten in Wissenschaft und Technologie führen werden - was ich als "Eine Nation von Genies in einem Rechenzentrum". Eine bipolare Welt ist nicht unbedingt immer ausgeglichen. Selbst wenn die KI-Systeme der USA und Chinas gleichwertig sind, könnte China in der Lage sein, mehr Talent, Kapital und Aufmerksamkeit auf militärische Anwendungen der Technologie zu verwenden. In Verbindung mit seiner großen industriellen Basis und seinen militärisch-strategischen Vorteilen könnte dies China helfen, eine Vormachtstellung auf der globalen Bühne zu erlangen, nicht nur im Bereich der KI, sondern in allen Bereichen.
- Wenn Chinakann nichtHolen Sie sich Millionen von Chips und wir werden (zumindest vorübergehend) in einerunipolarWelt verfügen nur die Vereinigten Staaten und ihre Verbündeten über diese Modelle. Es ist nicht klar, wie lange die unipolare Welt Bestand haben wird, aber es ist zumindest eine Möglichkeit, dass dieDa KI-Systeme letztlich dazu beitragen können, intelligentere KI-Systeme zu entwickeln, kann sich ein vorübergehender Vorsprung in einen dauerhaften Vorteil verwandeln. Infolgedessen ist es eine Welt, in der die Vereinigten Staaten und ihre Verbündeten wahrscheinlich eine dominante und dauerhafte Führung auf der globalen Bühne übernehmen werden.
Strenge Exportkontrollen sind das Einzige, was China daran hindern kann, Millionen von Chips zu erwerben, und sind daher der wichtigste Faktor, der darüber entscheidet, ob wir in einer unipolaren oder bipolaren Welt leben werden.
Die Leistung von DeepSeek bedeutet nicht, dass die Ausfuhrkontrollen versagt haben. Wie ich bereits sagte, verfügt DeepSeek über eine mäßige bis große Anzahl von Chips, so dass es nicht überrascht, dass sie in der Lage waren, ein leistungsstarkes Modell zu entwickeln und zu trainieren. Sie haben nicht mehr Ressourcen als US-KI-Unternehmen, und Exportkontrollen sind kein wichtiger Faktor für ihre "Innovation". Sie sind einfach nur sehr talentierte Ingenieure und zeigen, warum China ein ernsthafter Konkurrent für die USA ist.
DeepSeek zeigt auch nicht, dass China immer in der Lage sein wird, die benötigten Chips durch Schmuggel zu beschaffen, oder dass es immer Schlupflöcher in den Kontrollen geben wird. Ich glaube nicht, dass die Exportkontrollen jemals dazu gedacht waren, China daran zu hindern, sich Zehntausende von Chips zu beschaffen. Eine Milliarde Dollar an wirtschaftlicher Aktivität kann versteckt werden, aber es ist schwer, 100 Milliarden Dollar oder sogar 10 Milliarden Dollar zu verstecken. eine Million Chips könnte auch schwer zu schmuggeln sein. Auch hier ist es aufschlussreich, sich die Chips anzusehen, die DeepSeek nach eigenen Angaben derzeit besitzt. Laut SemiAnalysis handelt es sich um eine Mischung aus H100, H800 und H20, insgesamt 50.000 Stück. Die H100 sind seit ihrer Veröffentlichung durch Exportkontrollen verboten, wenn DeepSeek also welche besitzt, müssen sie durch Schmuggel erworben worden sein (beachten Sie, dass NVIDIABereits erklärtDer Fortschritt von DeepSeek ist "vollständig konform mit den Exportkontrollen"). Der H800 wurde in der ersten Runde der Exportkontrollen im Jahr 2022 erlaubt, aber in der Aktualisierung der Kontrollen im Oktober 2023 verboten, so dass diese wahrscheinlich vor dem Verbot ausgeliefert wurden. Der H20 ist weniger effizient für die Ausbildung, effizienter für die Probenahme -aber immer noch erlaubt, obwohl ich denke, dass es verboten werden sollte. All dies deutet darauf hin, dass der Großteil der KI-Chipflotte von DeepSeek aus Chips besteht, die nicht verboten wurden (aber hätten verboten werden sollen), aus Chips, die vor dem Verbot versandt wurden, und aus einigen Chips, die höchstwahrscheinlich geschmuggelt worden sind. Dies deutet darauf hin, dass die Exportkontrollen tatsächlich funktionieren und sich anpassen: Die Schlupflöcher werden geschlossen; andernfalls könnten sie über eine ganze Flotte von H100-Chips der Spitzenklasse verfügen. Wenn wir die Schlupflöcher schnell genug schließen können, können wir vielleicht verhindern, dass China Millionen von Chips erhält, was die Wahrscheinlichkeit einer unipolaren Welt mit den USA an der Spitze erhöht.

Angesichts meiner Bedenken hinsichtlich der Ausfuhrkontrollen und der nationalen Sicherheit der USA möchte ich mich klar ausdrücken. Ich betrachte DeepSeek nicht als Gegner per se, und der Fokus liegt nicht speziell auf ihnen. In den Interviews, die sie gegeben haben, scheinen sie kluge, neugierige Forscher zu sein, die nur versuchen, nützliche Technologie zu entwickeln.

Aber sie sind einem XXXX unterworfen, der gegen die XX verstößt und auf der Weltbühne aggressiv agiert, und wenn sie in der Lage sind, es den USA in Sachen KI gleichzutun, werden sie in diesem Verhalten noch ungehinderter sein. Exportkontrollen sind eines der wirksamsten Instrumente, die wir haben, um dies zu verhindern, und die Vorstellung, dass Technologie zu einemmächtigerPreis-/Leistungsverhältnismehrist ein Grund, unsere Exportkontrollen aufzuheben, was völlig ungerechtfertigt ist.