Le PDG d'Anthropic soutient l'hégémonie américaine en matière d'IA en dénonçant la "menace chinoise".
Commentaire :
1. discréditer le développement de l'IA par la Chine et rendre la "théorie de la menace chinoise".
L'auteur de l'article estime que les États-Unisexagérer délibérément DeepSeek La soi-disant "menace" que représentent pour les États-Unis les avancées technologiques des entreprises chinoises spécialisées dans l'IA et d'autres, et l'association forcée de cette menace à la soi-disant "menace XXX", est un argument qui est truffé d'erreurs et de fautes.la mentalité de la guerre froiderépondre en chantantpréjugés idéologiques.
- L'auteur reconnaît l'innovation et l'efficacité de DeepSeek, mais fait ensuite volte-face et attribue son succès au fait d'avoir été "soumis à une XXXX qui a violé XXXX", une accusation sans fondement qui ignore complètement le fait que les entreprises chinoises spécialisées dans l'IA comptent sur leurs propres efforts et sur les mécanismes du marché pour réussir.
- L'auteur utilise le prétexte d'"empêcher la Chine d'obtenir des avantages XX" pour défendre la politique de contrôle des exportations de puces des États-Unis, mais évite de parler de leur propre utilisation d'avantages technologiques pour supprimer leurs concurrents.deux poids, deux mesuresExposé.
2. maintenir l'hégémonie technologique des États-Unis et tenter de freiner le développement de l'IA en Chine
L'objectif principal de l'article est dePréserver la domination mondiale des États-Unis dans le domaine de l'IAet a tenté de le faire en :
- Exagérer le rôle des contrôles à l'exportation: : L'auteur affirme que les contrôles à l'exportation sont "le seul moyen d'empêcher la Chine d'acquérir des millions de puces" et les considère comme un facteur déterminant du futur paysage mondial. Cet argument ne tient pas compte de la complexité de la chaîne industrielle mondiale et des progrès technologiques de la Chine.
- En fait, la Chine augmente ses investissements dans la recherche et le développement de puces et a réalisé des progrès significatifs. Si les contrôles américains à l'exportation ont eu un certain impact sur le développement de l'IA en Chine, ils ne peuvent pas arrêter les progrès continus de la technologie chinoise de l'IA.
- Plaidoyer pour le "découplage technologique".: : L'auteur laisse entendre que les Etats-Unis devraient continuer à renforcer leur embargo technologique contre la Chine, et suggère même que les Etats-Unis devraient profiter de la technologie de l'IA pour établir un "avantage durable", ce qui est sans aucun doute un plaidoyer en faveur du "découplage technologique" et va à l'encontre de la tendance à la mondialisation.
- Une telle approche ne nuira pas seulement aux intérêts de la Chine, mais aussi à ceux des États-Unis eux-mêmes, et entravera le progrès scientifique et technologique et le développement économique à l'échelle mondiale.
3. ignorer la nature du développement de l'IA et induire le public en erreur
L'article est biaisé dans sa compréhension du développement de l'IA, de l'évolution des technologies de l'information et de la communication (TIC) et de l'évolution de la société civile.accent excessifLa "loi d'échelle" et l'"effet d'échelle" ignorent les facteurs importants suivants :
- La tendance multipolaire du développement de l'IALe développement de la technologie de l'IA n'est pas l'apanage des États-Unis, la Chine, l'Europe et d'autres pays et régions explorent activement la voie du développement de l'IA et ont acquis leurs propres avantages.
- Éthique et sécurité de l'IALa Commission européenne a adopté une position commune sur les questions éthiques et de sécurité soulevées par le développement de l'IA, qui doit être abordée dans le cadre d'une coopération mondiale et non par l'unilatéralisme et les blocages technologiques.
- Impact de l'IA sur la société humaineM. K. : La technologie de l'IA devrait en fin de compte servir le développement et le progrès de la société humaine, plutôt que de devenir un outil pour les jeux des grandes puissances.
4) Appel à une vision rationnelle de la concurrence sino-américaine en matière d'IA et à la promotion de la coopération mondiale
Face aux opportunités et aux défis du développement de l'IA, la Chine et les États-Unis devraient.. :
- Abandonner la mentalité du jeu à somme nulleLa Chine et les États-Unis ne sont pas seulement en concurrence dans le domaine de l'IA, mais devraient renforcer leur coopération et promouvoir conjointement les progrès de la technologie de l'IA et le développement industriel à l'échelle mondiale.
- Renforcer la communication et le dialogueLes deux parties devraient avoir des échanges approfondis sur les questions clés du développement de l'IA afin d'améliorer la compréhension et d'éviter les malentendus et les erreurs d'appréciation.
- Co-élaboration des règles de gouvernance de l'IALa Chine et les États-Unis devraient collaborer avec d'autres pays pour promouvoir la mise en place d'un système mondial de gouvernance de l'IA qui soit équitable, juste et inclusif, afin que la technologie de l'IA profite à l'ensemble de l'humanité.
lecture rapide
1. Avancées technologiques et avantages en termes de coûts de DeepSeek
- Des performances proches de celles des modèles d'IA de pointe aux États-UnisLes modèles publiés par DeepSeek (en particulier DeepSeek-V3) approchent les performances des modèles américains de pointe dans certaines tâches importantes, telles que le codage, les concours mathématiques et les tâches de raisonnement [Partie II de l'article original, "DeepSeek's Models"].
- Réductions significatives des coûtsLes coûts de formation du modèle DeepSeek sont bien inférieurs à ceux des entreprises américaines. Par exemple, la formation de DeepSeek-V3 a coûté environ 6 millions de dollars, alors que celle de Anthropique (utilisé comme expression nominale) Claude 3.5 La formation de Sonnet coûte des dizaines de millions de dollars [Partie II de l'article original, "DeepSeek's Model"].
- Il ne s'agit pas d'une avancée "perturbatrice".Les auteurs affirment que les réalisations de DeepSeek ne sont pas des "percées uniques", mais qu'elles s'inscrivent dans la courbe attendue de la baisse des coûts de l'IA [Partie II de l'article original, "DeepSeek's Model"].
2. Trois évolutions majeures dans le développement de l'IA
- la loi de l'expansionAu fur et à mesure que l'échelle de formation du système d'IA augmente, les performances sur les tâches cognitives s'améliorent progressivement. Par exemple, si la taille du modèle passe de 1 million à 100 millions de dollars, le taux de résolution des tâches passe de 20% à 60% [article original, partie I, "Trois dynamiques clés"].
- transfert courbe (physique)Par exemple, l'API de Claude 3.5 Sonnet est environ 10 fois moins chère que celle de GPT-4. Par exemple, le prix de l'API de Claude 3.5 Sonnet est environ 10 fois moins élevé que celui de GPT-4 [Partie 1 de l'article original, "Trois développements majeurs"].
- changement de paradigmeDe nouvelles méthodes de formation, telles que l'apprentissage par renforcement, sont introduites dans le processus de formation de l'IA. Par exemple, des entreprises comme Anthropic, DeepSeek et d'autres explorent l'utilisation de l'apprentissage par renforcement pour former des modèles afin d'améliorer le raisonnement [Partie 1 de l'article original, "Trois grandes évolutions"].
3. Ressources de DeepSeek par rapport aux entreprises américaines spécialisées dans l'IA
- Nombre de pucesDeepSeek possède environ 50 000 puces de la génération Hopper (y compris H100, H800 et H20), soit environ 2 à 3 fois le nombre de puces détenues par les principales entreprises d'IA aux États-Unis [Partie 2 de l'article original, "DeepSeek's Model"].
- investissement en capitalIl n'y a pas de grande différence entre DeepSeek et les entreprises d'IA américaines en termes d'investissement, toutes deux ont investi beaucoup d'argent dans la recherche et le développement de l'IA [Partie 2 de l'article original, "Le modèle de DeepSeek"].
4. Contrôle des exportations de puces américaines vers la Chine
- contrôleLes États-Unis ont mis en œuvre plusieurs séries de mesures de contrôle des exportations de puces à l'encontre de la Chine, telles que l'interdiction des exportations de puces H100 vers la Chine et la restriction des exportations de puces H800 [Partie II de l'article original, "DeepSeek's Model"].
- Effets de contrôle: : Les auteurs affirment que les contrôles à l'exportation sont efficaces et que la plupart des puces utilisées par DeepSeek n'étaient pas interdites ou avaient été expédiées avant l'interdiction [Partie II de l'article original, "DeepSeek's Model"].
- perspectives d'avenir: 作者认为严格的出口管制是阻止中国获得数百万芯片的关键,并认为这将决定未来世界格局是单极还是两极【原文第二部分“出口管制”】。
5. Implications géopolitiques du développement de l'IA
- Concours d'IA Chine-États-Unis: 作者认为 AI 发展将导致中美之间的竞争加剧,并可能形成“数据中心里的天才国家”的两极格局【原文第二部分“出口管制”】。
- Avantage américain: : L'auteur soutient que les États-Unis devraient utiliser leur avantage technologique en matière d'IA pour construire un avantage durable afin d'empêcher la Chine de dominer le domaine de l'IA [Partie II de l'article original, "Contrôles à l'exportation"].
6. Autres points de vue sur le développement de l'IA
- Coût et valeur de l'IABien que le coût de la formation des modèles d'IA ait diminué avec les progrès technologiques, la valeur économique de l'intelligence accrue des modèles d'IA est plus élevée, ce qui fait que les entreprises sont prêtes à investir plus d'argent [article original, partie I, "Les trois dynamiques"].
- Incertitude dans le développement de l'IALes auteurs reconnaissent qu'il existe des incertitudes dans le développement de l'IA, par exemple que les systèmes d'IA peuvent aider à créer des systèmes d'IA plus intelligents, ce qui pourrait transformer une avance temporaire en un avantage durable [Partie II de l'article original, "Contrôles à l'exportation"].
Lecture critique Texte intégral de "On DeepSeek and Export Controls" par Anthropic CEO

Il y a quelques semaines, j'aiarticle (en cours de publication)a soutenu que les États-Unis devraient renforcer les contrôles sur les exportations de puces chinoises. Depuis, une entreprise chinoise spécialisée dans l'IA, DeepSeek, a réussi - du moins à certains égards - à approcher les performances des modèles d'IA de pointe aux États-Unis, tout en coûtant moins cher.
Je ne chercherai pas ici à savoir si DeepSeek constitue une menace pour les entreprises américaines spécialisées dans l'IA telles qu'Anthropic (même si je pense que les affirmations concernant leur menace pour le leadership américain en matière d'IA sont largement exagérées). Je me concentrerai plutôt sur la question de savoir si la publication de DeepSeek affaiblit les arguments en faveur des politiques de contrôle des exportations de puces. Je ne pense pas que ce soit le cas. En fait.Je pense qu'ils rendent la politique de contrôle des exportations encore plus vitale qu'elle ne l'était il y a une semaine..
Les contrôles à l'exportation ont une fonction essentielle : maintenir les démocraties à l'avant-garde du développement de l'IA. Pour être clair, il ne s'agit pas d'un moyen de se soustraire à la concurrence entre les États-Unis et la Chine. En fin de compte, si nous voulons l'emporter, les entreprises d'IA des États-Unis et d'autres démocraties doivent disposer de meilleurs modèles que la Chine. Mais nous ne devons pas donner à la Chine un avantage technologique lorsque nous n'avons pas à le faire.
Trois développements majeurs dans le domaine de l'intelligence artificielle
Avant de présenter mon argumentaire politique, je décrirai trois dynamiques fondamentales des systèmes d'IA qui sont cruciales :
- Lois étendues. L'une des caractéristiques de l'intelligence artificielle - j'ai travaillé avec mes cofondateurs à l'OpenAI - est le fait qu'elle ne peut pas être utilisée pour des raisons de sécurité.Enregistrements les plus anciensL'une des personnes de ce personnage - c'est queToutes choses égales par ailleurs(math.) genreL'intensification de la formation des systèmes d'IA permet d'obtenir de meilleurs résultats dans toute une série de tâches cognitives. Par exemple, un modèle d'un million de dollars peut résoudre l'importante tâche de codage de 20%, un modèle de 10 millions de dollars peut résoudre 40%, un modèle de 100 millions de dollars peut résoudre 60%, et ainsi de suite. Ces différences ont souvent d'énormes implications dans la pratique - un autre ordre de grandeur peut correspondre à une différence de niveau de compétence entre un étudiant de premier cycle et un doctorant - c'est pourquoi les entreprises investissent massivement dans la formation de ces modèles.
- Changement de courbe. Le secteur est constamment en train de trouver des idées, petites ou grandes, pour rendre les choses plus efficaces ou plus efficientes : il peut s'agir de modéliserconstruire(modifications de l'architecture Transformer utilisée par tous les modèles actuels), ou simplement l'exécution plus efficace des modèles sur le matériel sous-jacent. Les nouvelles générations de matériel ont le même effet. En général, il s'agit decourbe de transfertSi l'innovation est un "multiplicateur de calcul" (MC) de 2x, elle vous permet de dépenser 5 millions de dollars au lieu de 10 millions de dollars pour une tâche de codage afin d'atteindre 40% ; ou 50 millions de dollars au lieu de 100 millions de dollars pour atteindre 60%, et ainsi de suite. Chaque entreprise d'IA de pointe trouve régulièrement un grand nombre de ces CM : généralement petits (~1,2x), parfois moyens (~2x), et parfois très grands (~10x). La valeur de la possession d'un système plus intelligent étant très élevée, ce déplacement de la courbe se traduit généralement par le fait que l'entrepriseDépenser plusLes gains de rentabilité sont finalement utilisés exclusivement pour former des modèles plus intelligents, limités uniquement par les ressources financières de l'entreprise. Les gens sont naturellement attirés par l'idée que "quelque chose est d'abord cher, puis devient moins cher" - comme si l'IA était une masse constante et qu'au fur et à mesure qu'elle devient moins chère, nous utiliserons moins de puces pour l'entraîner. Mais c'est là l'essentiel.courbe d'expansionLorsqu'elle se déplace, nous la traversons plus rapidement car la valeur à l'extrémité de la courbe est très élevée. En 2020, mon équipe a publié undiscuter d'un article ou d'une thèse (ancien)Cela indique qu'en raison de laarithmétiquela courbe s'est déplacée à un rythme d'environ 1,68 fois par an. Ce taux s'est probablement accéléré de manière significative depuis lors ; il ne prend pas non plus en compte l'efficacité et le matériel. Je dirais qu'aujourd'hui, ce chiffre est probablement d'environ 4 fois par an. Une autre estimation estVoici. Le déplacement de la courbe de formation a également déplacé la courbe d'inférence, de sorte qu'au fil des années, dans laMaintien de la masse du modèle à un niveau constantEn outre, des réductions de prix significatives ont eu lieu. Par exemple, Claude 3.5 Sonnet est sorti 15 mois après le GPT-4 original et a obtenu de meilleurs résultats que le GPT-4 dans presque tous les benchmarks, alors que dans le même temps le prix de l'API a été réduit d'un facteur d'environ 10.
- Changement de paradigme. De temps en temps, l'élément sous-jacent de l'extension change un peu ou un nouveau type d'extension est ajouté au cours de la formation. De 2020 à 2023, les principales extensions sont les suivantesModèle de pré-entraînement: modèles formés sur une quantité toujours plus grande de texte Internet, plus un peu d'autres formations. en 2024, les modèles formés à l'aide deApprentissage intensif(anthropic, DeepSeek et bien d'autres (notamment OpenAI avec la sortie de son modèle o1-preview en septembre) ont constaté que ce type d'entraînement améliorait considérablement les performances dans certaines tâches spécifiques objectivement mesurables (par exemple, les mathématiques, les concours de codage et le raisonnement similaire à ces tâches). raisonnement similaire à ces tâches). Ce nouveau paradigme impliqueà travers (une brèche)Modèles ordinaires pré-entraînéscommencementLes participants ont ensuite utilisé le LR dans un deuxième temps pour ajouter des compétences en matière de raisonnement. Il est important de noter qu'en raison de la nouveauté de ce type d'apprentissage par la lecture, nous nous trouvons encore aux tout premiers stades de la courbe d'expansion : les dépenses liées à la deuxième phase d'apprentissage par la lecture ont été faibles pour l'ensemble des participants. Il suffit de dépenser un million de dollars au lieu de 100 000 dollars pour récolter d'énormes bénéfices. Les entreprises travaillent désormais très rapidement pour porter la phase II à des centaines de millions, voire des milliards de dollars, mais il est essentiel de comprendre que nous nous trouvons à une "intersection" unique où un nouveau paradigme puissant se trouve à un stade précoce de la courbe d'expansion, et peut donc réaliser très rapidement des gains considérables.
Le modèle de DeepSeek
Les trois dynamiques ci-dessus peuvent nous aider à comprendre la récente publication de DeepSeek. Il y a environ un mois, DeepSeek a lancé un nouveau logiciel appelé "DeepSeek-V3"Le modèle, qui est un modèle purementModèle de pré-entraînementPhase 1 comme mentionné ci-dessus. Puis, la semaine dernière, ils ont publié "Profondeur de l'eau-R1"en ajoutant une deuxième phase. Il est impossible de déterminer tous les détails de ces modèles de l'extérieur, mais voici ma meilleure compréhension des deux versions.
DeepSeek-V3est réellement innovante etdevraitIl a attiré l'attention des gens il y a environ un mois (nous l'avons certainement remarqué). En tant que modèle pré-entraîné, il semble approcher les performances des modèles américains de pointe sur certaines tâches importantes, tout en étant considérablement moins cher à entraîner (bien que nous ayons trouvé que Claude 3.5 Sonnet était encore bien meilleur sur certaines autres tâches critiques, telles que le codage dans le monde réel). L'équipe DeepSeek y est parvenue grâce à des innovations vraiment impressionnantes, principalement axées sur l'efficacité de l'ingénierie. Des améliorations particulièrement innovantes ont été apportées à la gestion d'un cache clé-valeur appelé "key-value caching" et à la mise en œuvre d'une approche appelée "expert blending".
Cependant, il est important d'y regarder de plus près :
- DeepSeek n'a pas "fait pour 6 millions de dollars ce que les entreprises américaines d'IA peuvent faire pour des milliards de dollars". Je ne peux parler que pour Anthropic, mais Claude 3.5 Sonnet est un modèle de taille moyenne dont l'entraînement a coûté des dizaines de millions de dollars (je ne donnerai pas de chiffres exacts). De plus, la formation de 3.5 Sonnet n'a en aucun cas impliqué un modèle plus grand ou plus cher (contrairement à certaines rumeurs). Sonnet a été formé il y a 9-12 mois, alors que le modèle de DeepSeek a été formé en novembre/décembre, et Sonnet est toujours clairement en avance dans de nombreuses évaluations internes et externes. Je pense donc qu'une déclaration juste serait "DeepSeek a produit un modèle aux performances similaires à celles du modèle américain il y a 7 à 10 mois, à un coût bien moindre (mais loin des proportions que les gens laissent entendre).".
- Si la tendance historique des baisses de la courbe des coûts est d'environ 4 fois par an, cela signifie que dans une activité commerciale normale - dans la tendance historique normale des baisses de coûts se produisant en 2023 et 2024 - nous nous attendrions à avoir maintenant un modèle qui est 3,5 fois moins cher que le modèle Sonnet/GPT-4o moins cher d'un facteur de 3 à 4, ce qui signifie que le modèle Sonnet/GPT-4o n'a pas été utilisé. Sonnet/GPT-4o par un facteur de 3 à 4. Étant donné que DeepSeek-V3 est moins performant que ces modèles de la frontière américaine - disons d'un facteur 2 sur la courbe d'expansion, je pense que c'est déjà très généreux pour DeepSeek-V3 - ce qui signifie que si DeepSeek V3 coûte environ 8 fois moins cher à former que le modèle américain actuel développé il y a un an, ce serait tout à fait normal et parfaitement "dans la tendance". Je ne donnerai pas de chiffres précis, mais il ressort clairement du point précédent que même si l'on prend les coûts de formation de DeepSeek pour argent comptant, ils sont au mieux dans la tendance, et probablement loin du compte. Par exemple, cette différence est plus faible que la différence de prix d'inférence (10x) entre le GPT-4 original et Claude 3.5 Sonnet, qui est un meilleur modèle que le GPT-4. **Tout ceci suggère que DeepSeek-V3 n'est pas une percée unique, ni ne change fondamentalement l'économie du LLM ; c'est un point attendu sur la courbe de la réduction continue des coûts. La différence est que cette fois-ci, c'est une entreprise chinoise qui a été la première à démontrer la réduction des coûts attendue. **Cela ne s'est jamais produit auparavant et a des implications géopolitiques importantes. Cependant, les entreprises américaines suivront bientôt - et elles ne le feront pas en copiant DeepSeek, mais parce qu'elles réalisent elles aussi les tendances habituelles en matière de réduction des coûts.
- DeepSeek et AI America disposent tous deux de plus d'argent et de puces que jamais auparavant. Les puces supplémentaires sont utilisées pour la R&D afin de développer les idées qui sous-tendent les modèles, et parfois pour l'entraînement de modèles plus importants qui ne sont pas encore prêts (ou qui nécessitent plusieurs essais pour être parfaits). Selon certaines informations - dont nous ne sommes pas sûrs qu'elles soient exactes - DeepSeek aurait en fait50 000 Trémiece qui, selon moi, est environ 2 à 3 fois différent du nombre de puces détenues par les principales entreprises américaines spécialisées dans l'IA (par exemple, c'est plus que le nombre de puces de la " génération " de xAI).Colosse"Le coût de ces 50 000 puces Hopper est d'environ 1 milliard de dollars.) Le coût de ces 50 000 puces Hopper est d'environ 1 milliard de dollars.Par conséquent, les dépenses totales de DeepSeek en tant qu'entreprise (par opposition aux dépenses consacrées à la formation de modèles individuels) ne sont pas très différentes de celles des laboratoires d'IA américains.
- Il convient de noter que l'analyse de la "courbe étendue" est un peu trop simpliste, car les modèles sont quelque peu différents, avec des forces et des faiblesses différentes ; le chiffre de la courbe étendue est une moyenne approximative qui ne tient pas compte de beaucoup de détails. Je ne peux parler que du modèle d'Anthropic, mais comme je l'ai mentionné plus haut, Claude est très bien conçu en termes de codage et d'interaction avec les gens (de nombreuses personnes l'utilisent pour obtenir des conseils personnels ou du soutien). Il n'y a tout simplement pas de comparaison possible avec DeepSeek pour ces tâches et d'autres encore. Ces facteurs ne sont pas présents dans les chiffres détaillés.
R1Il s'agit d'un modèle publié la semaine dernière qui a suscité de vives inquiétudes dans l'opinion publique (y compris dans les pays de l'Union européenne).Les actions de NVIDIA chutent d'environ 17%), est loin d'être aussi intéressante que V3 du point de vue de l'innovation ou de l'ingénierie. Elle ajoute une deuxième étape de formation - l'apprentissage par renforcement, comme décrit au point 3 de la section précédente - et reproduit essentiellement ce qu'OpenAI a fait avec o1 (ils semblent obtenir des résultats similaires à des échelles similaires)^.8^. Toutefois, étant donné que nous nous trouvons aux premiers stades de la courbe d'expansion, il est probable que plusieurs entreprises produiront ce type de modèle, à condition qu'elles commencent par des modèles pré-entraînés solides. Étant donné que la production de V3 est probablement très peu coûteuse, R1. Nous nous trouvons donc à un "point de croisement" intéressant où, pour l'instant, plusieurs entreprises produisent de bons modèles d'inférence. Cette situation va rapidement s'arrêter, car toutes les entreprises étendent leurs courbes sur ce type de modèle.
contrôle des exportations
Tout ceci n'est qu'un prélude à mon principal sujet d'intérêt : le contrôle des exportations de puces vers la Chine. Compte tenu de ces faits, mon point de vue sur la situation est le suivant :
- Les entreprises ont de plus en plus tendance àDépenser de plus en plus.pour entraîner des modèles d'IA puissants, même si la courbe se déplace périodiquement et que l'entraînement se fait à l'aide d'un système d'apprentissage.déclarer à l'avanceLe coût de l'intelligence des modèles horizontaux diminue rapidement. C'est simplement que la valeur économique de la formation de modèles plus intelligents est si importante que tout avantage en termes de coûts est presque immédiatement perdu.s'annuler complètement--Ils sont réinvestis dans la création de modèles plus intelligents, au même coût énorme que celui que nous avions prévu de dépenser à l'origine. Comme les laboratoires américains ne les ont pas encore découvertes, les innovations en matière d'efficacité développées par DeepSeek seront bientôt appliquées par les laboratoires américains et chinois pour former des modèles d'une valeur de plusieurs milliards de dollars. Ces modèles seront plus performants que les modèles de plusieurs milliards de dollars qu'ils prévoyaient auparavant de former, mais ils coûteront encore des milliards de dollars. Ce chiffre continuera d'augmenter jusqu'à ce que l'IA soit plus intelligente que la quasi-totalité des humains dans presque tous les domaines.
- La mise au point d'une IA plus intelligente que la quasi-totalité des humains dans presque tous les domaines nécessitera des millions de puces, coûtera au moins des dizaines de milliards de dollars et se produira très probablement en 2026-2027. Les versions de DeepSeek ne changent rien à cette situation, car elles correspondent à peu près à la courbe de réduction des coûts qui a toujours été prise en compte dans ces calculs.
- Cela signifie qu'en 2026-2027, nous pourrions vivre dans deux mondes très différents. Aux États-Unis, de nombreuses entreprises disposeront certainement des millions de puces nécessaires (au prix de dizaines de milliards de dollars). La question est de savoir si la Chine aura également accès à des millions de puces.
- Si c'était le cas, nous vivrions dans un pays en voie de développement.les pôles nord et sudDans le monde entier, les États-Unis et la Chine disposent tous deux de puissants modèles d'IA qui conduiront à des progrès extrêmement rapides dans les domaines de la science et de la technologie - ce que j'appelle "l'intelligence artificielle".Une nation de génies dans un centre de données". Même si les systèmes d'IA américains et chinois sont au même niveau, la Chine pourrait être en mesure de consacrer davantage de talents, de capitaux et d'attention aux applications militaires de la technologie. Combiné à son importante base industrielle et à ses avantages militaires et stratégiques, cela pourrait aider la Chine à dominer la scène mondiale, non seulement dans le domaine de l'IA, mais dans tous les aspects.
- Si la Chinene doit pasDes millions de puces et nous vivrons (au moins temporairement) dans un monde en perpétuelle évolution.unipolaireDans le monde unipolaire, seuls les États-Unis et leurs alliés disposent de ces modèles. On ne sait pas combien de temps durera le monde unipolaire, mais il est au moins possible que les États-Unis et leurs alliés soient les seuls à disposer de ces modèles.Les systèmes d'IA pouvant à terme contribuer à la création de systèmes d'IA plus intelligents, une avance temporaire peut se transformer en un avantage durable. Il s'agit donc d'un monde dans lequel les États-Unis et leurs alliés sont susceptibles d'occuper une place dominante et durable sur la scène internationale.
- Un contrôle strict des exportations est la seule chose qui puisse empêcher la Chine d'acquérir des millions de puces.
- Les performances de DeepSeek ne signifient pas que les contrôles à l'exportation ont échoué. Comme je l'ai dit plus haut, DeepSeek dispose d'un nombre modéré à élevé de puces, il n'est donc pas surprenant qu'il ait pu développer et entraîner un modèle puissant. Ses ressources ne sont pas plus limitées que celles des entreprises américaines spécialisées dans l'IA, et les contrôles à l'exportation ne sont pas un facteur majeur de leur "innovation". Il s'agit simplement d'ingénieurs très talentueux qui montrent pourquoi la Chine est un concurrent sérieux des États-Unis.
- DeepSeek ne montre pas non plus que la Chine sera toujours en mesure d'obtenir les puces dont elle a besoin par la contrebande, ou qu'il y aura toujours des failles dans les contrôles. Je ne crois pas que les contrôles à l'exportation aient jamais été conçus pour empêcher la Chine d'obtenir des dizaines de milliers de puces. Il est possible de dissimuler un milliard de dollars d'activité économique, mais il est difficile de dissimuler 100 milliards de dollars ou même 10 milliards de dollars. Une fois encore, il est instructif d'examiner les puces que DeepSeek déclare posséder actuellement. Selon SemiAnalysis, il s'agit d'un mélange de H100, H800 et H20, pour un total de 50 000. Les H100 sont interdites à l'exportation depuis leur sortie, donc si DeepSeek en possède, elles ont dû être obtenues par la contrebande (notez que NVIDIADéjà déclaréeLe H800 a été autorisé lors de la première série de contrôles des exportations en 2022, mais a été interdit lors de la mise à jour des contrôles en octobre 2023, de sorte que ces appareils ont probablement été expédiés avant l'interdiction. Le H20 est moins efficace pour l'entraînement, plus efficace pour l'échantillonnage --Le H20 est moins efficace pour la formation, plus efficace pour l'échantillonnage, mais il est toujours autorisé, même si je pense qu'il devrait être interdit. Tout ceci suggère que l'essentiel du parc de puces d'IA de DeepSeek est constitué de puces qui n'ont pas été interdites (mais qui auraient dû l'être), de puces qui ont été expédiées avant l'interdiction et de certaines qui semblent très probablement avoir été introduites en contrebande. Cela suggère que les contrôles à l'exportation fonctionnent et s'adaptent : les failles sont comblées ; sinon, ils pourraient disposer d'une flotte complète de H100 de haut niveau. Si nous parvenons à les combler assez rapidement, nous pourrons peut-être empêcher la Chine d'obtenir des millions de puces, augmentant ainsi la probabilité d'un monde unipolaire dans lequel les États-Unis joueraient un rôle de premier plan.
Compte tenu de mes préoccupations concernant les contrôles à l'exportation et la sécurité nationale des États-Unis, je tiens à être clair. Je ne considère pas DeepSeek comme un adversaire en soi, et l'accent n'est pas mis spécifiquement sur eux. Dans les entretiens qu'ils ont accordés, ils semblent être des chercheurs intelligents et curieux qui essaient simplement de mettre au point une technologie utile.
Mais ils sont soumis à une XXXX qui viole XX et agit de manière agressive sur la scène mondiale, et s'ils sont capables d'égaler les États-Unis en matière d'IA, ils seront encore plus libres dans leurs comportements. Les contrôles à l'exportation sont l'un des outils les plus puissants dont nous disposons pour empêcher cela.plus puissantRapport prix/performanceplus importantLe fait que l'Union européenne ne soit pas en mesure d'assurer la protection de l'environnement est une raison de lever nos contrôles à l'exportation, ce qui n'est pas du tout justifié.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...