DeepSeek : des questions ignorées par les médias

Lennart Heim et Sihao Huang, contributeurs invités, cet article est publié sur le blog de Lennart. Lennart contribue régulièrement à ChinaTalk et a récemment participé à une discussion sur la géopolitique à l'ère de l'informatique éprouvée, et Sihao a déjà écrit sur la vision de Pékin en matière de gouvernance mondiale de l'IA.

Rapports récents sur DeepSeek Les rapports sur les modèles d'IA se sont largement concentrés sur leurs performances supérieures en matière d'analyse comparative et de gains d'efficacité. Si ces réalisations sont reconnaissables et ont des implications politiques (voir ci-dessous pour plus de détails), la réalité de l'accès aux ressources informatiques, des contrôles à l'exportation et du développement de l'IA est plus complexe que ne le présentent de nombreux rapports. Voici quelques points clés d'intérêt :

  1. Les véritables restrictions à l'exportation de puces d'IA débutent en octobre 2023, et les allégations actuelles concernant leur inefficacité sont prématurées. DeepSeek s'entraîne sur des puces Nvidia H800, conçues pour contourner la limite initiale d'octobre 2022. Pour les tâches de calcul de DeepSeek, les performances de ces puces sont comparables à celles de la H100 disponible aux États-Unis. La dernière puce H20 de Nvidia - une puce d'IA qui peut encore être exportée vers la Chine - est plus faible du point de vue de l'entraînement, mais reste puissante du point de vue du déploiement.
    Malgré ses limites en matière de formation, H20 reste illimité et robuste dans les déploiements d'IA de pointe, en particulier pour les tâches à forte intensité de mémoire telles que le raisonnement contextuel à long terme. Cet aspect est essentiel, en particulier dans le cadre de tendances telles que le calcul sur test, la génération de données synthétiques et l'apprentissage par renforcement, des processus qui reposent davantage sur la mémoire que sur la puissance de calcul. Alors que les restrictions sur les exportations de mémoire à grande largeur de bande (HBM) entreront en vigueur en décembre 2024, il sera intéressant de voir comment le H20 continuera à être disponible, en particulier dans le contexte d'une demande de calcul de l'IA qui penche de plus en plus du côté du déploiement.
  2. Les contrôles des exportations de matériel ont un effet différé et ne sont pas encore totalement efficaces.
    Il convient de noter que tout cela suppose que les contrôles à l'exportation sont parfaitement appliqués, ce qui n'est pas le cas. Le contrôle des semi-conducteurs comporte un grand nombre de lacunes et il existe des preuves crédibles de transferts de puces à grande échelle. Si le cadre de diffusion peut contribuer à combler certaines de ces lacunes, la mise en œuvre reste le principal défi. [JS : Bien sûr, des problèmes d'accès subsistent dans les nuages occidentaux ......La Chine utilise encore des centres de données construits avant les restrictions à l'exportation et contenant des dizaines de milliers de puces, alors que les entreprises américaines construisent des centres de données contenant des centaines de milliers de puces. Le véritable test aura lieu lorsque ces centres de données devront être mis à niveau ou agrandis - un processus qui est plus facile pour les entreprises américaines, mais qui sera difficile pour les entreprises chinoises soumises à des contrôles à l'exportation. Si 100 000 puces sont nécessaires pour former la prochaine génération de modèles, les contrôles à l'exportation auront un impact significatif sur le développement de modèles de pointe en Chine. Toutefois, même en l'absence d'exigences de formation à grande échelle, les contrôles à l'exportation auront un impact profond sur l'écosystème chinois de l'IA en réduisant la capacité de déploiement, en limitant le développement des entreprises et en entravant la capacité à synthétiser les données de formation et à s'auto-jouer.
DeepSeek:被媒体忽视的问题
  1. Il n'est pas surprenant que DeepSeek V3 termine sa formation avec moins de ressources informatiques ; le coût des algorithmes d'apprentissage automatique a diminué au fil du temps. Mais les mêmes gains d'efficacité qui permettent aux petites entreprises comme DeepSeek d'accéder aux capacités de l'IA (c'est-à-dire les "effet d'accessibilité"), et peut également permettre à d'autres entreprises de construire des systèmes plus puissants sur de plus grandes grappes de calcul (c'est-à-dire "effet de performance"). Heureusement, DeepSeek a entraîné la V3 en utilisant seulement 2 000 H800 au lieu de 200 000 B200 (la dernière génération de puces de Nvidia).
DeepSeek:被媒体忽视的问题
  1. Le moment choisi pour le lancement de la nouvelle version répond à des considérations stratégiques, mais les prouesses techniques sont bien réelles. La publication de la R1 coïncide avec l'investiture du président Trump la semaine dernière, et vise clairement à saper la confiance du public dans le leadership américain en matière d'IA à un moment critique pour la politique américaine. C'est la même stratégie que Huawei a utilisée pour lancer son nouveau produit pendant la visite de l'ancien secrétaire au commerce Raimondo en Chine. Après tout, les résultats du R1 Preview ont été rendus publics en novembre.
    Ce choix judicieux en matière de relations publiques ne doit pas occulter deux faits : les avancées technologiques de DeepSeek et les défis structurels actuels et futurs liés aux contrôles à l'exportation.
  2. Les contrôles à l'exportation peuvent difficilement affecter avec précision une simple tâche de formation, mais ils peuvent effectivement freiner le développement de tout un écosystème d'IA. En particulier, les limitations imposées aux puces de pointe peuvent effectivement entraver les déploiements d'IA à grande échelle (c'est-à-dire rendre les services d'IA accessibles à un grand nombre d'utilisateurs) et l'amélioration des capacités. Les entreprises d'IA consacrent généralement 60-80% des ressources informatiques aux déploiements, même avant l'apparition de modèles de raisonnement à forte intensité de calcul. Limiter les ressources informatiques augmentera le coût de l'IA chinoise, diminuera sa capacité à se déployer à grande échelle et limitera les performances du système. Il convient de noter que les ressources informatiques déployées ne se limitent pas à l'accès des utilisateurs ; elles jouent également un rôle clé dans la génération de données d'entraînement synthétiques, dans l'amélioration des capacités grâce aux interactions entre les modèles, ainsi que dans la construction, la mise à l'échelle et l'optimisation des modèles.
    Par exemple, les récents commentaires de Gwern soulignent que l'informatique de déploiement joue un rôle clé dans le développement de l'IA, bien au-delà de l'accès des utilisateurs. Des modèles comme o1 d'OpenAI peuvent être utilisés pour générer des données d'entraînement de haute qualité, ce qui crée une boucle de rétroaction où les capacités de déploiement stimulent directement les capacités de développement et l'amélioration des performances globales.
  3. Les gains d'efficacité de DeepSeek peuvent provenir du soutien arithmétique massif dont il bénéficiait auparavant. DeepSeek exploite le premier cluster A100 de 10 000 puces en Asie et entretiendrait un cluster H800 de 50 000 puces, ainsi qu'un accès illimité à des fournisseurs de services en nuage (soumis à des contrôles à l'exportation) en Chine et à l'étranger. Il dispose également d'un accès illimité à des fournisseurs de services en nuage en Chine et à l'étranger (dont l'exportation n'est pas soumise à des contrôles). Ce large accès à la puissance de calcul est essentiel au développement de technologies efficaces par le biais de tests itératifs et à la fourniture de services de modélisation à ses clients.
    Récemment, d'autres entreprises spécialisées dans l'IA ont connu des pics d'utilisation qui ont provoqué des interruptions de service, même lorsqu'elles disposaient d'une plus grande puissance de calcul. (Sam Altman affirme même que ChatGPT Les formules d'abonnement pro sont actuellement déficitaires).
    Bien que leur modèle R1 ait fait preuve d'une excellente efficacité, son processus de développement reposait sur une grande quantité d'arithmétique pour la génération, la distillation et l'expérimentation de données synthétiques.
  4. Les contrôles à l'exportation ont encore exacerbé l'écart arithmétique entre les États-Unis et la Chine, qui reste une limite majeure pour DeepSeek, dont les dirigeants ont publiquement reconnu que, même en améliorant leur efficacité, ils restaient confrontés à un désavantage arithmétique de 4 fois. Cela signifie que nous avons besoin de deux fois plus de puissance de calcul pour obtenir les mêmes résultats", a déclaré Wenfeng Liang, fondateur de DeepSeek. Il y a également un écart d'environ 2 fois dans l'efficacité des données, ce qui signifie que nous avons besoin de 2 fois plus de données d'entraînement et de puissance de calcul pour obtenir des résultats comparables. Dans l'ensemble, cela nécessite une puissance de calcul quatre fois supérieure". Il a ajouté : "Nous n'avons aucun plan de financement à court terme. Notre problème n'a jamais été le financement, mais l'embargo sur les puces haut de gamme".
  5. Les principales entreprises d'IA aux États-Unis ne dévoilent pas leurs plus grandes capacités, ce qui signifie que les analyses comparatives publiques ne reflètent pas avec précision l'ensemble du développement de l'IA. Les entreprises chinoises ont tendance à partager leurs progrès publiquement, tandis que les Anthropique et OpenAI, entre autres, conservent une grande partie de leurs capacités privées. DeepSeek a attiré l'attention en partie en raison de son ouverture - elle partage en détail les pondérations des modèles et les méthodologies, ce qui contraste avec la tendance des entreprises occidentales à être de plus en plus fermées. Cependant, il reste à voir si l'ouverture conduit nécessairement à un avantage stratégique.

 

Qu'est-ce que cela signifie ?

Les réalisations de DeepSeek sont réelles et importantes. Il est inexact de considérer leurs progrès comme de la simple propagande. Les coûts de formation rapportés ne sont pas sans précédent, et les tendances historiques en matière d'efficacité algorithmique le confirment. Cependant, les comparaisons doivent être soigneusement considérées dans leur contexte - DeepSeek ne rapporte que les coûts finaux de l'entraînement, ignorant les dépenses clés telles que les coûts de personnel, la pré-expérimentation, l'acquisition de données et le développement de l'infrastructure. Pour plus d'informations sur les comparaisons trompeuses qui peuvent résulter de différentes méthodes de calcul des coûts, voir cet article.

L'augmentation de l'efficacité arithmétique signifie que les capacités de l'IA finiront par proliférer. Les contrôles ne suffisent pas ; des mesures complémentaires sont nécessaires pour renforcer la résilience et les défenses de la société, pour mettre en place des institutions capables d'identifier, d'évaluer et de répondre aux risques liés à l'IA, et pour construire un système de défense robuste contre les menaces potentielles de l'IA émanant d'adversaires. Toutefois, nous devons également reconnaître que les contrôles à l'exportation ont déjà eu un impact sur le développement de l'IA en Chine et qu'ils pourraient avoir un effet encore plus important à l'avenir.

Les modèles eux-mêmes ne sont peut-être pas ce que beaucoup considèrent comme un "fossé stratégique", mais l'impact de la puissance arithmétique sur la sécurité nationale varie selon le scénario d'application. Pour les applications qui nécessitent un déploiement à grande échelle (par exemple, la surveillance de masse), les contraintes de capacité peuvent constituer un obstacle important. Pour les applications à utilisateur unique, en revanche, l'impact de la réglementation est moins important. La relation entre la disponibilité arithmétique et les capacités de sécurité nationale reste complexe, bien que les capacités modélisées elles-mêmes soient de plus en plus faciles à reproduire.

Bien que les capacités d'IA puissent proliférer malgré les contrôles, et qu'il sera toujours difficile d'arrêter complètement la prolifération, ces contrôles restent essentiels pour maintenir l'avantage technologique. Les contrôles permettent de gagner un temps précieux, mais des politiques complémentaires sont encore nécessaires pour garantir que les démocraties conservent leur avance et soient en mesure de repousser les défis de leurs rivaux potentiels.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...