Derrière la tempête DeepSeek : M. Ng prévient que la concurrence entre modèles ouverts va remodeler le paysage des valeurs de l'IA aux États-Unis et en Chine

Nouvelles de l'IAPosté il y a 7 mois Cercle de partage de l'IA

7.8K 00

Chers amis.

cette semaine DeepSeek L'engouement suscité a mis en évidence plusieurs tendances importantes : (i) la Chine rattrape les États-Unis dans le domaine de l'IA générative, ce qui a un impact significatif sur la chaîne d'approvisionnement de l'IA ; (ii) les modèles de pondération ouverts banalisent la couche de modèle de base, créant ainsi des opportunités pour les développeurs d'applications ; et (iii) la mise à l'échelle n'est pas le seul moyen pour l'IA de progresser. Malgré l'importance accordée par le secteur à la puissance arithmétique, l'innovation algorithmique réduit rapidement les coûts de formation.

Il y a environ une semaine, la société chinoise DeepSeek a publié la Profondeur de l'eau-R1 Le modèle, dont les performances sont comparables à celles de l'OpenAI o1 dans les tests de référence, ouvre les poids sous la licence MIT. La semaine dernière, à Davos, de nombreux chefs d'entreprise issus de milieux non techniques m'ont posé des questions à ce sujet. Lundi, le marché boursier a connu une "liquidation DeepSeek" : les actions d'un certain nombre d'entreprises technologiques américaines, dont NVIDIA, ont chuté (et se sont partiellement rétablies à l'heure où j'écris ces lignes).

Je pense que DeepSeek met en évidence les points suivants :

L'IA générative chinoise réduit l'écart avec les États-Unis.. Lorsque le ChatGPT sera publié en novembre 2022, les États-Unis auront une longueur d'avance sur la Chine dans le domaine de l'IA générative. Les perceptions des gens sont lentes à changer, si bien que récemment, il y a encore des amis en Chine et aux États-Unis qui pensent que la Chine est à la traîne. Mais en réalité, cet écart s'est rapidement réduit au cours des deux dernières années. via lit. dix mille questions sur des principes généraux (idiome) ; fig. une longue liste de questions et de réponses (Mon équipe l'utilise depuis des mois), Kimi Avec des modèles chinois tels que InternVL et DeepSeek, il est clair que la Chine comble son retard, et qu'elle a même temporairement pris de l'avance dans des domaines tels que la génération de vidéos.

Je me réjouis que DeepSeek-R1 soit publié en tant que logiciel libre avec un rapport technique détaillé. En revanche, plusieurs entreprises américaines ont promu des politiques qui restreignent l'open source en évoquant des risques hypothétiques tels que l'"extinction de l'IA". Il est désormais clair que les modèles de pondération ouverts sont devenus un élément clé de la chaîne d'approvisionnement de l'IA : de nombreuses entreprises les adopteront. Si les États-Unis continuent de bloquer l'open source, la Chine dominera la chaîne d'approvisionnement et, en fin de compte, la plupart des entreprises utiliseront des modèles qui reflètent davantage les valeurs chinoises que les valeurs américaines.

Les modèles de pondération ouverts banalisent la couche du modèle de base. Comme je l'ai mentionné précédemment, les prix des tokens des grands modèles de langage chutent rapidement, et la pondération ouverte accélère cette tendance et offre davantage d'options aux développeurs. openAI o1 facture 60 dollars par million de tokens de sortie.Et le DeepSeek R1 n'est qu'à 2,19 $.Cet écart de près de 30 fois a entraîné une tendance à la réduction des prix qui a attiré l'attention du plus grand nombre. Cet écart de près de 30 fois a entraîné une tendance à la réduction des prix qui a attiré l'attention du plus grand nombre.

Le secteur de la formation aux modèles de base et de la vente d'accès aux API est semé d'embûches. De nombreuses entreprises de ce secteur cherchent encore des moyens de récupérer le coût élevé de la formation. L'article "AI's $600 Billion Conundrum" décrit avec éloquence ce défi (mais pour être clair, je pense que les entreprises de modèles de base font un excellent travail et je me réjouis de leur succès). En revanche, la création d'applications basées sur des modèles de base offre d'énormes possibilités commerciales. Puisque d'autres ont investi des milliards dans les modèles de formation, vous pouvez les obtenir pour quelques dollars afin de développer des applications telles que des chatbots de service à la clientèle, des résumés d'e-mails, des médecins IA, des assistants de documents juridiques, et bien d'autres encore.

Les progrès de l'IA ne reposent pas uniquement sur la mise à l'échelle.. L'argument selon lequel la mise à l'échelle des modèles favorise le progrès est très répandu. Pour être honnête, j'ai été l'un des premiers à défendre cet argument. Les entreprises ont levé des milliards de dollars en promouvant l'idée qu'une augmentation des capitaux permettrait (i) de passer à l'échelle supérieure et (ii) d'améliorer régulièrement les performances. Cela a conduit à une focalisation excessive sur la mise à l'échelle au détriment de multiples autres voies de progrès. En raison de l'interdiction des puces d'IA aux États-Unis, l'équipe de DeepSeek a dû procéder à de nombreuses optimisations sur les GPU H800, plus faibles, ce qui a finalement permis de maintenir le coût d'entraînement du modèle (hors investissements de recherche) en deçà de 6 millions de dollars.

Il reste à voir si cela réduira réellement la demande arithmétique. Parfois, une diminution du prix unitaire des biens entraîne une augmentation des dépenses totales. Je pense qu'à long terme, il n'y a pratiquement pas de limite supérieure à la demande humaine d'intelligence et de puissance arithmétique, de sorte que même si le coût diminue, les humains continueront à consommer davantage de ressources intelligentes.

Les médias sociaux ont été remplis d'interprétations contradictoires des progrès de DeepSeek, présentant différentes positions comme un test de la tache d'encre de Rorschach. Je ne pense pas que l'impact géopolitique de DeepSeek-R1 ait encore été pleinement réalisé, mais c'est une aubaine pour les développeurs d'applications d'IA. Mon équipe a déjà commencé à réfléchir à de nouvelles idées qui ne peuvent être réalisées qu'avec l'aide de modèles d'inférence ouverts et avancés. C'est encore le meilleur moment pour créer des applications d'IA !

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Microsoft : les pirates utilisent l'IA pour améliorer leurs compétences en matière de cyberattaque

Nouvelles de l'IA

il y a 2 ans

07.4K

Le nouvel éditeur d'images "Magic" de Shopify fait ressortir la qualité de vos images de produits.

Nouvelles de l'IA

il y a 2 ans

09.9K

端脑云 DeepSeek 大语言模型免费试用，私域大模型服务器预装满血版 DeepSeek R1！

Endbrain Cloud DeepSeek Big Language Models Free Trial, Private Domain Big Model Server preloaded with full-blooded version of DeepSeek R1 !

Nouvelles de l'IA

Il y a 7 mois

08.6K

Pika lance PIKAFFECT : transformez instantanément vos photos en vidéos à effets spéciaux !

Nouvelles de l'IA

Il y a 10 mois

09.4K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Derrière la tempête DeepSeek : M. Ng prévient que la concurrence entre modèles ouverts va remodeler le paysage des valeurs de l'IA aux États-Unis et en Chine

DeepSeek : des questions ignorées par les médias

[spin] Deepseek R1 pourrait avoir trouvé un moyen de surpasser les humains

Articles connexes

Microsoft : les pirates utilisent l'IA pour améliorer leurs compétences en matière de cyberattaque

Le nouvel éditeur d'images "Magic" de Shopify fait ressortir la qualité de vos images de produits.

Endbrain Cloud DeepSeek Big Language Models Free Trial, Private Domain Big Model Server preloaded with full-blooded version of DeepSeek R1 !

Pika lance PIKAFFECT : transformez instantanément vos photos en vidéos à effets spéciaux !

Pas de commentaires

Dernières collections

Derniers articles

Derrière la tempête DeepSeek : M. Ng prévient que la concurrence entre modèles ouverts va remodeler le paysage des valeurs de l'IA aux États-Unis et en Chine

DeepSeek : des questions ignorées par les médias

[spin] Deepseek R1 pourrait avoir trouvé un moyen de surpasser les humains

Articles connexes

Microsoft : les pirates utilisent l'IA pour améliorer leurs compétences en matière de cyberattaque

Le nouvel éditeur d'images "Magic" de Shopify fait ressortir la qualité de vos images de produits.

Endbrain Cloud DeepSeek Big Language Models Free Trial, Private Domain Big Model Server preloaded with full-blooded version of DeepSeek R1 !

Pika lance PIKAFFECT : transformez instantanément vos photos en vidéos à effets spéciaux !

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles