Qu'est-ce qu'un "modèle mondial" d'IA ? Pourquoi Fei-Fei Li, Google et OpenAI investissent-ils tous dans ce domaine ?
Outre les modèles linguistiques à grande échelle et les modèles linguistiques à petite échelle, les "modèles mondiaux", appelés simulateurs mondiaux, sont considérés comme l'un des prochains axes de développement de l'IA.
En 2024, World Labs, la startup de Feifei Li, pionnière de l'IA et informaticienne, spécialisée dans l'intelligence spatiale, a bouclé deux cycles de financement dans le but de construire un "grand modèle mondial" et est actuellement évaluée à 1 milliard de dollars, tandis que Google DeepMind s'est emparé du modèle de génération d'images d'OpenAI. Sora L'une des personnes responsables de la construction du simulateur de monde, l'OpenAI, décrit également Sora comme un modèle du monde.

Qu'est-ce qu'un modèle mondial ? Pourquoi ce modèle fait-il l'objet d'une attention accrue ?
Faire comprendre le monde réel à l'IA
Le modèle du monde de l'IA s'inspire du modèle de l'esprit humain : le cerveau humain absorbe des informations provenant des sens pour développer une compréhension plus concrète du monde qui l'entoure.
Dans un article, les chercheurs en IA David Ha et Jürgen Schmidhuber donnent l'exemple des frappeurs de baseball qui peuvent frapper une balle rapide de 100 mph parce qu'ils peuvent "instinctivement" prédire la direction de la balle, ce qui est raisonné et se produit inconsciemment - leurs muscles instinctivement la batte au bon moment et au bon endroit sur la base des prédictions du modèle cérébral. D'aucuns affirment que la modélisation mentale est une condition préalable à l'intelligence humaine.
En tant que système d'IA, un modèle de monde d'IA suit la même voie. Selon AI startup runway, un modèle de monde d'IA peut construire des indices internes pour l'environnement externe et simuler des événements environnementaux futurs sur la base de ces indices ; l'objectif du modèle de monde est de simuler une situation exactement comme le monde réel.
Pourquoi les mannequins du monde entier sont-ils sous les feux de la rampe ?
En fait, le concept de modélisation du monde existe depuis plus d'une décennie, mais l'idée d'une modélisation du monde n'a jamais été aussi simple à mettre en œuvre. L'une des raisons de cet intérêt croissant est l'essor de la vidéo générée par l'IA .
TechCrunch observe que la plupart des contenus vidéo générés par l'IA souffrent encore aujourd'hui du phénomène de la vallée de l'horreur, en montrant par exemple des membres tordus ou soudés les uns aux autres. En outre, si les modèles d'IA générative peuvent être capables de prédire avec précision des phénomènes physiques tels que la direction d'un rebond de ballon de basket, malgré des années d'entraînement à l'image, ils ne savent pas vraiment pourquoi le ballon rebondit.
En revanche, un modèle de monde avec une perception du monde en 3D peut mieux montrer les effets d'un rebond de ballon de basket. Pour que l'IA parvienne à cette compréhension, le modèle du monde doit être entraîné sur une série de données, notamment des photos, des fichiers audio, des vidéos et des textes.
Le potentiel du modèle mondial ne se limite pas à la production de vidéos. Des chercheurs tels que Likun Yang, responsable scientifique de Meta pour l'IA, ont déclaré que Les modèles mondiaux pourront être utilisés à l'avenir pour des prévisions et des planifications complexes dans les domaines numériques et physiques. Pour sa part, Justin Johnson, cofondateur de World Labs, a déclaré que les modèles mondiaux pourraient à l'avenir Générer des mondes virtuels en 3D pour les jeux, la photographie virtuelle, etc. .
Pour les développeurs, avec un modèle puissant du monde, il n'est pas nécessaire de définir comment chaque objet se déplace un par un - une tâche souvent ennuyeuse, lourde et qui fait perdre du temps.Alex Mashrabov, ancien responsable de l'IA chez Snap et PDG de Higgsfield, a déclaré à la presse qu'avec un modèle avancé du monde, l'IA est capable de développer une auto-compréhension de n'importe quel scénario dans lequel elle se trouve et de commencer à raisonner sur les solutions possibles. IA est capable de développer une compréhension propre de tout scénario dans lequel elle se trouve et de commencer à raisonner sur les solutions possibles.
3 murs à franchir pour la modélisation du monde
Si le concept de modèle mondial est séduisant, il reste encore de nombreux défis techniques à relever. Lors d'une présentation à 2024, Li-Kun Yang a admis qu'il faudrait encore au moins 10 ans pour réaliser le modèle mondial qu'il avait en tête.
Selon l'analyse des médias étrangers, les obstacles rencontrés par le modèle mondial sont également un microcosme du développement actuel des modèles d'IA. Premièrement. La formation et l'exécution de modèles mondiaux requièrent beaucoup de puissance arithmétique --Des milliers de GPU sont nécessaires rien que pour Sora, qui est considéré comme un modèle précoce du monde.
En outre. Le modèle mondial produit également des hallucinations et peut intérioriser les biais dans les données d'apprentissage. Par exemple, un modèle visuel formé à partir d'une vidéo d'une journée ensoleillée dans une ville européenne peut avoir des difficultés à comprendre ou à représenter une ville coréenne enneigée, voire générer carrément un contenu incorrect.
Pour résoudre ce problème. Les données d'entraînement pour le modèle mondial doivent être suffisamment larges pour couvrir non seulement différents scénarios, mais aussi suffisamment spécifiques pour que l'IA comprenne les nuances des différents scénarios. Toutefois, le développement de l'IA est également confronté à une crise de pénurie de données. Epoch AI prévoit que les développeurs manqueront de données pour entraîner les modèles d'IA générative entre 2026 et 2032.
Néanmoins, le modèle mondial reste très attrayant et, selon Mashrabov, si les obstacles sont surmontés, le modèle mondial pourrait constituer un lien "beaucoup plus fort" entre l'IA et le monde réel - une percée non seulement dans la création de mondes virtuels, mais aussi des avancées majeures dans les domaines de la robotique et de la prise de décision par l'IA.
Autres articles
Skybox AI : Générer des images panoramiques à 360° pour créer facilement des mondes virtuels
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...