InternVLA-M1 - Le "cerveau" du laboratoire d'IA de Shanghai, un système double incarné à source ouverte

Dernières ressources sur l'IAPublié il y a 2 jours Cercle de partage de l'IA

2.8K 00

Qu'est-ce que InternVLA-M1 ?

InternVLA-M1 est un "cerveau" incarné à source ouverte du laboratoire d'intelligence artificielle de Shanghai, qui est un grand modèle de fonctionnement à deux systèmes orienté vers le suivi des instructions. Il construit une boucle fermée complète couvrant "penser-agir-apprendre" et est responsable du raisonnement spatial de haut niveau et de la planification des tâches. Le modèle adopte une stratégie de formation en deux phases, tout d'abord par le biais d'un pré-entraînement à la perception spatiale pour améliorer le raisonnement spatial et la capacité de planification, puis par le biais d'un raisonnement spatial implicite pour parvenir à une formation post-action efficace. Seuls des "indices de planification spatiale" sont nécessaires pour une formation efficace, ce qui réduit considérablement les coûts. InternVLA-M1 atteint le niveau de pointe international dans les tests de référence opérationnels publics tels que SimplerEnv, et ses capacités de suivi des commandes et de généralisation des objets invisibles sont nettement supérieures à celles d'autres modèles similaires. S'appuyant sur la plateforme de simulation développée par ses soins, InternData-M1, InternVLA-M1 réalise un pré-entraînement à grande échelle, adapté à des scénarios complexes et à des tâches de longue haleine.

Caractéristiques fonctionnelles de InternVLA-M1

Compétences de raisonnement spatial d'ordre supérieurIl est capable de percevoir avec précision et de raisonner sur des environnements spatiaux complexes et de planifier efficacement des parcours d'opérations et des séquences d'action.
Stratégie de formation au double systèmeLe modèle de la perception spatiale : Combiner le pré-entraînement à la perception spatiale et le post-entraînement à l'action pour améliorer l'adaptabilité et la capacité de généralisation du modèle dans différentes tâches.
Formation efficace et optimisation des coûtsLe modèle de la formation : une formation efficace grâce à des repères de planification spatiale, une réduction significative des coûts et du temps de formation, et une amélioration de l'utilité du modèle.
Capacités de suivi des instructions et de généralisationLes capacités d'analyse et d'exécution des commandes sont fortes, la compréhension et l'exécution des commandes en langage naturel sont précises, les performances de généralisation sont bonnes pour les objets non vus et les nouvelles tâches.
Apprentissage autonome et contrôle en boucle ferméeLe but est de construire une boucle fermée complète de type "penser-agir-apprendre" afin que le modèle puisse être appris et optimisé dans la pratique et adapté à des environnements dynamiques.
Adaptabilité aux scènes complexesLes performances sont excellentes dans les scènes complexes de machines réelles et les tâches à longue portée, ce qui convient à une variété de scénarios d'application pratiques, tels que l'automatisation industrielle, la logistique et l'entreposage.
Source ouverte et soutien de la communautéLe site Web de la Commission européenne est une source de données et de codes ouverts, qui constitue une ressource riche pour les chercheurs et les développeurs afin d'encourager l'innovation et le développement d'applications au sein de la communauté.

Principaux avantages de InternVLA-M1

Capacités de suivi et de généralisation efficaces des instructionsIl comprend avec précision les commandes en langage naturel, génère des séquences d'actions exécutables et fait preuve d'une grande capacité de généralisation pour les objets non vus et les nouvelles tâches.
Architecture innovante à double systèmeLe modèle de la perception spatiale : en combinant le pré-entraînement de la perception spatiale et le post-entraînement de l'action, il permet une exécution en boucle fermée de la perception à l'action, et améliore la stabilité et l'adaptabilité du modèle.
Stratégies de formation axées sur l'aménagement du territoireLa formation efficace est obtenue par l'introduction d'indices de planification spatiale, ce qui améliore considérablement l'efficacité de la formation et la performance du modèle.
Support de données de simulation à grande échelleLe modèle est basé sur la plateforme de simulation développée par l'entreprise elle-même, InternData-M1, qui génère une grande quantité de données de formation de haute qualité, ce qui améliore la capacité de généralisation du modèle et son adaptabilité aux tâches à accomplir.
Source ouverte et soutien de la communautéL'initiative de l'Union européenne (UE) : code et données à source ouverte, fournissant une ressource riche pour les chercheurs et les développeurs afin d'encourager l'innovation et le développement d'applications au sein de la communauté.
Performances de pointeLe programme d'action de l'Union européenne (UE) a été mis en œuvre par le ministère de l'économie, des finances et de l'industrie de l'Union européenne.
Applicabilité multi-scénariosIl est applicable à un large éventail de domaines tels que la famille, l'industrie, la logistique, l'éducation, etc., et constitue une base technologique solide pour l'application de robots à usage général dans des scénarios réels.

Quel est le site web officiel de InternVLA-M1 ?

Site web du projet: : https://internrobotics.github.io/internvla-m1.github.io/
Dépôt Github: : https://github.com/InternRobotics/InternVLA-M1
Bibliothèque de modèles HuggingFace: : https://huggingface.co/collections/InternRobotics/internvla-m1-68c96eaebcb5867786ee6cf3
Liens de données HuggingFace: : https://huggingface.co/datasets/InternRobotics/InternData-M1
Documents techniques: : https://github.com/InternRobotics/InternVLA-M1/blob/InternVLA-M1/assets/InternVLA_M1.pdf

Personnes pour lesquelles InternVLA-M1 est indiqué

Chercheurs en intelligence artificielle et en robotiquePour les chercheurs dans les domaines de l'intelligence incarnée, de la manipulation des robots et de la modélisation du langage visuel, InternVLA-M1 peut être utilisé pour explorer de nouvelles voies technologiques et de nouveaux scénarios d'application.
Ingénieur en développement de systèmes robotiquesLes ingénieurs chargés du développement, de l'intégration et de l'optimisation des systèmes robotiques pourront utiliser l'InternVLA-M1 pour améliorer la capacité du robot à fonctionner et à suivre les commandes dans le cadre de tâches complexes.
Enseignants et étudiants d'universités et d'instituts de rechercheL'InternVLA-M1 peut être utilisé par les enseignants et les étudiants en informatique, en automatisation, en robotique et dans d'autres disciplines connexes comme outil d'enseignement et de recherche pour des projets pratiques et des recherches universitaires.
Automatisation industrielle et entreprises de fabrication intelligenteL'InternVLA-M1 est conçu pour les entreprises qui souhaitent introduire des solutions robotiques plus intelligentes et plus flexibles sur leurs lignes de production, permettant des mises à niveau de l'automatisation et des gains d'efficacité.
Praticiens du secteur de la logistique et de l'entreposagePour les entreprises et les professionnels intéressés par l'automatisation de la logistique et l'optimisation des entrepôts, l'InternVLA-M1 peut être utilisé pour des opérations intelligentes de prélèvement et de manutention des marchandises.
Développeurs de robots de serviceInternVLA-M1 peut améliorer les capacités d'interaction et d'exécution des tâches du robot et élargir la gamme d'applications pour les équipes qui développent des robots de service à domicile et des robots de service commerciaux.