L’intelligence artificielle évolue rapidement, et l’Institut Allen pour l’IA (Ai2) est à l’avant-garde de cette révolution. Hier, Ai2 a dévoilé MolmoAct 7B, un modèle d’IA incarné. Cette innovation promet de transformer la manière dont les robots interagissent avec le monde physique.
Avec une capacité unique de percevoir son environnement et de planifier ses mouvements de manière autonome, MolmoAct 7B redéfinit les standards de l’intelligence robotique. Contrairement aux modèles traditionnels qui s’appuient uniquement sur le langage, cette nouvelle technologie intègre une compréhension spatiale approfondie. Les robots équipés de MolmoAct bénéficient ainsi d’une navigation plus intelligente et contrôlée dans des environnements réels.
MolmoAct 7B se distingue par sa capacité à générer des tokens de raisonnement visuel, transformant des entrées d’images 2D en plans spatiaux 3D. Ce processus permet aux robots de décoder les environnements complexes et d’agir de manière précise et efficace. L’approche transparente d’Ai2 assure que chaque mouvement prévu par le modèle est prévisible et ajustable en temps réel, améliorant ainsi la sécurité et la fiabilité des interactions robotiques.
Ali Farhadi, PDG de Ai2, a déclaré : « Avec MolmoAct, nous ne lançons pas simplement un modèle ; nous jetons les bases d’une nouvelle ère de l’IA, intégrant l’intelligence des modèles puissants dans le monde physique. » Cette déclaration souligne l’engagement d’Ai2 envers une intelligence artificielle qui fonctionne en harmonie avec les besoins humains, assurant une collaboration sûre et efficace.
L’Institut Allen pour l’IA est une organisation à but non lucratif basée à Seattle, fondée en 2014 par le regretté co-fondateur de Microsoft, Paul G. Allen. La mission d’Ai2 est de développer des recherches fondamentales en IA et de nouvelles applications pour résoudre les plus grands défis mondiaux. Grâce à des modèles ouverts, des données ouvertes, la robotique, et des plateformes de conservation, Ai2 s’efforce de démocratiser l’accès à l’intelligence artificielle.
MolmoAct est revendiqué par Ai2 comme le premier « modèle de raisonnement d’action » (ARM). Contrairement aux architectures fermées et parfois opaques des systèmes traditionnels, MolmoAct est conçu pour la transparence et la réplicabilité. En se basant exclusivement sur des données ouvertes, ce modèle offre une généralisation robuste dans des contextes réels, facilitant ainsi sa reproduction et son échelle sans les coûts exorbitants associés aux modèles propriétaires.
Les ARM comme MolmoAct interprètent les instructions de haut niveau en décomposant les tâches en chaînes décisionnelles spatialement ancrées. Ce processus comprend :
- Perception consciente en 3D : Compréhension de l’environnement du robot en utilisant la profondeur et le contexte spatial.
- Planning de points de repère visuels : Définition d’une trajectoire de tâche étape par étape dans l’espace image.
- Décodage d’actions : Conversion du plan en commandes de contrôle précises et spécifiques au robot.
Cet approche en couches permet à MolmoAct de transformer des commandes comme « Trier ce tas de déchets » en une série structurée de sous-tâches, telles que la reconnaissance des objets, le regroupement par type, et la manipulation individuelle, assurant ainsi une exécution méthodique et efficace.
MolmoAct 7B a été entraîné sur un ensemble de données soigneusement sélectionnées contenant environ 12 000 « épisodes robotiques » issus d’environnements réels comme des cuisines et des chambres. Cette méthodologie a permis à Ai2 de démontrer que la qualité des données et un design réfléchi peuvent surpasser les modèles nécessitant des volumes de données et une puissance de calcul bien plus importants. Avec un taux de réussite de 71,9% sur SimPLER, MolmoAct se positionne comme un leader dans son domaine.
Fidèle à sa mission, Ai2 a rendu MolmoAct entièrement open-source et reproductible. Les utilisateurs peuvent visualiser les trajectoires de mouvement prévues avant exécution, avec des trajectoires superposées sur des images de caméra. De plus, il est possible d’ajuster ces plans à l’aide de commandes en langage naturel ou de corrections rapides via un écran tactile, offrant un contrôle granulaire et renforçant la sécurité dans des environnements réels tels que les foyers, les hôpitaux et les entrepôts.
Toute la documentation nécessaire pour construire, exécuter et étendre MolmoAct est disponible dans le dépôt Ai2 sur Hugging Face, incluant les pipelines d’entraînement, les ensembles de données pré et post-entraînement, les points de contrôle du modèle et les benchmarks d’évaluation. Cela garantit une accessibilité maximale pour les chercheurs et les développeurs souhaitant contribuer ou tirer parti de cette avancée technologique.
Lors du RoboBusiness 2025, qui se tiendra les 15 et 16 octobre à Santa Clara, Californie, le Forum de l’IA Physique mettra en lumière les dernières innovations en matière de robotique et d’intelligence artificielle. Des experts de Dexterity, ABB Robotics, UC Berkeley, et bien d’autres partageront leurs connaissances sur des sujets allant de la sécurité en IA à la formation de renforcement de la simulation à la réalité. L’événement, produit par WTWH Media, compte plus de 60 intervenants, un atelier pour startups, une compétition annuelle Pitchfire, et de nombreuses opportunités de réseautage, offrant une vitrine exceptionnelle pour les technologies robotiques émergentes.
Présentation de MolmoAct 7B et son impact sur l’intelligence artificielle physique
Allen Institute for AI (Ai2) a récemment dévoilé son dernier modèle, MolmoAct 7B, annonçant une avancée significative dans le domaine de l’intelligence artificielle physique. Contrairement aux modèles traditionnels qui se contentent de raisonnement langagier, MolmoAct 7B est conçu pour interagir directement avec le monde physique en comprenant et en planifiant ses mouvements dans un environnement tridimensionnel. Cette innovation permet aux robots équipés de ce modèle de naviguer avec une intelligence et un contrôle accrus, rendant les interactions homme-machine plus fluides et efficaces.
Le MolmoAct 7B est décrit par Ai2 comme le premier « modèle de raisonnement d’action ». Cette terminologie souligne sa capacité unique à interpréter des instructions en langage naturel et à les traduire en une séquence d’actions physiques concrètes. En intégrant des technologies de perception 3D, de planification visuelle et de décodage d’actions, ce modèle représente une nouvelle ère pour les applications robotiques, où la transparence et l’adaptabilité sont au cœur du développement.
Comment MolmoAct 7B transforme l’interaction entre robots et environnement
MolmoAct 7B innove en permettant aux robots de non seulement comprendre leur environnement visuellement, mais aussi de planifier et d’exécuter des actions basées sur cette compréhension. Plutôt que de se fier uniquement à des algorithmes de langage pour générer des mouvements, MolmoAct intègre une perception spatiale avancée qui lui permet d’interpréter les relations entre l’espace, le mouvement et le temps.
Par exemple, lorsqu’un robot reçoit une commande telle que « trie ce tas de déchets », MolmoAct 7B ne voit pas cette tâche comme une simple instruction, mais la décompose en sous-tâches structurées. Le modèle reconnaît les différents objets dans la scène, les regroupe par type, les saisit un par un et les place dans les endroits appropriés. Cette approche méthodique assure une exécution précise et efficace des tâches, tout en permettant des ajustements en temps réel en fonction des changements dans l’environnement.
Ali Farhadi, le PDG d’Ai2, a déclaré : « Avec MolmoAct, nous ne lançons pas seulement un modèle ; nous posons les bases d’une nouvelle ère de l’IA, apportant l’intelligence des modèles puissants dans le monde physique. C’est une étape vers une IA capable de raisonner et de naviguer dans le monde de manière plus alignée avec les humains, et de collaborer avec nous de manière sûre et efficace. »
Les avantages clés de MolmoAct 7B par rapport aux modèles existants
MolmoAct 7B se distingue des autres modèles d’IA grâce à plusieurs avantages essentiels. Tout d’abord, contrairement aux architectures end-to-end fermées, MolmoAct est formé exclusivement sur des données ouvertes, favorisant la transparence et la reproductibilité. Cette ouverture permet aux chercheurs et aux développeurs d’accéder aux pipelines de formation, aux ensembles de données pré- et post-formation, ainsi qu’aux points de contrôle du modèle, facilitant ainsi l’innovation et la collaboration.
De plus, MolmoAct 7B est conçu pour une généralisation dans le monde réel. Grâce à des traces de raisonnement visuel étape par étape, les utilisateurs peuvent anticiper les mouvements planifiés par le robot avant leur exécution. Cette fonctionnalité permet de superviser et de guider les actions du robot en temps réel, garantissant ainsi une plus grande sécurité et adaptabilité dans des environnements variés tels que les domiciles, les hôpitaux et les entrepôts.
En termes de performance, MolmoAct 7B a démontré une efficacité remarquable avec un taux de réussite de 71,9% sur SimPLER, surpassant de nombreux systèmes commerciaux plus complexes et gourmands en données. Cette performance atteste de l’importance de la qualité des données et de la conception réfléchie du modèle, montrant qu’il est possible d’atteindre des résultats supérieurs sans nécessiter des ressources informatiques excessives.
La formation et les performances de MolmoAct 7B
La création de MolmoAct 7B a impliqué une formation rigoureuse sur un ensemble de données soigneusement sélectionné comprenant environ 12 000 « épisodes robotisés » provenant de divers environnements réels comme les cuisines et les chambres. Ai2 a transformé ces démonstrations en séquences de raisonnement robotique, illustrant comment des instructions complexes sont traduites en actions orientées vers des objectifs spécifiques.
L’efficacité de MolmoAct 7B est également notable en termes de ressources informatiques. Le modèle a été pré-entraîné sur 256 unités de traitement graphique NVIDIA H100 pendant environ 24 heures, puis affiné sur 64 GPU pendant seulement deux heures supplémentaires. Cette méthode contrastée avec les modèles commerciaux typiques, qui nécessitent souvent des centaines de millions d’échantillons et des ressources de calcul beaucoup plus importantes, démontre la capacité de MolmoAct à atteindre des performances élevées de manière plus efficiente.
En plus des performances de base, Ai2 a mis à disposition le jeu de données post-formation MolmoAct, comprenant environ 12 000 épisodes distincts. Ces données, collectées à partir de robots effectuant diverses actions dans des environnements domestiques, fournissent une base solide pour des applications variées et permettent aux chercheurs de continuer à développer et à améliorer le modèle.
La transparence et l’ouverture de MolmoAct 7B
Ai2 a placé la transparence et l’ouverture au cœur du développement de MolmoAct 7B. En rendant le modèle totalement open-source, Ai2 permet à la communauté de chercheurs et de développeurs d’accéder à tous les éléments nécessaires pour reproduire, utiliser et étendre le modèle. Cela inclut les pipelines de formation, les ensembles de données, les points de contrôle du modèle et les benchmarks d’évaluation.
Cette approche ouverte favorise non seulement l’innovation collaborative, mais garantit également que les modèles peuvent être audités et améliorés de manière continue par la communauté. De plus, la capacité des utilisateurs à prévisualiser les mouvements planifiés du modèle avant leur exécution, avec des trajectoires de mouvement superposées sur des images de caméra, renforce la confiance et la sécurité dans des environnements réels.
En outre, les utilisateurs peuvent ajuster les plans du modèle en utilisant des commandes en langage naturel ou en effectuant des corrections rapides via un écran tactile. Cette flexibilité permet une interaction fine et un contrôle accru, assurant que les robots peuvent s’adapter rapidement aux changements et aux besoins spécifiques des utilisateurs.
Le rôle de MolmoAct 7B dans l’avenir de la robotique
MolmoAct 7B s’inscrit comme un élément clé dans l’évolution future de la robotique. En combinant une perception avancée, un raisonnement spatial sophistiqué et une transparence totale, ce modèle pave la voie pour des robots plus intelligents, autonomes et sécurisés. L’intégration de l’IA dans le monde physique ouvre de nouvelles possibilités d’applications, allant de l’assistance domestique à la logistique industrielle, en passant par les services de santé.
Lors de RoboBusiness 2025, un événement de premier plan pour les développeurs et les fournisseurs de robots commerciaux, les innovations comme MolmoAct 7B seront mises en lumière. Des conférences et des ateliers aborderont des sujets allant de la sécurité de l’IA à la formation par renforcement de la simulation à la réalité, démontrant comment des modèles comme MolmoAct contribuent à résoudre des défis complexes dans le développement robotique.
Grâce à des partenariats avec des experts de renommée mondiale et à une approche ouverte et collaborative, Ai2 et MolmoAct 7B sont bien positionnés pour influencer positivement le paysage de la robotique. En facilitant une meilleure interaction entre les robots et leur environnement, MolmoAct 7B contribue à rendre la robotique plus accessible, fiable et efficace, répondant ainsi aux besoins croissants de diverses industries et améliorant la qualité de vie dans de nombreux aspects.