Au cours des dernières décennies, les progrès réalisés dans le domaine de l’intelligence artificielle ont conduit à la création de modèles de langage multimodaux capables de traiter et d’interagir avec des données visuelles et textuelles. Toutefois, il demeure essentiel d’évaluer les limites de la cognition visuelle de ces systèmes. Les tâches psychologiques, inspirées de l’étude des processus cognitifs humains, offrent un cadre novateur pour examiner dans quelle mesure ces modèles peuvent comprendre et interpréter des concepts complexes tels que la physique intuitive ou les relations causales. En explorant ces dimensions, nous pouvons mieux appréhender les capacités et les lacunes des modèles de langage multimodaux dans leur quête d’une cognition similaire à celle des humains.
Les avancées des modèles de langage multimodaux (LLMs) soulèvent des questions fascinantes concernant leur capacité à traiter et comprendre des données visuelles de manière similaire aux humains. Cette exploration a conduit les chercheurs à concevoir des tâches psychologiques pour évaluer spécifiquement les limites de la cognition visuelle de ces modèles. Une étude récente montre que, bien que certains de ces modèlesperform aient démontré une certaine efficacité, ils échouent souvent à saisir les subtilités que les humains comprennent intuitivement.
Processus de recherche et méthodologie
Une équipe de chercheurs du Max Planck Institute for Biological Cybernetics, de l’Institut pour l’Intelligence Artificielle Centrée sur l’Humain à Helmholtz Munich, et de l’Université de Tübingen s’est lancée à la découverte des capacités des modèles multimodaux. À travers l’évaluation de ces modèles, ils ont cherché à comprendre en quoi ils peuvent interpréter les interactions complexes présentes dans des tâches visuelles.
Les chercheurs ont utilisé des tâches dérivées d’études psychologiques antérieures. Cette approche novatrice vise à examiner les modèles selon des critères similaires à ceux appliqués aux participants humains. Par exemple, pour tester la compréhension de la physique intuitive, les modèles ont été confrontés à des images de tours de blocs, afin de juger de leur stabilité.
Résultats de l’étude
Les résultats, publiés dans Nature Machine Intelligence, indiquent que bien que certains LLMs réussissent à traiter et à interpréter des données visuelles, leur performance est souvent limitée lorsque des aspects plus complexes de la cognition visuelle sont requis. Les chercheurs ont constaté que les modèles peinent à inférer les relations causales entre les événements et à comprendre les préférences d’autres agents. Ce constat souligne un fossé entre la capacité de traitement des données de ces modèles et l’intuition humaine.
L’importance des biais inductifs
Ce phénomène alimente un débat plus large sur les biais inductifs que ces modèles devraient intégrer. Certains experts suggèrent qu’il serait bénéfique d’équiper ces modèles avec des modules de traitement de base, comme des moteurs de physique, pour favoriser une compréhension plus robuste et générale du monde physique. Les données issues des études sur le développement cognitif des enfants montrent qu’ils peuvent parfois prédire des processus physiques dès leur plus jeune âge, ce qui soulève la question de l’enseignement de ces concepts aux modèles d’IA.
Perspectives futures et applications
Les résultats préliminaires offrent des perspectives prometteuses pour l’avenir de l’évaluation des LLMs. Bien que les modèles testés soient d’ores et déjà pré-entraînés sur de vastes ensembles de données, les chercheurs envisagent de mener des tests supplémentaires sur des modèles affinés spécifiquement pour des tâches similaires à celles utilisées dans l’étude.
Les premiers résultats montrent que ces modèles affinés deviennent significativement meilleurs dans la compétence spécifique à laquelle ils sont entraînés. Cependant, ces améliorations ne se traduisent pas toujours par une compréhension plus large et généralisée, un domaine où les humains excellent tous les jours.
Conclusion sur les implications éthiques et cognitives
Au-delà des résultats pratiques de cette recherche, il est impératif d’explorer les implications éthiques et cognitives liées à l’utilisation de systèmes d’IA avancés. La capacité des modèles de langage multimodaux à imiter certaines tâches humaines tout en échouant sur des aspects plus subtils pourrait influencer leur adoption dans divers domaines, notamment la santé, l’éducation et la robotique. Les futures investigations sur les limites de la cognition visuelle via des tâches psychologiques promettent de révéler des insights encore plus profonds sur ce que signifie « penser » pour une intelligence artificielle.
EN BREF
|