Un système d’IA découvre des catégories visuelles en s’adaptant à de nouveaux contextes

découvrez comment un système d'intelligence artificielle révolutionnaire apprend à identifier des catégories visuelles en s'adaptant à divers contextes, améliorant ainsi ses performances et ses applications dans le monde réel.

Dans le domaine de l’intelligence artificielle, un développement récent révolutionne la manière dont les systèmes d’IA abordent la catégorisation des images. Un nouveau système, connu sous le nom de Open Ad-hoc Categorization (OAK), s’illustre par sa capacité à découvrir des catégories visuelles tout en s’adaptant à différents contextes. Contrairement aux approches traditionnelles qui reposent sur des catégories fixes, OAK réinterprète chaque image en fonction de l’objectif et du contexte, permettant ainsi d’identifier des objets et des concepts qui n’étaient pas appelés à être reconnus initialement. Cette flexibilité transforme la manière dont l’IA interagit avec le monde visuel, ouvrant la voie à des applications novatrices dans divers domaines.

Un groupe de chercheurs de l’Université du Michigan a mis au point une approche innovante d’intelligence artificielle intitulée Open Ad-hoc Categorization (OAK), permettant aux systèmes d’IA de réinterpréter dynamiquement des images en fonction du contexte de catégorisation. Contrairement aux systèmes précédents qui s’appuyaient sur des catégories visuelles fixes, OAK démontre comment une image peut posséder des significations multiples, renouvelant ainsi notre compréhension de la classification d’images. Loin de rester statique, cette approche offre une flexibilité qui pourrait transformer des applications dans divers domaines, y compris la robotique.

La flexibilité de l’interprétation visuelle

La recherche menée par l’équipe de l’Université du Michigan, présentée à la conférence IEEE sur la vision par ordinateur et la reconnaissance de modèles (CVPR) en juin 2025, souligne une question essentielle dans le domaine de l’IA : les images ne possèdent pas de significations objectives et fixes. Au contraire, leur interprétation dépend du contexte spécifique, des objectifs et des tâches à réaliser. Stella Yu, professeure en informatique et ingénierie à l’Université du Michigan, insiste sur le fait que l’interprétation des images par les systèmes d’IA devrait être aussi adaptable que celle des humains.

Une nouvelle approche de catégorisation

Traditionnellement, les systèmes d’IA utilisaient des catégories rigides telles que « chaise », « voiture » ou « chien », incapables de s’ajuster à divers contextes ou fins. Grâce à OAK, un même cliché peut être analysé sous différents angles selon la tâche à accomplir. Par exemple, une image d’une personne buvant peut être catégorisée selon l’action « boire », le lieu « dans un magasin » ou l’humeur « heureux ». Une telle polyvalence marque un tournant dans le secteur de la vision par ordinateur.

Technologie et méthodologie sous-jacentes

Le modèle OAK a été élaboré en utilisant le modèle de vision-langage de base d’OpenAI, connu sous le nom de CLIP. Cette équipe a enrichi CLIP en intégrant des tokens contextuels qui fonctionnent comme des ensembles d’instructions spécialisées pour le modèle. Les tokens sont issus de données étiquetées et non étiquetées, influençant le traitement des caractéristiques visuelles dans divers contextes. Cela permet au modèle de se concentrer sur des zones pertinentes de l’image, telles que les mains pour une action ou l’arrière-plan pour un lieu, sans nécessiter d’indications explicites.

Découverte de nouvelles catégories

Un des aspects marquants de l’approche OAK est sa capacité à découvrir des catégories qui n’ont jamais été présentées durant l’entraînement. Par exemple, lors de la reconnaissance d’éléments pouvant être vendus lors d’une vente de garage, le système peut identifier des articles comme des bagages ou des chapeaux, même s’il n’a été exposé qu’à des exemples de chaussures. Cette innovation réside dans la combinaison d’approches descendantes et montantes : une guidance sémantique qui utilise des connaissances linguistiques pour proposer de nouvelles catégories, et un clustering visuel qui identifie des motifs dans des données visuelles non étiquetées.

Interaction des méthodes dans l’apprentissage

Les chercheurs ont orchestré une synergie entre ces deux techniques durant l’apprentissage. Les propositions sémantiques, telles que les chapeaux, incitent le système visuel à rechercher ces objets, et si ces derniers sont retrouvés, cela valide une nouvelle catégorie. En revanche, les clusters visuels notables utilisent les savoirs linguistiques de CLIP pour déterminer comment nommer ces groupes. Ce processus interactif permet à OAK de transcender les limitations des systèmes précédents.

Résultats et performances du système

Les performances du modèle OAK ont été testées sur deux ensembles de données d’image, Stanford et Clevr-4, où il a été comparé à deux groupes de modèles de référence, incluant CLIP avec un vocabulaire élargi et la Découverte de Catégories Généralisée (GCD). OAK a surpassé les autres modèles en termes de précision et de découverte de concepts, atteignant un taux d’exactitude de 87,4 % lors de l’identification des humeurs dans l’ensemble de données Stanford, un progrès significatif de plus de 50 % par rapport à CLIP et GCD.

Applications futures et impact potentiel

À l’avenir, l’approche contextuelle d’OAK pourrait jouer un rôle vital dans des domaines comme la robotique, où les systèmes ont besoin d’une perception flexible de l’environnement, adaptée à leur tâche actuelle. En intégrant les avancées de cette recherche, des applications plus larges pourraient émerger, rendant l’IA non seulement plus intuitive, mais également plus efficace dans divers contextes de la vie quotidienne et professionnelle.

Pour plus d’informations, consultez également cet article sur la conception de métamatériaux et celui-ci sur l’amélioration des modèles d’IA.

EN BREF

  • Nouveau système : Utilise la catégorisation ad-hoc ouverte (OAK).
  • Flexibilité : Réinterprète les images selon le contexte.
  • Apprentissage : Combine données étiquetées et non étiquetées pour identifier des catégories.
  • Découverte de nouvelles catégories : Identifie des objets inconnus, comme des chapeaux ou des bagages.
  • Approches combinées : Allie méthodes top-down et bottom-up pour identifier des catégories pertinentes.
  • Évaluation : Performances supérieures dans des ensembles de données comme Stanford et Clevr-4.
  • Applications : Utile pour des domaines comme la robotique.