Un modèle informatique reproduit la perception audiovisuelle humaine avec précision

découvrez comment un modèle informatique innovant reproduit avec précision la perception audiovisuelle humaine, offrant de nouvelles perspectives en intelligence artificielle et neurosciences.

Un nouvel modèle informatique développé à l’Université de Liverpool a réussi à reproduire la perception audiovisuelle humaine de manière remarquablement précise. Inspiré par des processus biologiques, ce modèle innovant se concentre sur l’intégration des signaux visuels et sonores en temps réel, permettant ainsi de mieux comprendre comment notre cerveau associe ces informations pour percevoir le monde qui nous entoure. En s’appuyant sur des données réelles plutôt que sur des paramètres abstraits, cette approche ouvre la voie à de nouvelles avancées dans le domaine de l’intelligence artificielle et de la perception machine.

Une équipe de chercheurs de l’Université de Liverpool a développé un modèle informatique capable de combiner la vue et l’audition d’une manière qui reflète étroitement la manière dont les humains perçoivent ces deux sens simultanément. S’inspirant de la biologie, ce modèle est conçu pour améliorer la perception des machines et pourrait avoir de nombreuses applications en intelligence artificielle (IA).

Origines biologiques du modèle

Le modèle proposé repose sur une fonction cérébrale identifiée pour la première fois chez les insectes, qui leur permet de détecter les mouvements. Le Dr Cesare Parise, conférencier senior en psychologie, a adapté ce concept pour créer un système capable de traiter des signaux audiovisuels réels, tels que des vidéos et des sons, contrairement aux anciens modèles qui se basaient sur des paramètres abstraits.

Les illusions perceptives

Lorsque nous observons quelqu’un parler, notre cerveau associe automatiquement les mouvements des lèvres avec les sons entendu. Cela peut donner lieu à des illusions comme l’effet McGurk, où des sons et des mouvements labiaux incongrus entraînent une nouvelle perception, ou l’illusion du ventriloque, où la voix semble provenir d’une marionnette au lieu du performer. Cette recherche s’intéresse à la question suivante : comment le cerveau détermine-t-il que le son et la vision sont en accord ?

Les limites des modèles précédents

Les modèles précédents ont tenté d’expliquer cette intégration perceptuelle, mais ils étaient limités car ils ne prennent pas en compte les signaux audiovisuels réels. Selon le Dr Parise, « malgré des décennies de recherche sur la perception audiovisuelle, nous n’avions pas de modèle capable de traiter des entrées vidéos pour déterminer si l’audio serait perçu comme synchronisé. »

Innovation dans l’intégration sensorielle

Le nouveau modèle aborde un défi majeur dans l’intégration sensorielle. Il s’inspire des travaux antérieurs du Dr Parise et de Marc Ernst, qui ont proposé le principe de détection de corrélations, une explication possible de la façon dont le cerveau combine les signaux provenant de différentes perceptions. Cette collaboration a conduit à la création du Détecteur de Corrélations Multisensorielles (MCD), un modèle capable de reproduire les réponses humaines à des motifs audiovisuels simples.

Simulations à grande échelle

Dans cette étude, Parise a simulé une série de détecteurs disposés en grille dans l’espace visuel et auditif, ce qui a permis au modèle de traiter des stimuli complexes provenant du monde réel. Il a réussi à reproduire les résultats de 69 expériences bien connues sur des humains, des singes et des rats. Ce travail représente la plus grande simulation jamais réalisée dans ce domaine, surpassant les performances des modèles précédents.

Vers une nouvelle ère d’applications

Le modèle a non seulement égalé le comportement observé à travers différentes espèces, mais a également surpassé le modèle d’Inférence Causale Bayésienne, tout en utilisant le même nombre de paramètres ajustables. De plus, il a prédit où les gens regarderaient en regardant des films audiovisuels, servant ainsi de modèle de saillance léger.

Applications potentielles dans l’IA

Parise estime que ce modèle pourrait avoir des applications au-delà des neurosciences. Il souligne que l’évolution a déjà résolu le défi de l’alignement du son et de la vue à travers des calculs simples et généralisés. Ce qui est crucial, c’est la computabilité des stimuli : puisque le modèle fonctionne directement sur des signaux audiovisuels bruts, il peut être appliqué à tout matériau du monde réel.

En outre, le modèle MCD représente une alternative aux systèmes d’IA d’aujourd’hui, qui peinent encore à combiner de manière fiable des informations multimodales. Contrairement aux modèles de saillance audiovisuelle qui nécessitent de vastes réseaux d’apprentissage, le modèle MCD est léger, efficace et ne requiert aucune formation préalable.

Cette avancée dans la modélisation de la perception audiovisuelle humaine ouvre la porte à un champ d’applications potentielles, de la prévision des illusions perceptuelles à la génération de cartes de saillance audiovisuelles dynamiques.

Pour en savoir plus sur la manière dont ces nouveaux modèles peuvent transformer le domaine de l’intelligence artificielle, consultez d’autres études telles que celles sur les électrolytes de batterie, les modèles linguistiques, ou encore l’exploration des pensées de l’IA.

EN BREF

  • Modèle informatique développé par l’Université de Liverpool.
  • Combine vision et son de manière similaire aux humains.
  • Basé sur une fonction cérébrale découverte chez les insectes.
  • Capable de traiter des signaux audiovisuels réels.
  • Réduit l’écart avec des modèles précédents en utilisant des données concrètes.
  • Reproduit des résultats de 69 expériences connues.
  • Surpasse le modèle Bayesien causal en performance.
  • Modèle léger et sans entraînement requis.
  • Applicabilité potentielle au-delà de la neurosciences et de l’intelligence artificielle.