Quand l’IA illustre nos mots : une étude révèle que les générateurs d’images peinent à suivre des consignes simples malgré des rendus esthétiques réussis

découvrez comment les générateurs d'images par ia, bien que produisant des visuels esthétiques, rencontrent des difficultés à respecter des consignes simples selon une étude récente.

Depuis leur apparition, les intelligences artificielles génératives telles que Midjourney et DALL·E ont suscité un fort intérêt en permettant de créer des images à partir de phrases simples. Cependant, une étude récente met en lumière les difficultés rencontrées par ces systèmes pour suivre des consignes élémentaires, malgré des résultats visuellement attrayants. Des chercheurs de l’Université de Liège ont analysé la manière dont ces intelligences traduisent les mots en visuels, révélant ainsi les limitations et les biais inhérents à leur fonctionnement dynamique. Au-delà de la prouesse technique, cette étude souligne l’importance de comprendre le processus derrière la création d’images par intelligence artificielle.

Depuis l’émergence des intelligences artificielles génératives, comme Midjourney et DALL·E, la possibilité de créer des images à partir de phrases simples a suscité autant l’admiration que les interrogations. Une étude récente menée par des chercheurs de l’Université de Liège, de l’Université de Lorraine et de l’EHESS met en lumière les défis rencontrés par ces systèmes. Bien qu’ils soient capables de produire des images esthétiquement agréables, leur capacité à suivre des instructions claires reste limitée. Ce paradoxe entre l’esthétique et la compréhension souligne la complexité des mécanismes de traduction entre le langage verbal et visuel.

Des machines au service de la créativité humaine

Les systèmes utilisant des algorithmes d’intelligence artificielle, tels que Midjourney et DALL·E, ont ouvert de nouvelles avenues pour les artistes et les professionnels de la création. Ces outils permettent de générer des images à partir de simples déclarations en langage naturel, transformant des mots en représentations visuelles surprenantes. Cependant, la question se pose : jusqu’où peuvent-ils vraiment aller dans la compréhension de nos intentions créatives ?

Une approche scientifique rigoureuse

Les chercheurs de l’étude ont adopté une méthode interdisciplinaire, combinant sémiologie, informatique et histoire de l’art, afin d’évaluer la performance de ces IA. Selon Maria Giulia Dondero, sémioticienne à l’Université de Liège, l’équipe a mis en place une série de tests standardisés en soumettant des requêtes précises aux deux sistemas d’IA et en analysant les résultats selon divers critères esthétiques et techniques. Les résultats montrent que, malgré leur capacité à produire des images attrayantes, ces systèmes ont des difficultés à interpréter des instructions simples et claires.

Les défis de l’interprétation

Une des conclusions les plus frappantes de l’étude est le constat que les générateurs d’images se heurtent à des défis particuliers. Par exemple, ils montrent une mauvaise compréhension de la négation; une requête comme « un chien sans queue » peut aboutir à une image d’un chien avec une queue. De plus, les relations spatiales complexes ou le positionnement cohérent des éléments posent également problème. Des scénarios simples tels que « deux femmes derrière une porte » peuvent mener à des compositions qui ne respectent pas le souhait initial de l’utilisateur.

Esthétique vs instructions

Bien que les IA puissent générer des images esthétiquement plaisantes, cette beauté apparaît souvent au détriment du respect des consignes. Par exemple, l’étude a montré que lorsque l’on demandait une image représentant « trois lignes blanches verticales sur un fond noir », les rendus allaient varier considérablement, en thèmes de texture et de nombre d’éléments, soulignant une certaine inconsistance en fonction du modèle utilisé. Midjourney, par exemple, a tendance à embellir le rendu par des artefacts esthétiques, tandis que DALL·E offre un contrôle compositionnel plus rigoureux mais avec d’autres variabilités.

L’empreinte des concepteurs sur la vision des IA

Les chercheurs mettent également en exergue que ces systèmes ne sont pas des outils neutres. Ils intègrent les stéréotypes visuels présents dans leurs bases de données, souvent influencés par des images occidentales. Un exemple significatif est la requête qui demande un « PDG donnant un discours » ; les résultats peuvent varier largement, de l’apparition principalement de femmes à une représentation presque exclusive d’hommes d’âge moyen et blancs. Cela souligne l’importance des choix des concepteurs dans la façon dont les machines interprètent le monde.

Vers une meilleure compréhension des générateurs d’images

Évaluer ces technologies va au-delà de la simple mesure de leur efficacité statistique. Cela nécessite une approche qui intègre des outils issus des sciences humaines pour comprendre leur fonctionnement culturel et symbolique. Enzo D’Armenio, auteur principal de l’article, souligne que ces outils d’IA traduisent nos mots selon leur propre logique, façonnée par leurs bases de données et algorithmes. Une meilleure intégration des sciences humaines est essentielle pour appréhender ces nouvelles avancées technologiques.

Un potentiel encore à explorer

Alors que ces générateurs d’images continuent d’évoluer, leur utilisation pourrait transformer encore davantage notre façon de voir et de représenter le monde. Des innovations récentes, telles que la création d’images avec une consommation énergétique minimale ou le développement de modèles météorologiques dépassant les prévisions traditionnelles, témoignent du potentiel de l’IA. De plus, des avancées dans l’édition d’images grâce aux tokenizers et décodeurs ouvrent la voie à des expériences créatives sans précédent.

Pour en savoir plus sur les aspects divers de l’intelligence artificielle, il est possible de consulter ces articles : Matériaux magnétiques innovants, Modèles météorologiques basés sur l’IA, Modèles d’images basés sur l’IA, Révolution de l’IA, et Édition d’images avec l’IA.

EN BREF

  • Étude sur les capacités de Midjourney et DALL·E
  • Difficultés à comprendre les négations et les relations spatiales
  • Génération d’images parfois esthétiques, mais souvent erronées
  • Importance des stéréotypes visuels issus des bases de données
  • Validation par des tests statistiques multiples
  • Défis dans la représentation des séquences temporelles
  • Préférence esthétique de Midjourney contre contrôle compositionnel de DALL·E
  • Analyse nécessaire à l’aide des humanités