L’intelligence artificielle juge les textes sans biais… jusqu’à ce que l’origine soit dévoilée

découvrez comment l'intelligence artificielle évalue les textes de manière impartiale, jusqu'à ce que la source soit révélée, mettant en lumière les biais persistants.

L’utilisation croissante des modèles de langue étendus (LLMs) pour évaluer et générer des contenus suscite un intérêt grandissant. Une récente étude a révélé que ces intelligences artificielles, bien qu’elles puissent produire des jugements apparemment objectifs, montrent en réalité des biais systématiques lorsqu’elles sont exposées à des informations sur l’origine ou l’identité de l’auteur des textes évalués. Sans ces informations, les évaluations des LLMs affichent un haut degré d’accord entre eux. Cependant, dès qu’un auteur ou une source est mentionné, des préjugés enfouis se manifestent, altérant la pertinence et l’objectivité des jugements. Ces découvertes soulignent des enjeux cruciaux concernant l’utilisation de l’IA dans des domaines sensibles tels que la modération de contenu, l’embauche ou le journalisme.

Des avancées significatives dans l’évaluation des textes par des modèles de langage de grande taille (LLMs) ont récemment été mises en lumière. Bien que ces modèles semblent fournir des jugements impartiaux lorsqu’ils n’ont pas accès à des informations sur l’auteur ou la source, une étude révèle qu’un biais systématique émerge dès qu’ils reçoivent de telles indications. Les chercheurs ont examiné cette problématique et constaté que toute information d’attribution influence fortement les résultats, révélant ainsi une dynamique cachée de discrimination qui pourrait avoir des implications graves dans des contextes tels que la modération de contenu ou l’évaluation académique.

Les résultats de l’étude

La recherche, menée par les scientifiques Federico Germani et Giovanni Spitale, a impliqué l’analyse de plusieurs LLMs, notamment OpenAI o3-mini, Deepseek Reasoner, xAI Grok 2 et Mistral. Ces modèles ont été sollicités pour créer cinquante déclarations narratives sur des sujets controversés, comme les mandats de vaccination, la géopolitique, ou encore les politiques de changement climatique. Ensuite, différentes conditions d’attribution ont été appliquées, permettant ainsi d’évaluer les jugements sur un total impressionnant de 192,000 évaluations.

Accord élevé en l’absence d’identité

Les résultats ont montré qu’en l’absence d’informations sur la source, les quatre modèles manifestaient un taux d’accord supérieur à 90% sur leurs évaluations. Cette convergence dans les jugements indique une fiabilité lorsque l’origine du texte n’est pas précisée. Comme l’affirme Spitale, « il n’existe pas de guerre idéologique entre les LLMs »; cependant, cette neutralité a été mise à mal lorsque des informations relatives à l’auteur ont été fournies.

Un biais systématique révélé

Dès qu’une attribution fictive était incluse, souvent un nom de pays était mentionné, le consensus entre les LLMs s’est effondré. Le biais le plus marqué observé par les chercheurs était la dépréciation des documents attribués à des auteurs d’origine chinoise. Par exemple, dans des débats sur la souveraineté de Taïwan, les jugements des LLMs ont été réduits de jusqu’à 75% si l’on prétendait que l’auteur était « une personne de Chine ». Germani a souligné que même lorsque les arguments dans le texte étaient logiques et bien formulés, une perception défavorable persistait.

Une confiance plus élevée envers les humains

Un autre fait surprenant de l’étude a révélé que les LLMs semblent faire preuve d’une plus grande confiance envers les textes rédigés par des humains que par d’autres intelligences artificielles. Lorsqu’ils pensaient que le texte provenait d’un autre modèle, les scores d’accord étaient quelque peu diminués, impliquant une méfiance intrinsèque envers le contenu généré par d’autres machines. Cette découverte soulève des questions importantes sur la crédibilité des jugements réalisés par ces systèmes.

Appel à une plus grande transparence

Les résultats de cette étude soulignent le besoin urgent de transparence et de gouvernance dans l’utilisation de l’IA pour l’évaluation de contenu. En effet, même des indices minimes, tels que la nationalité de l’auteur, peuvent pousser les modèles vers des raisonnements biaisés. Germani et Spitale avertissent que cette structure cachée de partialité pourrait causer des problèmes significatifs dans des domaines comme la modération de contenu, le recrutement, la révision académique, ou encore le journalisme. Les chercheurs insistent sur le fait que les LLMs ne doivent pas être considérés comme des juges infallibles, mais plutôt comme des outils d’assistance au raisonnement.

Stratégies pour éviter le biais d’évaluation des LLMs

Pour réduire le biais dans l’évaluation, plusieurs stratégies peuvent être mises en œuvre. Premièrement, il est recommandé de rendre l’identité du LLM invisible en omettant toute information d’identité concernant l’auteur et la source du texte. Deuxièmement, il est utile d’examiner les mêmes questions sous différents angles, par exemple, en posant la même question avec et sans mention de la source. Si les résultats varient significativement, cela pourrait indiquer un biais. Troisièmement, les critères d’évaluation doivent se concentrer sur le contenu plutôt que sur l’identité; l’utilisation de prompts structurés peut aider à ancrer les modèles dans les arguments eux-mêmes.

Enfin, il est crucial de maintenir l’humain dans la boucle; le modèle doit être perçu comme un outil d’aide à la rédaction, avec une révision humaine qui suit, surtout lorsque les évaluations peuvent influencer des personnes. Pour plus d’informations sur les avancées de l’IA dans divers contextes, voici quelques articles intéressants : l’optimisation des exosquelettes, la gestion des systèmes complexes, la prévision des crues, l’impact en situation d’urgence, et l’anticipation des décisions humaines.

EN BREF

  • Étude sur l’évaluation par des modèles de langage (LLMs) publiée dans Science Advances.
  • LLMs utilisés pour générer et évaluer du contenu (essais, réseaux sociaux, candidatures).
  • Débat sur l’équité et le biais des évaluations par IA.
  • Tests menés avec quatre LLMs populaires : OpenAI, Deepseek, xAI, et Mistral.
  • Résultats : Évaluations sans source montrent un haut accord (>90%).
  • Biais révélé lorsque la source ou l’auteur est présenté.
  • Anti-Chine : jugement moins favorable à des textes attribués à des auteurs chinois.
  • Les LLMs se méfient plus des contenus générés par d’autres LLMs.
  • Appel à une transparence accrue pour éviter les évaluations biaisées.
  • Recommandations pour limiter le biais : neutralité, évaluation humaine, critères structurés.