Au-delà de la traduction : un benchmark multilingue pour une IA multiculturalisée

découvrez comment un benchmark multilingue transforme l'approche de l'ia en intégrant la multiculturalité. explorez les enjeux de la traduction au-delà des mots et apprenez à développer des systèmes intelligents qui respectent la diversité linguistique et culturelle.

Dans un monde de plus en plus interconnecté, la nécessité d’une intelligence artificielle qui intègre non seulement la langue mais aussi les nuances culturelles et les contextes régionaux devient primordiale. Les modèles de langage actuels, bien qu’impressionnants dans leur capacité à traiter plusieurs langues, rencontrent souvent des difficultés lorsqu’il s’agit de comprendre des éléments spécifiques liés aux cultures locales ou aux réglementations régionales. Ce constat souligne les limites des benchmarks traditionnels, souvent biaisés par des perspectives occidentales et centrés sur l’anglais. Ainsi, la création d’un benchmark multilingue, tel qu’INCLUDE, représente une avancée capitale permettant d’évaluer non seulement la maîtrise linguistique des modèles, mais aussi leur aptitude à appréhender et intégrer les diversités socioculturelles. Ce nouveau paradigme vise à promouvoir une IA véritablement inclusive et capable de répondre aux besoins variés des utilisateurs à travers le monde.

L’évolution des modèles de langage a ouvert de nouvelles perspectives pour l’intelligence artificielle. Cependant, un défi persistant demeure : la capacité des grands modèles de langage (LLMs) à assimiler des réalités régionales et culturelles. Le projet INCLUDE représente une avancée significative dans cette direction, offrant un cadre permettant d’évaluer non seulement la performance linguistique des modèles, mais aussi leur compréhension des nuances locales et culturelles. Cette initiative vise à créer des modèles d’IA qui reflètent mieux les valeurs culturelles et les langues des communautés spécifiques, en intégrant des connaissances explicitement régionales. Au lieu de traduire, INCLUDE construit son benchmark sur des questions conçues par des locuteurs natifs, apportant ainsi une réponse indiscutable à cette lacune existante dans le domaine de l’IA.

Le besoin d’une compréhension culturelle

Les modèles de langage comme GPT-4 et LLaMA-3 ont fait des progrès notables en matière de génération et de compréhension de texte à travers de nombreuses langues. Néanmoins, leur performance s’avère souvent insuffisante lorsqu’il s’agit de langues moins représentées ou d’interrogations liées à des contextes culturels spécifiques. Par exemple, un utilisateur demandant des informations sur des régulations locales pourrait se voir donner des réponses inexactes, illustrant ainsi une faille dans la capacité des LLMs à saisir les nuances régionales. À cet égard, INCLUDE s’inscrit dans une démarche visant à corriger ce biais en proposant une évaluation qui inclut les connaissances culturelles et contextuelles.

Une approche innovante avec INCLUDE

INCLUDE se distingue par son approche unique, en rassemblant plus de 197 000 questions à choix multiples issues d’examens académiques, professionnels et d’occupations. Ces questions ont été rédigées dans 44 langues et 15 scripts, en collaboration directe avec des locuteurs natifs. Cela permet d’éviter les pièges des biais de traduction et de fournir des données authentiques qui reflètent les réalités locales. En intégrant des questions sur des sujets variés tels que le droit, la littérature ou même la médecine, INCLUDE offre une évaluation plus pertinente des systèmes d’IA.

Les défis des modèles actuels

L’étude d’INCLUDE a mis en lumière les éventuelles lacunes des modèles ayant établi leur performance sur des sujets culturellement ancrés. Des résultats variés ont été observés, avec GPT-4o se distinguant comme le meilleur modèle, atteignant une précision moyenne d’environ 77 % sur tous les domaines. Cependant, des disparités marquées ont été constatées dans des langues comme l’arménien, le grec et l’ourdou, où les modèles rencontraient des difficultés notables sur des thématiques culturellement significatives. En effet, il est souvent constaté que ces modèles reviennent aux hypothèses occidentales ou génèrent des réponses erronées avec une assurance trompeuse.

Vers une IA plus inclusive

INCLUDE ne se limite pas à une simple mesure technique ; il représente également une initiative vers une IA plus inclusive. À mesure que les systèmes d’IA trouvent leur place dans des domaines cruciaux tels que l’éducation, la santé, et le droit, la compréhension des contextes régionaux devient primordiale. Comme le souligne Antoine Bosselut, responsable du Laboratoire de traitement du langage naturel, ces modèles doivent s’adapter aux réalités vécues des différentes communautés. Le benchmark a été rendu public et est déjà adopté par certains des principaux fournisseurs de LLMs, initiant ainsi une réflexion profonde sur la manière d’évaluer et de former les modèles d’IA sur des principes d’équité et d’inclusivité.

Implications futures et élargissement des horizons

Avec le développement d’une nouvelle version du benchmark, l’équipe d’INCLUDE prévoit d’étendre son évaluation à environ 100 langues, en intégrant des variétés régionales comme le français belge, canadien et suisse, ainsi que des langues souvent sous-représentées en provenance d’Afrique et d’Amérique Latine. Une adoption plus large de benchmarks comme INCLUDE pourrait également influencer des normes internationales et même des cadres réglementaires pour une IA responsable. Cette démarche pourrait faciliter le développement de modèles spécialisés dans des domaines critiques où la compréhension du contexte local est essentielle, tel que le droit ou la médecine.

EN BREF

  • INCLUDE : un outil novateur pour évaluer la compréhension linguistique des modèles d’IA en intégrant des connaissances régionales.
  • Développé par des équipes de EPFL, Cohere Labs et des collaborateurs mondiaux.
  • Utilise plus de 197,000 questions à choix multiples en 44 langues et 15 scripts.
  • Évalue la capacité des LLM à intégrer des nuances culturelles et des connaissances régionales.
  • Met en évidence les faiblesses des modèles actuels, notamment en matière de culture et de contexte local.
  • Vise à créer des modèles d’IA qui répondent aux besoins des communautés locales.
  • Déjà adopté par de grands fournisseurs de LLM, avec des plans pour l’élargir à 100 langues.