Dans un monde de plus en plus interconnecté, la nécessité d’une intelligence artificielle qui intègre non seulement la langue mais aussi les nuances culturelles et les contextes régionaux devient primordiale. Les modèles de langage actuels, bien qu’impressionnants dans leur capacité à traiter plusieurs langues, rencontrent souvent des difficultés lorsqu’il s’agit de comprendre des éléments spécifiques liés aux cultures locales ou aux réglementations régionales. Ce constat souligne les limites des benchmarks traditionnels, souvent biaisés par des perspectives occidentales et centrés sur l’anglais. Ainsi, la création d’un benchmark multilingue, tel qu’INCLUDE, représente une avancée capitale permettant d’évaluer non seulement la maîtrise linguistique des modèles, mais aussi leur aptitude à appréhender et intégrer les diversités socioculturelles. Ce nouveau paradigme vise à promouvoir une IA véritablement inclusive et capable de répondre aux besoins variés des utilisateurs à travers le monde.
L’évolution des modèles de langage a ouvert de nouvelles perspectives pour l’intelligence artificielle. Cependant, un défi persistant demeure : la capacité des grands modèles de langage (LLMs) à assimiler des réalités régionales et culturelles. Le projet INCLUDE représente une avancée significative dans cette direction, offrant un cadre permettant d’évaluer non seulement la performance linguistique des modèles, mais aussi leur compréhension des nuances locales et culturelles. Cette initiative vise à créer des modèles d’IA qui reflètent mieux les valeurs culturelles et les langues des communautés spécifiques, en intégrant des connaissances explicitement régionales. Au lieu de traduire, INCLUDE construit son benchmark sur des questions conçues par des locuteurs natifs, apportant ainsi une réponse indiscutable à cette lacune existante dans le domaine de l’IA.
Le besoin d’une compréhension culturelle
Les modèles de langage comme GPT-4 et LLaMA-3 ont fait des progrès notables en matière de génération et de compréhension de texte à travers de nombreuses langues. Néanmoins, leur performance s’avère souvent insuffisante lorsqu’il s’agit de langues moins représentées ou d’interrogations liées à des contextes culturels spécifiques. Par exemple, un utilisateur demandant des informations sur des régulations locales pourrait se voir donner des réponses inexactes, illustrant ainsi une faille dans la capacité des LLMs à saisir les nuances régionales. À cet égard, INCLUDE s’inscrit dans une démarche visant à corriger ce biais en proposant une évaluation qui inclut les connaissances culturelles et contextuelles.
Une approche innovante avec INCLUDE
INCLUDE se distingue par son approche unique, en rassemblant plus de 197 000 questions à choix multiples issues d’examens académiques, professionnels et d’occupations. Ces questions ont été rédigées dans 44 langues et 15 scripts, en collaboration directe avec des locuteurs natifs. Cela permet d’éviter les pièges des biais de traduction et de fournir des données authentiques qui reflètent les réalités locales. En intégrant des questions sur des sujets variés tels que le droit, la littérature ou même la médecine, INCLUDE offre une évaluation plus pertinente des systèmes d’IA.
Les défis des modèles actuels
L’étude d’INCLUDE a mis en lumière les éventuelles lacunes des modèles ayant établi leur performance sur des sujets culturellement ancrés. Des résultats variés ont été observés, avec GPT-4o se distinguant comme le meilleur modèle, atteignant une précision moyenne d’environ 77 % sur tous les domaines. Cependant, des disparités marquées ont été constatées dans des langues comme l’arménien, le grec et l’ourdou, où les modèles rencontraient des difficultés notables sur des thématiques culturellement significatives. En effet, il est souvent constaté que ces modèles reviennent aux hypothèses occidentales ou génèrent des réponses erronées avec une assurance trompeuse.
Vers une IA plus inclusive
INCLUDE ne se limite pas à une simple mesure technique ; il représente également une initiative vers une IA plus inclusive. À mesure que les systèmes d’IA trouvent leur place dans des domaines cruciaux tels que l’éducation, la santé, et le droit, la compréhension des contextes régionaux devient primordiale. Comme le souligne Antoine Bosselut, responsable du Laboratoire de traitement du langage naturel, ces modèles doivent s’adapter aux réalités vécues des différentes communautés. Le benchmark a été rendu public et est déjà adopté par certains des principaux fournisseurs de LLMs, initiant ainsi une réflexion profonde sur la manière d’évaluer et de former les modèles d’IA sur des principes d’équité et d’inclusivité.
Implications futures et élargissement des horizons
Avec le développement d’une nouvelle version du benchmark, l’équipe d’INCLUDE prévoit d’étendre son évaluation à environ 100 langues, en intégrant des variétés régionales comme le français belge, canadien et suisse, ainsi que des langues souvent sous-représentées en provenance d’Afrique et d’Amérique Latine. Une adoption plus large de benchmarks comme INCLUDE pourrait également influencer des normes internationales et même des cadres réglementaires pour une IA responsable. Cette démarche pourrait faciliter le développement de modèles spécialisés dans des domaines critiques où la compréhension du contexte local est essentielle, tel que le droit ou la médecine.
EN BREF
|