Des chercheurs développent une suite de tests pour évaluer les LLM dans le cadre de la loi européenne sur l’intelligence artificielle

découvrez comment des chercheurs mettent au point une série de tests innovants pour évaluer les modèles linguistiques de grande taille (llm) conformément aux exigences de la loi européenne sur l'intelligence artificielle, visant à garantir la transparence et la sécurité des technologies ai.

Dans un contexte où l’intelligence artificielle (IA) prend une place prépondérante dans notre quotidien, des chercheurs se sont mobilisés pour développer une suite de tests visant à évaluer les modèles de langage de grande taille (LLM) en conformité avec la loi européenne sur l’intelligence artificielle. Ce travail pionnier permet de produire des critères d’évaluation clairs et mesurables, traduisant ainsi les exigences légales en exigences techniques concrètes. L’objectif est d’assurer que ces technologies évoluent de manière éthique, transparente et respectueuse des droits des utilisateurs.

Une équipe de chercheurs d’ETH Zurich, de l’institut de recherche en IA inBulgarie, INSAIT, ainsi que de la start-up LatticeFlow AI, a conçu une suite de tests visant à évaluer la conformité des modèles linguistiques volumineux (LLM) par rapport aux exigences de la loi européenne sur l’intelligence artificielle (AI Act). Cette initiative offre une traduction claire des exigences légales de l’UE en normes techniques mesurables, un outil essentiel pour les développeurs souhaitant s’assurer que leurs modèles répondent aux critères de sécurité et d’éthique imposés par cette réglementation.

Une interprétation technique des exigences légales

Le cadre proposé par les chercheurs se concentre sur la création de benchmarks spécifiques qui permettent aux développeurs d’évaluer si leurs modèles répondent aux exigences de conformité anticipées. Ils ont exploré les exigences légales exprimées dans la loi et les ont traduites en critères techniques clairs, une démarche qui n’avait pas été réalisée jusqu’à présent. Cela ouvre la voie à une meilleure compréhension des normes attendues dans le développement des modèles d’IA.

Le test a été effectué sur 12 des modèles les plus utilisés, tels que ChatGPT, Llama, Claude et Mistral. Ces modèles, en raison de leur popularité croissante, deviennent centraux dans la discussion sur l’éthique et la responsabilité dans l’utilisation de l’IA. Les résultats de cette étude montrent l’importance d’un cadre solide pour évaluer leur comportement en termes de robustesse, d’ouverture et de transparence.

L’importance de l’éthique dans le développement de l’IA

Avec l’expansion des LLM dans divers domaines, des préoccupations éthiques et juridiques sont de plus en plus pressantes. Des questions fondamentales sur la protection des données, la protection de la vie privée et la transparence des algorithmes se posent. Les modèles ne devraient pas être considérés comme des « boîtes noires », mais comme des systèmes capables de fournir des résultats explicables et vérifiables. Le cadre de tests développé par les chercheurs cherche à atténuer ces préoccupations en fournissant des critères d’évaluation qui harmonisent l’éthique avec la technologie.

Un cadre pour maximiser la confiance publique

Le AI Act, adopté par l’UE en mars 2024, vise à établir un cadre légal solide pour les modèles d’IA, en cherchant à maximiser la confiance du public tout en minimisant les risques associés à ces technologies. Selon les chercheurs, l’élaboration de normes techniques précises est cruciale pour le succès de cette législation. Sans des critères clairs, il sera difficile pour les développeurs de savoir si leurs modèles sont conformes à la loi.

La méthodologie développée et ses résultats

La méthodologie de l’équipe ETH propose un ensemble de benchmarks pour évaluer la conformité des LLM par rapport aux exigences du AI Act. En examinant les principes éthiques tels que la diversité, la non-discrimination, et la justice, les chercheurs ont établi 12 exigences techniques, assorties de 27 benchmarks d’évaluation. Cela permet aux développeurs de bénéficier d’un outil pratique, tout en fournissant des recommandations précieuses pour l’implémentation responsable de la loi.

Les résultats des tests sur les 12 modèles de langage montrent des lacunes dans le respect des exigences de sécurité, de robustesse et d’intégrité. Cela met en lumière un besoin urgent d’établir des normes qui intègrent ces aspects essentiels dans le développement des modèles d’IA. Les chercheurs soulignent que même des concepts fondamentaux tels que l’explainabilité manquent souvent de définitions précises et d’outils adaptés pour assurer une explicitation satisfaisante des résultats produits par les LLM.

Une dynamique pour l’innovation législative

Le travail de ces chercheurs représente un tournant significatif dans la manière dont la législation pourrait façonner le développement futur des modèles d’IA. En offrant un cadre d’évaluation applicable à d’autres réglementations similaires, ce modèle encourage un développement équilibré des LLM prenant en considération à la fois les aspects techniques et les considérations éthiques. L’initiative a pour but non seulement d’évaluer les modèles existants mais aussi de permettre une réflexion plus large sur l’impact que pourrait avoir la réglementation sur le futur de l’IA.

Les chercheurs ont mis leur outil de benchmark, nommé COMPL-AI, à la disposition de la communauté scientifique et industrielle via GitHub, afin de stimuler les discussions techniques et de favoriser l’innovation en matière d’évaluation des modèles IA. Ce partage de connaissances est essentiel pour assurer une évolution positive des pratiques autour de l’IA dans les années à venir.

EN BREF

  • ETH Zurich et partenaires créent une suite de tests pour les LLM.
  • Le but est de s’assurer de la conformité aux exigences de la loi européenne sur l’IA.
  • Présentation d’une approche pratique pour évaluer les modèles d’IA.
  • 12 modèles génératifs comme ChatGPT et Llama analysés.
  • Identifie les lacunes en termes de robustesse, diversité et équité.
  • Développement d’un outil de conformité en open source.
  • La recherche vise une mise en œuvre efficace de l’AI Act en Europe.