Une récente publication de chercheurs en intelligence artificielle met en lumière une préoccupante réalité concernant les modèles de langage ouverts, communément appelés LLMs. Malgré les promesses de transparence affichées par leurs développeurs, ces systèmes ne seraient pas aussi accessibles qu’ils le laissent croire. En explorant les véritables implications de cette affirmation, les experts soulignent l’importance d’une évaluation critique des mécanismes qui régissent la formation et l’utilisation de ces modèles.
Une étude récente menée par des chercheurs de l’Université de Cornell, de la Signal Foundation et du Now Institute met en lumière une réalité troublante concernant les modèles de langage ouverts (LLM). Bien que ces modèles soient présentés comme étant « ouverts », les chercheurs soulignent qu’ils ne le sont pas autant que les développeurs le prétendent, et qu’un véritable accès aux données d’entraînement et aux capacités de formation indépendantes est souvent inexistant.
Un manque de véritable accès
Les auteurs de l’étude, David Widder, Meredith Whittaker et Sarah West, expliquent que la simple disponibilité du code source ne garantit pas l’ouverture d’un LLM. En effet, un utilisateur qui télécharge le code n’est pas en mesure d’accéder aux données d’entraînement qui sont essentielles pour comprendre et utiliser ces modèles. De plus, très peu de développeurs disposent des ressources nécessaires pour entraîner un LLM de manière indépendante, ce qui limite encore plus leur capacité à les modifier réellement.
La popularité croissante des LLM et les inquiétudes qui l’accompagnent
Avec l’essor de l’intelligence artificielle et la popularité croissante de solutions telles que ChatGPT, une préoccupation a émergé parmi le grand public ainsi que les professionnels : quelle est l’orientation de la recherche en IA ? Les craintes concernent la perte de vie privée, la diminution d’emplois et la difficulté à différencier le contenu authentique du contenu généré par des systèmes neuronaux.
Les implications de l’open-washing
Les chercheurs reconnaissent que, bien que les créateurs de LLM aient tenté d’améliorer la transparence en rendant leurs modèles accessibles au public, de nombreuses pratiques confortent l’idée d’un « open-washing ». Par exemple, certains systèmes, tels que Llama 3, ne peuvent être utilisés que via des interfaces de programmation d’applications (API), ce qui limite l’interaction des utilisateurs avec le modèle de base.
Les principaux facteurs de l’ouverture des LLM
L’étude identifie trois facteurs principaux influençant le niveau d’ouverture des LLM : la transparence, la réutilisabilité et l’extensibilité. La transparence dépend de l’engagement des développeurs à partager des informations sur leurs systèmes. La réutilisabilité fait référence à la capacité des utilisateurs à utiliser le code source de manière efficace, ce qui dépend de la qualité de son écriture. Enfin, l’extensibilité concerne la possibilité pour les utilisateurs de modifier le code pour répondre à leurs besoins spécifiques.
Vers un accès véritablement ouvert
Les chercheurs concluent que, tant que les utilisateurs n’ont pas un accès réel au matériel capable de former des LLM, ainsi qu’à des données d’entraînement facilement accessibles ou gratuites, les modèles qualifiés d’« ouverts » continueront à être en réalité plutôt fermés. Cette situation soulève des questions cruciales sur l’évolution de l’IA et les moyens d’en garantir un développement équilibré et éthique.
Un appel à une plus grande transparence
Afin d’encourager un développement éthique de l’intelligence artificielle, les auteurs de l’étude plaident pour que les développeurs de LLM adoptent des pratiques plus transparentes. Cela imprégnerait la communauté d’un sens plus profond de responsabilité vis-à-vis de l’impact social de ces technologies, en veillant à ce que la transparence ne soit pas qu’un simple slogan marketing, mais un engagement réel et tangible.
Pour plus d’informations sur ce sujet vital, vous pouvez consulter des articles connexes qui traitent de l’importance de la transparence dans l’IA et la l’impact politique des LLM.
EN BREF
|