Au fur et à mesure que les modèles d’IA avancés se répandent sur des appareils à faible consommation d’énergie, leur architecture peut être simplifiée, compromettant souvent les mécanismes de protection intégrés. Ce problème majeur soulève des inquiétudes quant à la capacité de ces systèmes à éviter la génération de contenus inappropriés ou dangereux. Pour répondre à cette problématique, des chercheurs ont développé des méthodes novatrices de réentraînement ciblé, visant à maintenir l’intégrité de la sécurité des modèles même lorsque certaines couches essentielles sont omises. Cette approche permet de renforcer la résistance des modèles d’IA face aux modifications non autorisées, garantissant ainsi leur bon comportement par défaut, même dans des environnements contraints.
Des chercheurs de l’Université de Californie à Riverside ont développé une méthode innovante pour préserver les safeguards des modèles d’IA open-source, même lorsque ces derniers sont allégés pour fonctionner sur des appareils à faible consommation d’énergie. L’objectif principal de cette recherche est de garantir que l’IA continue de produire des résultats sûrs, même après la suppression de certaines couches essentielles de traitement. En modifiant la structure interne des modèles, les chercheurs ont pu maintenir leur capacité à détecter et bloquer les contenus dangereux, évitant ainsi les dérives potentielles.
Les enjeux des modèles d’IA open-source
Les modèles d’IA open-source, contrairement aux systèmes propriétaires, peuvent être téléchargés, modifiés et exécutés hors ligne par un large public. Cette accessibilité favorise l’innovation et la transparence, mais elle augmente également les risques de mauvaise utilisation. En effet, sans l’infrastructure nuagique et la surveillance constante dont bénéficient les systèmes fermés, ces modèles deviennent vulnérables.
Un des problèmes cruciaux identifiés par l’équipe de recherche est que les fonctionnalités de sécurité soigneusement conçues peuvent s’affaiblir lorsque les modèles sont réduits en taille. Cela survient principalement parce que les déploiements à faible consommation d’énergie évitent souvent certaines couches de traitement interne pour économiser de la mémoire et de la puissance de calcul. Bien que la suppression de ces couches améliore la vitesse et l’efficacité des modèles, elle peut également engendrer des réponses inappropriées, allant jusqu’à la diffusion de contenus illégaux ou dangereux.
La stratégie de réentraînement proposée
Pour répondre à cette problématique, les chercheurs se sont concentrés sur le réentraînement des modèles internes afin de préserver leur capacité à détecter et bloquer les requêtes dangereuses, même en l’absence de certaines couches. Ce processus n’implique pas l’ajout de filtres externes ou de correctifs logiciels, mais modifie plutôt la compréhension interne du modèle face à un contenu à risque.
Lors des tests de leur méthode, l’équipe a utilisé LLaVA 1.5, un modèle de langage et de vision capable de traiter à la fois du texte et des images. Ils ont découvert que certaines combinaisons, telles que l’association d’une image inoffensive avec une question nuisible, pouvaient contourner les filtres de sécurité du modèle. Dans une expérience, le modèle modifié avait fourni des instructions détaillées pour la construction d’un engin explosif. Cependant, après le réentraînement, le modèle a systématiquement refusé de répondre à ces requêtes dangereuses, même avec une architecture considérablement réduite.
Un nouveau paradigme de cybersécurité pour l’IA
Les chercheurs, dont Amit Roy-Chowdhury, ont qualifié leur démarche de « hacking bienveillant », visant à renforcer les modèles avant que des vulnérabilités ne puissent être exploitées. La recherche vise à développer des techniques qui assurent la sécurité à travers chaque couche interne, rendant ainsi les IA plus robustes dans des conditions réelles. En adaptant la structure interne des modèles, il est possible de veiller à ce qu’ils restent conformes à des comportements sûrs par défaut, même lorsqu’ils sont modifiés.
Cette recherche ouvre la voie à un avenir où les modèles d’IA peuvent être utilisés sans crainte de distorsions irresponsables, résolvant l’un des défis majeurs associés à l’utilisation des technologies open-source dans des environnements variés et potentiellement risqués.
EN BREF
|