Des données filtrées empêchent les modèles d’IA accessibles au public d’exécuter des tâches dangereuses, révèle une étude

une étude révèle que le filtrage des données empêche les modèles d'ia publics de réaliser des tâches dangereuses, soulignant l'importance de la sélection des données pour renforcer la sécurité de l'intelligence artificielle.

Une étude récente menée par des chercheurs de l’Université d’Oxford, d’EleutherAI et de l’UK AI Security Institute met en avant l’efficacité des données filtrées dans la protection des modèles d’IA ouverts. En éliminant dès le départ les connaissances potentiellement nuisibles durant l’entraînement, cette recherche démontre qu’il est possible de concevoir des modèles qui résistent aux modifications malveillantes. Cette avancée est particulièrement cruciale dans des domaines sensibles, tel que la recherche sur les menaces biologiques, où la sécurité et l’innovation doivent être équilibrées sans compromettre l’accès au savoir.

Une nouvelle étude menée par des chercheurs de l’Université d’Oxford, EleutherAI et le UK AI Security Institute a mis en lumière une avancée majeure dans la protection des modèles de langage à poids ouvert. Grâce à un processus de filtrage de données, ces chercheurs ont pu réduire les risques d’utilisation abusive tout en maintenant la transparence et l’accessibilité, ce qui est crucial pour des domaines sensibles tels que la recherche sur les menaces biologiques.

Une approche novatrice en matière de sécurité

Traditionnellement, les mesures de sécurité dans le développement de modèles d’IA étaient souvent appliquées de manière réactive. Toutefois, cette étude démontre une nouvelle méthode qui incorpore des protections dès le début du processus d’entraînement. Les chercheurs ont filtré les connaissances potentiellement nuisibles, garantissant que les modèles soient à la fois ouverts et sécurisés. Cela représente un véritable changement de paradigme dans la conception des systèmes d’IA.

Un processus de filtrage robuste

Le cœur de cette recherche repose sur un pipeline de filtrage multi-niveaux combinant des listes de mots-clés et un classificateur basé sur l’apprentissage automatique, capable de détecter les contenus à haut risque. Ce système a permis d’éliminer environ 8 à 9% du jeu de données d’entraînement, tout en préservant l’essence de l’information générale. Ensuite, les modèles d’IA ont été formés à partir de ces données filtrées, démontrant des performances équivalentes à celles des modèles non filtrés, et ce, sur des tâches standard.

Résistance aux tentatives de manipulation

La méthode de filtrage employée a prouvé son efficacité en rendant le modèle résistant aux tentatives de formation ultérieures, permettant aux chercheurs de lutter contre la possibilité d’acquérir des capacités dangereuses. Dans le cadre de l’étude, même après l’entraînement sur 25,000 articles relatifs aux menaces biologiques, le modèle a été plus de dix fois plus efficace que les méthodes prévalentes de protection en matière d’IA.

L’importance de l’ouverture dans la recherche collaborative

Les modèles à poids ouvert sont essentiels pour encourager la recherche collaborative et transparente. Leur disponibilité favorise la mise en place de red teaming, atténuant ainsi la concentration des marchés et accélérant le progrès scientifique. Avec l’émergence de nouveaux modèles comme Kimi-K2 et GLM-4.5, l’influence des modèles à poids ouvert n’a cessé de croître, leur permettant de rivaliser de près avec les modèles les plus performants.

Conséquences sur la gouvernance mondiale de l’IA

Cette étude arrive à un moment où la gouvernance mondiale en matière d’IA est plus cruciale que jamais. Les rapports récents de grandes entreprises du secteur ont exprimé des inquiétudes quant à la facilité avec laquelle les modèles frontières pourraient être utilisés pour créer des menaces biologiques ou chimiques. En éliminant les connaissances nuisibles dès le départ, les chercheurs montrent que la filtration des données peut être un puissant outil pour équilibrer la sécurité et l’innovation dans le développement de modèles d’IA en open-source.

Ressources supplémentaires

Pour en savoir plus sur ce sujet, des articles intéressants tels que Un système intuitif pour faciliter la vérification des réponses des modèles d’IA et Un système d’IA découvre des catégories visuelles en s’adaptant à de nouveaux contextes pourraient être utiles. L’apprentissage des modèles DIA, comme dans Apprendre aux modèles DIA à esquisser comme le ferait un artiste, ainsi que l’analyse de leurs performances sur les tests de personnalité, tels que décrit dans Cette étude sur les modèles DIA, apportent également des perspectives intéressantes.

Enfin, il est essentiel de rester vigilant concernant les comportements excessifs des chatbots DIA, un phénomène documenté dans cette étude, afin de mieux comprendre et encadrer ces technologies émergentes.

EN BREF

  • Recherche menée par l’Université d’Oxford et EleutherAI.
  • Progrès dans la sûreté des modèles linguistiques à poids ouverts.
  • Filtrage de connaissances potentiellement nuisibles durant la formation.
  • Résistance aux mises à jour malveillantes, crucial dans des domaines sensibles.
  • Approche novatrice : intégration de la sûreté dès le début du processus de formation.
  • Filtrage a permis d’atteindre des performances exceptionnelles sur des tâches standards.
  • Modèles filtrés étaient plus efficaces contre des attaques adversariales.
  • Répond aux préoccupations concernant les safeguards des modèles disponibles publiquement.