Dans le domaine de l’intelligence artificielle, les modèles de langage large (LLMs) font l’objet de nombreuses recherches pour améliorer leur capacité à apprendre et s’adapter aux informations nouvelles. Récemment, des chercheurs du MIT ont développé une approche innovante pour transformer les LLMs en véritables élèves modèles capables d’assimiler des connaissances de façon durable. Cette méthode repose sur la génération de données synthétiques et l’application de processus d’apprentissage auto-adaptatif, permettant ainsi à ces systèmes d’intelligence artificielle d’évoluer et d’améliorer leur performance dans des environnements en constante mutation.
Les modèles de langage de grande taille (LLMs) auto-adaptatifs émergent comme des systèmes d’IA capables de transformer l’apprentissage en une expérience dynamique, semblable à celle des étudiants. Contrairement aux modèles traditionnels qui ne parviennent pas à enrayer leurs connaissances en constante évolution, ces nouvelles approches exploitent des mécanismes d’apprentissage autonomes pour intégrer des informations de manière persistante. Cet article explore comment ces LLMs, à l’instar d’élèves studieux, révisent leur savoir et améliorent leur performance sur des tâches spécifiques.
Le fonctionnement des LLMs auto-adaptatifs
Les LLMs auto-adaptatifs reposent sur un ensemble de millions de paramètres, connus sous le nom de poids, qui représentent leur connaissance et leur capacité à traiter les entrées pour faire des prédictions. Lors de leur phase d’entraînement, ces modèles ajustent ces poids pour assimiler les nouvelles données présentes dans leurs corpus d’apprentissage. Cependant, une fois déployés, leurs poids deviennent statiques, ce qui empêche une mise à jour permanente des informations. C’est ici qu’intervient la nouvelle approche développée par les chercheurs du MIT, qui permet à ces modèles de générer leur propre contenu d’étude à partir d’entrées fournies par les utilisateurs.
Apprentissage contextuel et méthodes adaptatives
Bien que les modèles de langage soient très performants en apprentissage contextuel, où un modèle acquis des compétences en observant quelques exemples, ils perdent cette connaissance avant la prochaine conversation. Les chercheurs de MIT ont cherché à tirer parti de cette capacité pour enseigner aux LLMs comment mettre à jour durablement leurs poids lorsqu’ils rencontrent de nouvelles connaissances. Grâce à un cadre appelé SEAL (Self-Adapting LLMs), les modèles peuvent générer des données synthétiques et déterminer la meilleure façon de s’adapter pour apprendre de celles-ci. Chaque donnée synthétique sert de auto-édition que le modèle peut appliquer, ce qui ressemble à la démarche de réécriture des étudiants lors de la préparation de leurs fiches de révision.
Un processus de trial-and-error
Les LLMs auto-adaptatifs effectuent plusieurs auto-édites et s’auto-évaluent pour identifier laquelle d’entre elles entraîne le plus grand bénéfice en termes de performance. Cette approche par essais et erreurs, souvent désignée sous le nom d’apprentissage par renforcement, permet au modèle de maximiser ses capacités d’apprentissage. Chaque changement qui améliore son efficacité sur des tâches spécifiques, comme répondre à des questions, est retenu, tandis que les autres sont relégués.
Un modèle d’apprentissage personnalisé
Ce cadre d’apprentissage permet également au modèle de choisir comment il souhaite assimiler les nouvelles informations. Par exemple, il peut sélectionner les données synthétiques qu’il souhaite utiliser, le rythme de son apprentissage, ainsi que le nombre d’itérations pour son entraînement. En accordant à un LLM le pouvoir de configurer son propre processus d’apprentissage, on lui permet de découvrir la meilleure manière de traiter toutes les nouvelles informations qui lui sont soumises, tout comme un élève qui adapte son style d’apprentissage à ses besoins.
Performance améliorée et défis à surmonter
Les résultats des recherches ont démontré que SEAL surpasse plusieurs méthodes de référence dans divers domaines, qu’il s’agisse d’apprendre une nouvelle compétence à partir de quelques exemples ou d’incorporer des connaissances d’un passage de texte. Par exemple, dans les tâches de réponse à des questions, le modèle a amélioré son taux de précision de près de 15 %. De plus, dans certaines tâches d’apprentissage de compétences, il a réussi à augmenter son taux de succès de plus de 50 %. Cependant, un défi persistant reste le phénomène de l’oubli catastrophique, où la performance du modèle sur des tâches antérieures diminue à mesure qu’il s’adapte aux nouvelles données.
Perspectives futures
Les chercheurs cherchent à atténuer cet oubli catastrophique dans leurs travaux futurs tandis qu’ils envisagent d’appliquer cette technique dans des contextes multi-agents où plusieurs LLMs peuvent s’entraider pour évoluer. L’un des principaux obstacles auxquels sont confrontés les LLMs qui aspirent à réaliser des recherches scientifiques significatives est leur incapacité à se mettre à jour en réponse aux nouvelles informations. Bien que les modèles auto-adaptatifs entièrement déployés soient encore loin d’être une réalité, l’espoir demeure qu’une telle capacité d’apprentissage puisse un jour contribuer à faire avancer la science.
Pour en savoir plus sur le sujet des modèles de langage auto-adaptatifs qui ajustent dynamiquement leurs poids pour apprendre de nouvelles tâches, consultez cet article ici.
EN BREF
|