Des chercheurs ont récemment mis au point une nouvelle méthode qui optimise l’apprentissage des compétences pour les grands modèles de langage. Cette technique, connue sous le nom de WeGeFT, représente une avancée significative dans le processus de perfectionnement de ces modèles, permettant d’améliorer leurs performances sans nécessiter une augmentation des ressources informatiques. Grâce à cette approche, il devient possible de mieux cibler des tâches spécifiques, allant du raisonnement logique à la génération de code, tout en tenant compte des paramètres que les modèles connaissent déjà.
Des chercheurs ont récemment développé une technique innovante qui améliore considérablement la performance des grands modèles de langage sans nécessiter une augmentation de la puissance de calcul pour les adapter. Ce nouvel avancement, connu sous le nom de WeGeFT, se distingue par sa capacité à affiner efficacement ces modèles dans des tâches variées telles que le raisonnement de bon sens, le raisonnement arithmétique, le suivi d’instructions, la génération de code et la reconnaissance visuelle.
Le défi de l’affinage des grands modèles de langage
Les grands modèles de langage sont des systèmes d’intelligence artificielle préentraînés sur d’énormes ensembles de données. Bien que leur préentraînement leur confère une capacité de prédiction de mots consécutifs face aux requêtes des utilisateurs, cette approche générique laisse une marge d’amélioration lorsque les demandes sont spécifiques, telles que répondre à des questions mathématiques ou écrites en code.
La nécessité de l’affinage
Pour améliorer les performances des modèles dans le cadre de tâches plus spécifiques, il est essentiel de procéder à un affinage du modèle. Comme l’explique Tianfu Wu, chercheur principal et professeur associé en ingénierie informatique à la North Carolina State University, l’affinage traditionnel implique souvent de réentraîner l’intégralité du modèle, ce qui n’est pas toujours faisable en raison de leur taille immense. L’objectif est donc de déterminer les modifications minimales nécessaires pour optimiser les performances.
Une avancée avec WeGeFT
La percée majeure dans l’affinage des modèles a été symbolisée par la méthode LoRA, lancée en 2022, qui utilise des outils mathématiques pour identifier un petit sous-ensemble de paramètres clés susceptibles d’améliorer les performances. Les innovations précédentes en matière d’affinage, bien qu’intéressantes, ont souvent exigé plus de puissance de calcul ou n’ont pas offert d’amélioration notable par rapport à LoRA.
WeGeFT, une méthode qui s’inscrit comme une amélioration de LoRA, intègre des outils mathématiques supplémentaires permettant de placer un poids plus significatif sur les paramètres réellement nouveaux, par rapport à ceux déjà connus par le modèle. Ce faisant, WeGeFT améliore la performance des modèles sans exigences nouvelles significatives en matière de calcul.
Résultats des tests de preuve de concept
Les tests de preuve de concept menés par les chercheurs ont révélé que WeGeFT réussit aussi bien, voire mieux que LoRA et ses variantes sur divers ensembles de tâches, notamment le raisonnement de bon sens, la résolution de problèmes mathématiques, le suivi d’instructions et la génération de code. Ces résultats montrent une avancée significative dans l’apprentissage et l’adaptation des grands modèles de langage.
Perspectives futures et applications
Les chercheurs envisagent d’explorer comment WeGeFT pourrait également aider à identifier les éléments d’un modèle responsables de résultats indésirables, dans le but d’améliorer l’alignement de l’intelligence artificielle et la sécurité des sorties. Un objectif ambitieux, dont les travaux connexes devraient être publiés dans un avenir proche.
Pour approfondir votre compréhension des avancées en matière de modèles de langage et d’apprentissage automatique, vous pouvez consulter des ressources telles que Cet article sur les réseaux de neurones ou cet article sur l’apprentissage par renforcement.
Il est donc évident que des innovations comme WeGeFT représentent des avancées cruciales pour l’efficacité des grands modèles de langage, ouvrant la voie à des applications encore plus sophistiquées dans le domaine de l’intelligence artificielle.
EN BREF
|