Des chercheurs académiques découvrent une méthode pour entraîner un modèle d’IA de raisonnement pour moins de 50 $

découvrez comment des chercheurs académiques ont mis au point une méthode innovante pour entraîner un modèle d'intelligence artificielle axé sur le raisonnement, le tout pour moins de 50 $. une avancée qui pourrait révolutionner l'accessibilité de l'ia.

Un groupe de chercheurs académiques des universités de Stanford et de Washington a réalisé une avancée significative en matière d’intelligence artificielle. Ils ont mis au point une méthode permettant d’entraîner un modèle d’IA de raisonnement pour moins de 50 dollars. Cette découverte remet en question les coûts habituellement élevés associés au développement de modèles d’IA complexes, souvent pris en charge par de grandes entreprises technologiques. L’étude promet de rendre l’entraînement de l’IA plus accessible, notamment en utilisant des techniques innovantes et des ressources ouvertes.

Une équipe de chercheurs provenant de l’Université de Stanford et de l’Université de Washington vient de révéler une approche innovante permettant de former un modèle d’IA à des coûts incroyablement réduits. En comparaison aux dépenses engagées par des géants technologiques tels que Google et Microsoft, qui investissent massivement dans le développement de chatbots avancés, cette recherche propose d’entraîner des modèles d’IA pour moins de 50 $. Les scientifiques ont partagé leurs découvertes dans un article sur la plateforme de pré-publication arXiv.

Un défi économique et technologique dans le domaine de l’IA

Les grandes entreprises, telles que Google et Microsoft, cherchent à dominer le marché des chatbots et des modèles d’intelligence artificielle. Pour atteindre leurs objectifs, elles déploient des infrastructures coûteuses et énergivores, notamment d’énormes fermes de serveurs. Cependant, alors que ces compagnies investissent des millions de dollars, une nouvelle initiative académique illustre qu’il est possible d’atteindre des performances similaires avec un budget extrêmement limité.

Une approche innovante : la distillation de modèle

Dans cette étude, les chercheurs ont démontré que l’entraînement d’un modèle de langage (LLM) pouvait être réalisé pour moins de 50 $. Toutefois, cette économie s’accompagne d’une méthode particulière : l’équipe a eu recours à un processus de distillation pour extraire les capacités d’un autre modèle d’IA. En d’autres termes, ils ont su tirer parti des progrès réalisés par des modèles déjà existants pour optimiser leurs résultats.

Les étapes de l’entraînement d’un modèle d’IA économique

Pour réaliser leur modèle, les chercheurs ont commencé par utiliser un modèle d’IA libre, élaboré par le géant technologique chinois Alibaba. Après avoir modifié ce modèle, ils l’ont désigné sous le nom de s1. L’étape préliminaire a consisté à créer un ensemble de 1 000 paires de questions et réponses, soigneusement sélectionnées pour offrir un bon point de départ à leur système d’apprentissage.

De plus, les chercheurs ont enrichi ce modèle avec le processus de raisonnement de Gemini 2.0, un modèle expérimental de Google, accessible au public. Grâce à 16 GPU Nvidia H100, ils ont pu entraîner le modèle en seulement 26 minutes, une performance remarquable.

Une méthode de réflexion : le « monologue intérieur »

Les chercheurs ont également introduit un mécanisme appelé « pensée », qui s’exécute avant que le modèle ne fournisse une réponse. Ce « monologue intérieur » permet au système d’IA de vérifier ses conclusions avant de les formuler, ce qui conduit à une amélioration substantielle des résultats en matière de raisonnement.

Répercussions sur le marché de l’IA

L’annonce de cette recherche a provoqué une onde de choc dans le secteur technologique, particulièrement après que DeepSeek, une entreprise chinoise, a également révélé un modèle avec des capacités similaires à celles des produits occidentaux mais à des coûts réduits. Cela a eu pour effet de faire chuter les cours en bourse de plusieurs entreprises fair-play en matière d’IA.

Perspectives d’avenir pour les modèles d’IA à faible coût

Cette avancée ouvre des portes prometteuses pour le développement de modèles d’IA accessibles, susceptibles de transformer les dynamiques du marché. La capacité d’entraîner des systèmes d’IA de qualité à faible coût pourrait faciliter une adoption plus large de ces technologies, tant dans des applications commerciales que dans des initiatives de recherche. En somme, cela pourrait également mener à une diversification des acteurs dans le domaine des systèmes d’IA, où de nouveaux entrants pourraient rivaliser avec les géants de l’industrie.

Plus d’informations : Niklas Muennighoff et al, s1: Simple test-time scaling, arXiv (2025). DOI: 10.48550/arxiv.2501.19393
Modèle : github.com/simplescaling/s1
Journal : arXiv

EN BREF

  • Recherche académique de l’université de Stanford et de l’université de Washington.
  • Formation d’un modèle d’IA de raisonnement pour moins de 50 $.
  • Technique de distillation utilisée pour extraire des capacités d’un autre modèle d’IA.
  • Utilisation d’un modèle IA de Alibaba comme point de départ.
  • Entraînement effectué en 26 minutes avec 16 GPU Nvidia H100.
  • Ajout d’une étape de réflexion avant la réponse du modèle.
  • Résultats promis équivalents à ceux d’autres produits d’IA connus.