Retour aux recherches SmolRGPT : Raisonnement spatial efficace pour les environnements d'entrepôt avec 600M de paramètres
18 septembre 2025

SmolRGPT : Raisonnement spatial efficace pour les environnements d'entrepôt avec 600M de paramètres

Abdarahmane Traore, Éric Hervet, Andy CouturierICCVW 2025
Abstract

Les avancées récentes dans les modèles vision-langage (VLM) ont permis un raisonnement multimodal puissant, mais les approches de pointe reposent généralement sur des modèles extrêmement grands avec des exigences computationnelles et mémorielles prohibitives. Cela rend leur déploiement difficile dans des environnements à ressources limitées tels que les entrepôts, la robotique et les applications industrielles, où l'efficacité et une compréhension spatiale robuste sont critiques. Dans ce travail, nous présentons SmolRGPT, une architecture vision-langage compacte qui intègre explicitement le raisonnement spatial au niveau des régions en combinant des indices RGB et de profondeur. SmolRGPT utilise un curriculum en trois étapes qui aligne progressivement les caractéristiques visuelles et linguistiques, permet la compréhension des relations spatiales et s'adapte aux jeux de données spécifiques à la tâche. Nous démontrons qu'avec seulement 600M de paramètres, SmolRGPT atteint des résultats compétitifs sur des benchmarks exigeants de raisonnement spatial en entrepôt, égalant ou surpassant les performances d'alternatives beaucoup plus grandes. Ces résultats soulignent le potentiel d'une intelligence multimodale efficace et déployable dans des contextes réels sans sacrifier les capacités fondamentales de raisonnement spatial.