CASWiT: une intelligence artificielle de référence pour la cartographie de la Suisse
Description
|
CASWiT (Context-Aware Stage-Wise Transformer) est une architecture de deep learning dédiée à la segmentation sémantique d’images à ultra-haute résolution (UHR), notamment en télédétection et cartographie aérienne. Son objectif est de concilier deux besoins souvent contradictoires : capturer des détails fins à haute résolution tout en intégrant un contexte global à grande échelle. Pour cela, CASWiT repose sur une architecture à double branche basée sur des Transformers de type Swin. Une branche haute résolution (HR) traite des patches détaillés afin de préserver la précision spatiale, tandis qu’une branche basse résolution (LR) encode un contexte global à partir d’images sous-échantillonnées. Les deux flux sont fusionnés de manière progressive grâce à des mécanismes d’attention croisée appliqués à chaque niveau de l’encodeur, permettant d’enrichir les représentations locales avec des informations contextuelles pertinentes. Au-delà de l’architecture, CASWiT introduit également une stratégie de pré-entraînement auto-supervisé inspirée de SimMIM, visant à améliorer la qualité des représentations apprises sur des images de très grande taille. Cette méthode a été utilisée pour pré-entraîner l’architecture sur la Suisse entière (SWISSIMAGE). Le modèle a été évalué sur plusieurs jeux de données à grande échelle, tels que FLAIR-HUB et URUR (aériens), ISIC et CRAG (médicaux), où il atteint des performances à l’état de l’art tout en restant compétitif en termes de mémoire. CASWiT constitue une solution robuste et généralisable pour la segmentation d’images UHR, applicable à divers domaines allant de la cartographie géospatiale à l’imagerie médicale. |