एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
DETR (DEtection TRansformer)
Architecture pionnière qui élimine les besoins en ancres et en suppression non maximale en traitant la détection d'objets comme un problème de prédiction d'ensemble direct, utilisant un transformateur bipartite pour modéliser les relations entre les objets.
Transformateur Bipartite
Variante de l'architecture Transformer où les mécanismes d'attention sont appliqués entre les caractéristiques de l'image et un petit ensemble fixe de requêtes d'objets apprenables, permettant une prédiction parallèle des objets.
Requêtes d'Objets (Object Queries)
Vecteurs d'embedding positionnels apprenables qui servent de slots pour chaque prédiction d'objet potentielle, interagissant avec les caractéristiques de l'image via le mécanisme d'attention pour extraire les informations pertinentes.
Perte de Correspondance Bipartite (Bipartite Matching Loss)
Fonction de perte basée sur l'algorithme hongrois qui trouve une correspondance optimale un-à-un entre les prédictions du modèle et les vérités terrain, résolvant le problème de permutation des prédictions sans supervision.
Encodeur-Décodeur Transformer
Structure où l'encodeur traite les caractéristiques de l'image pour créer une représentation riche en contexte, et le décodeur utilise les requêtes d'objets pour décoder cette représentation en prédictions finales de boîtes et de classes.
Attention Multi-tête Multi-échelle (MSA)
Mécanisme d'attention qui opère sur des caractéristiques fusionnées de plusieurs niveaux de la carte de caractéristiques, permettant au modèle de capturer simultanément des informations locales et globales pour une meilleure détection d'objets de tailles variées.
DETR-ResNet
Variante de DETR qui utilise un réseau neuronal convolutif ResNet comme extracteur de caractéristiques principal, combinant la puissance des CNN pour l'extraction de caractéristiques avec le raisonnement global des Transformers.
Mask2Former
Architecture unifiée pour la segmentation de panoplies, de instances et sémantique qui masque les régions d'intérêt et prédit les masques directement en utilisant des transformateurs, surpassant les approches précédentes en termes de précision et de simplicité.
Embeddings de Position
Vecteurs ajoutés aux caractéristiques de l'image pour fournir des informations spatiales au Transformer, essentiels pour que le modèle comprenne la géométrie de la scène et localise correctement les objets.
Conditional DETR
Amélioration de DETR qui accélère la convergence en conditionnant les requêtes d'objets sur le contenu de l'image, permettant une meilleure spécialisation des requêtes et des prédictions plus précises.
Deformable DETR
Variante de DETR qui intègre des modules d'attention déformables pour se concentrer sur un petit ensemble de points clés, améliorant considérablement la vitesse de convergence et les performances, en particulier pour les petits objets.
Sparse R-CNN
Approche de détection entièrement sparse qui utilise un ensemble fixe de boîtes proposées apprenables et un cascade de transformateurs pour affiner les prédictions, éliminant le besoin de heuristiques comme les ancres ou le NMS.
Query-to-Attention
Mécanisme où les requêtes d'objets guident l'attention du modèle vers les régions pertinentes de l'image, contrairement à l'attention globale, ce qui améliore l'efficacité et la spécialisation des prédictions.
DINO (DETR with Improved deNoising Anchor Boxes)
Modèle de pointe qui combine des boîtes d'ancrage de débruitage améliorées avec une architecture Transformer, atteignant des performances de pointe sur les benchmarks de détection sans nécessiter de NMS.
Perte Focale pour les Transformateurs
Fonction de perte conçue pour résoudre le problème de la convergence lente des modèles DETR en se concentrant sur les échantillons difficiles et en réduisant la contribution des échantillons faciles bien classés.
Segmentation Panoptique par Transformateur
Application des architectures Transformer à la tâche unifiée de segmentation panoptique, prédisant simultanément des masques sémantiques pour les choses et le fond à l'aide d'un seul modèle de bout en bout.
Mamba-DETR
Architecture de détection qui remplace les mécanismes d'attention par des blocs d'état d'espace (State Space Blocks) inspirés de Mamba, offrant une complexité linéaire et des performances compétitives pour la détection d'objets en temps réel.