Transformadores para detección

📖

términos

DETR (DEtection TRansformer)

Arquitectura pionera que elimina la necesidad de anclas y supresión no máxima tratando la detección de objetos como un problema de predicción de conjunto directo, utilizando un transformador bipartito para modelar las relaciones entre los objetos.

📖

términos

Transformador Bipartito

Variante de la arquitectura Transformer donde los mecanismos de atención se aplican entre las características de la imagen y un pequeño conjunto fijo de consultas de objetos aprendibles, permitiendo una predicción paralela de objetos.

📖

términos

Consultas de Objetos (Object Queries)

Vectores de embedding posicionales aprendibles que sirven como espacios para cada predicción de objeto potencial, interactuando con las características de la imagen a través del mecanismo de atención para extraer la información relevante.

📖

términos

Pérdida de Correspondencia Bipartita (Bipartite Matching Loss)

Función de pérdida basada en el algoritmo húngaro que encuentra una correspondencia óptima uno-a-uno entre las predicciones del modelo y las verdades terrenales, resolviendo el problema de permutación de las predicciones sin supervisión.

📖

términos

Codificador-Decodificador Transformer

Estructura donde el codificador procesa las características de la imagen para crear una representación rica en contexto, y el decodificador utiliza las consultas de objetos para decodificar esta representación en predicciones finales de cajas y clases.

📖

términos

Atención Multi-cabeza Multi-escala (MSA)

Mecanismo de atención que opera en características fusionadas de múltiples niveles del mapa de características, permitiendo al modelo capturar simultáneamente información local y global para una mejor detección de objetos de varios tamaños.

📖

términos

DETR-ResNet

Variante de DETR que utiliza una red neuronal convolucional ResNet como extractor de características principal, combinando el poder de las CNN para la extracción de características con el razonamiento global de los Transformers.

📖

términos

Mask2Former

Arquitectura unificada para la segmentación panóptica, de instancias y semántica que enmascara las regiones de interés y predice las máscaras directamente utilizando transformadores, superando los enfoques anteriores en términos de precisión y simplicidad.

📖

términos

Incrustaciones de Posición

Vectores añadidos a las características de la imagen para proporcionar información espacial al Transformer, esenciales para que el modelo comprenda la geometría de la escena y localice correctamente los objetos.

📖

términos

DETR Condicional

Mejora de DETR que acelera la convergencia condicionando las consultas de objetos al contenido de la imagen, permitiendo una mejor especialización de las consultas y predicciones más precisas.

📖

términos

DETR Deformable

Variante de DETR que integra módulos de atención deformables para concentrarse en un pequeño conjunto de puntos clave, mejorando considerablemente la velocidad de convergencia y el rendimiento, especialmente para objetos pequeños.

📖

términos

Sparse R-CNN

Enfoque de detección completamente disperso que utiliza un conjunto fijo de cajas propuestas aprendibles y una cascada de transformadores para refinar las predicciones, eliminando la necesidad de heurísticas como los anclajes o el NMS.

📖

términos

Consulta-a-Atención

Mecanismo donde las consultas de objetos guían la atención del modelo hacia regiones relevantes de la imagen, a diferencia de la atención global, lo que mejora la eficiencia y especialización de las predicciones.

📖

términos

DINO (DETR con Cajas de Anclaje de Desruido Mejoradas)

Modelo de vanguardia que combina cajas de anclaje de desruido mejoradas con una arquitectura Transformer, alcanzando un rendimiento de vanguardia en los benchmarks de detección sin necesidad de NMS.

📖

términos

Pérdida Focal para Transformadores

Función de pérdida diseñada para resolver el problema de la convergencia lenta de los modelos DETR centrándose en las muestras difíciles y reduciendo la contribución de las muestras fáciles bien clasificadas.

📖

términos

Segmentación Panóptica por Transformador

Aplicación de arquitecturas Transformer a la tarea unificada de segmentación panóptica, prediciendo simultáneamente máscaras semánticas para cosas y fondo utilizando un único modelo de extremo a extremo.

📖

términos

Mamba-DETR

Arquitectura de detección que reemplaza los mecanismos de atención por bloques de espacio de estado (State Space Blocks) inspirados en Mamba, ofreciendo una complejidad lineal y un rendimiento competitivo para la detección de objetos en tiempo real.

Glosario IA

DETR (DEtection TRansformer)

Transformador Bipartito

Consultas de Objetos (Object Queries)

Pérdida de Correspondencia Bipartita (Bipartite Matching Loss)

Codificador-Decodificador Transformer

Atención Multi-cabeza Multi-escala (MSA)

DETR-ResNet

Mask2Former

Incrustaciones de Posición

DETR Condicional

DETR Deformable

Sparse R-CNN

Consulta-a-Atención

DINO (DETR con Cajas de Anclaje de Desruido Mejoradas)

Pérdida Focal para Transformadores

Segmentación Panóptica por Transformador

Mamba-DETR

No se encontraron resultados