Glosario IA
El diccionario completo de la Inteligencia Artificial
DETR (DEtection TRansformer)
Arquitectura pionera que elimina la necesidad de anclas y supresión no máxima tratando la detección de objetos como un problema de predicción de conjunto directo, utilizando un transformador bipartito para modelar las relaciones entre los objetos.
Transformador Bipartito
Variante de la arquitectura Transformer donde los mecanismos de atención se aplican entre las características de la imagen y un pequeño conjunto fijo de consultas de objetos aprendibles, permitiendo una predicción paralela de objetos.
Consultas de Objetos (Object Queries)
Vectores de embedding posicionales aprendibles que sirven como espacios para cada predicción de objeto potencial, interactuando con las características de la imagen a través del mecanismo de atención para extraer la información relevante.
Pérdida de Correspondencia Bipartita (Bipartite Matching Loss)
Función de pérdida basada en el algoritmo húngaro que encuentra una correspondencia óptima uno-a-uno entre las predicciones del modelo y las verdades terrenales, resolviendo el problema de permutación de las predicciones sin supervisión.
Codificador-Decodificador Transformer
Estructura donde el codificador procesa las características de la imagen para crear una representación rica en contexto, y el decodificador utiliza las consultas de objetos para decodificar esta representación en predicciones finales de cajas y clases.
Atención Multi-cabeza Multi-escala (MSA)
Mecanismo de atención que opera en características fusionadas de múltiples niveles del mapa de características, permitiendo al modelo capturar simultáneamente información local y global para una mejor detección de objetos de varios tamaños.
DETR-ResNet
Variante de DETR que utiliza una red neuronal convolucional ResNet como extractor de características principal, combinando el poder de las CNN para la extracción de características con el razonamiento global de los Transformers.
Mask2Former
Arquitectura unificada para la segmentación panóptica, de instancias y semántica que enmascara las regiones de interés y predice las máscaras directamente utilizando transformadores, superando los enfoques anteriores en términos de precisión y simplicidad.
Incrustaciones de Posición
Vectores añadidos a las características de la imagen para proporcionar información espacial al Transformer, esenciales para que el modelo comprenda la geometría de la escena y localice correctamente los objetos.
DETR Condicional
Mejora de DETR que acelera la convergencia condicionando las consultas de objetos al contenido de la imagen, permitiendo una mejor especialización de las consultas y predicciones más precisas.
DETR Deformable
Variante de DETR que integra módulos de atención deformables para concentrarse en un pequeño conjunto de puntos clave, mejorando considerablemente la velocidad de convergencia y el rendimiento, especialmente para objetos pequeños.
Sparse R-CNN
Enfoque de detección completamente disperso que utiliza un conjunto fijo de cajas propuestas aprendibles y una cascada de transformadores para refinar las predicciones, eliminando la necesidad de heurísticas como los anclajes o el NMS.
Consulta-a-Atención
Mecanismo donde las consultas de objetos guían la atención del modelo hacia regiones relevantes de la imagen, a diferencia de la atención global, lo que mejora la eficiencia y especialización de las predicciones.
DINO (DETR con Cajas de Anclaje de Desruido Mejoradas)
Modelo de vanguardia que combina cajas de anclaje de desruido mejoradas con una arquitectura Transformer, alcanzando un rendimiento de vanguardia en los benchmarks de detección sin necesidad de NMS.
Pérdida Focal para Transformadores
Función de pérdida diseñada para resolver el problema de la convergencia lenta de los modelos DETR centrándose en las muestras difíciles y reduciendo la contribución de las muestras fáciles bien clasificadas.
Segmentación Panóptica por Transformador
Aplicación de arquitecturas Transformer a la tarea unificada de segmentación panóptica, prediciendo simultáneamente máscaras semánticas para cosas y fondo utilizando un único modelo de extremo a extremo.
Mamba-DETR
Arquitectura de detección que reemplaza los mecanismos de atención por bloques de espacio de estado (State Space Blocks) inspirados en Mamba, ofreciendo una complejidad lineal y un rendimiento competitivo para la detección de objetos en tiempo real.