🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Vision Transformer (ViT)

Arquitectura neuronal que aplica los mecanismos Transformer al procesamiento de imágenes dividiendo las imágenes en secuencias de parches para un procesamiento secuencial.

📖
términos

Patch Embedding

Proceso de conversión de los parches de imágenes en vectores de embeddings de dimensión fija mediante proyección lineal para alimentar el Transformer.

📖
términos

Class Token

Token especial añadido a la secuencia de embeddings cuya representación final después de pasar por el Transformer se utiliza para la clasificación de la imagen.

📖
términos

Multi-Head Self-Attention

Mecanismo que permite al modelo calcular simultáneamente múltiples representaciones de atención para capturar diferentes relaciones entre los parches de la imagen.

📖
términos

Transformer Encoder

Bloque fundamental compuesto por capas de self-attention y redes feed-forward alternando con normalización y conexiones residuales.

📖
términos

Image Patch Tokenization

Proceso de división de una imagen en parches no superpuestos de tamaño fijo, típicamente de 16x16 píxeles, convertidos posteriormente en tokens secuenciales.

📖
términos

Attention Map Visualization

Técnica de interpretabilidad que visualiza los pesos de atención entre parches para comprender las regiones de la imagen en las que el modelo se concentra.

📖
términos

Pre-training on Large Datasets

Fase de entrenamiento inicial en millones de imágenes como ImageNet-21k para aprender representaciones visuales generales antes del fine-tuning.

📖
términos

Hiperparámetro de Tamaño de Parche

Parámetro crucial que define la dimensión de los parches de imágenes influyendo directamente en la complejidad computacional y el rendimiento del modelo.

📖
términos

Reconstrucción de Token a Parche

Proceso inverso en tareas generativas donde los tokens se reconvierten en parches de imagen para reconstruir la imagen original.

📖
términos

Transformador de Visión Jerárquico

Variante de ViT que utiliza una estructura piramidal con tamaños de parches variables para capturar características multiescala.

📖
términos

Pre-entrenamiento Auto-supervisado de ViT

Métodos de entrenamiento no supervisado como DINO o MAE que aprovechan la estructura Transformer para aprender sin anotaciones.

📖
términos

Atención Cruzada en ViT Multimodal

Mecanismo que extiende ViT para procesar conjuntamente imágenes y texto utilizando la atención entre modalidades diferentes.

📖
términos

Complejidad Computacional O(n²)

Complejidad cuadrática del auto-atención con respecto al número de parches que constituye la limitación principal de los Vision Transformers.

🔍

No se encontraron resultados