Transformadores de Visión (ViT)
Transformer Encoder
Bloque fundamental compuesto por capas de self-attention y redes feed-forward alternando con normalización y conexiones residuales.
← VolverBloque fundamental compuesto por capas de self-attention y redes feed-forward alternando con normalización y conexiones residuales.
← Volver