Vision Transformers (ViT)
Pre-training on Large-Scale Datasets
Phase d'entraînement initial d'un ViT sur des corpus massifs comme ImageNet-21k ou JFT-300M, essentielle pour surmonter son faible biais inductif et atteindre de bonnes performances.
← Indietro