Vision Transformers (ViT)
Предварительное обучение на крупномасштабных наборах данных
Начальная фаза обучения ViT на массивных корпусах данных, таких как ImageNet-21k или JFT-300M, необходимая для преодоления слабого индуктивного смещения и достижения хорошей производительности.
← Назад