🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

MLP-голова

Финальный модуль классификации, обычно состоящий из полносвязного слоя с активацией, за которым следует выходной слой для предсказания классов. MLP-голова обрабатывает финальное представление токена класса (Class Token) для генерации оценок классификации для каждого возможного класса.

📖
термины

Размер патча

Пространственный размер квадратов, на которые делится входное изображение, обычно 16x16 или 32x32 пикселя для стандартных архитектур ViT. Размер патча напрямую влияет на количество генерируемых токенов и гранулярность пространственной информации, сохраняемой моделью.

📖
термины

Токенизация изображений

Процесс преобразования 2D-изображения в последовательность 1D-токенов, обрабатываемых трансформерами, включающий сегментацию на патчи и линейную проекцию. Эта токенизация является ключевым этапом, позволяющим адаптировать архитектуру трансформера, изначально разработанную для текста, к области компьютерного зрения.

📖
термины

Масштабно-инвариантные признаки

Признаки, извлекаемые Vision Transformers, которые остаются устойчивыми к изменению масштаба объектов на изображениях. Эти свойства естественным образом возникают из глобальной архитектуры трансформеров благодаря их способности моделировать дальнодействующие связи между патчами.

📖
термины

Token-to-Token ViT (T2T-ViT)

Вариант Vision Transformer, использующий итеративный процесс токенизации для постепенного преобразования патчей в более информативные токены. Этот подход обеспечивает лучшее моделирование локальной структуры и постепенное снижение пространственного разрешения, тем самым повышая вычислительную эффективность.

📖
термины

Pyramid Vision Transformer (PVT)

Иерархическая архитектура трансформера, которая генерирует карты признаков на разных масштабах, аналогично пирамидам признаков в CNN. PVT особенно подходит для задач плотного прогнозирования, таких как семантическая сегментация и обнаружение объектов, требующих многомасштабных представлений.

📖
термины

Swin Transformer

Иерархическая архитектура трансформера со сдвинутыми окнами внимания, которая позволяет эффективно моделировать локальные и глобальные связи с линейной сложностью. Swin Transformer вводит многомасштабные связи и продемонстрировал исключительную производительность в широком спектре задач компьютерного зрения.

📖
термины

DeiT (Data-efficient Image Transformers)

Вариант Vision Transformer, обучаемый с использованием стратегий дистилляции знаний для достижения конкурентоспособной производительности при меньшем объеме обучающих данных. DeiT вводит дополнительный токен дистилляции, который учится на основе предсказаний учителя CNN, тем самым сокращая разрыв в производительности с подходами, основанными на массивных данных.

📖
термины

Маскированные автоэнкодеры (MAE)

Подход самоконтролируемого предварительного обучения, в котором визуальные трансформеры обучаются путем восстановления замаскированных фрагментов изображений из оставшихся видимых фрагментов. Этот простой, но эффективный метод обеспечивает передовые показатели при предварительном обучении, будучи при этом очень экономным в плане вычислительных ресурсов.

🔍

Результаты не найдены