Глоссарий ИИ

Полный словарь искусственного интеллекта

235

категории

2 988

подкатегории

33 628

термины

📖

термины

Слияние токенов

Техника конкатенации или слияния токенов из разных модальностей перед их обработкой трансформерными слоями. Позволяет раннюю интеграцию мультимодальной информации для лучшего совместного представления.

📖

термины

ALIGN

Контрастная модель изображение-текст, обученная на миллиарде автоматически отфильтрованных зашумленных пар. Демонстрирует, что объем данных может компенсировать шум при крупномасштабном мультимодальном обучении.

📖

термины

Flamingo

Модель зрения и языка, которая адаптирует предварительно обученные трансформеры с модулями визуально-лингвистического внимания. Позволяет обучение с малым количеством примеров на сложных задачах мультимодального понимания без полного переобучения.

📖

термины

Кросс-модальное представление

Общее векторное пространство, где эмбеддинги разных модальностей семантически выровнены для обеспечения межмодальных взаимодействий. Облегчает передачу знаний и унифицированное понимание между текстами, изображениями, аудио и видео.

📖

термины

MViT (Мультимасштабный Vision Transformer)

Видео-трансформерная архитектура, объединяющая признаки на нескольких временных и пространственных масштабах. Использует пирамидальное внимание для эффективного захвата дальнодействующих отношений в видео-последовательностях.

📖

термины

Многоголовое кросс-внимание

Расширение механизма многоголового внимания, где каждая голова изучает различные кросс-модальные соответствия между модальностями. Позволяет более богатый и разнообразный захват межмодальных отношений в мультимодальных трансформерных архитектурах.

🔍

Глоссарий ИИ

Слияние токенов

ALIGN

Flamingo

Кросс-модальное представление

MViT (Мультимасштабный Vision Transformer)

Многоголовое кросс-внимание

Результаты не найдены