Глоссарий ИИ
Полный словарь искусственного интеллекта
Слияние токенов
Техника конкатенации или слияния токенов из разных модальностей перед их обработкой трансформерными слоями. Позволяет раннюю интеграцию мультимодальной информации для лучшего совместного представления.
ALIGN
Контрастная модель изображение-текст, обученная на миллиарде автоматически отфильтрованных зашумленных пар. Демонстрирует, что объем данных может компенсировать шум при крупномасштабном мультимодальном обучении.
Flamingo
Модель зрения и языка, которая адаптирует предварительно обученные трансформеры с модулями визуально-лингвистического внимания. Позволяет обучение с малым количеством примеров на сложных задачах мультимодального понимания без полного переобучения.
Кросс-модальное представление
Общее векторное пространство, где эмбеддинги разных модальностей семантически выровнены для обеспечения межмодальных взаимодействий. Облегчает передачу знаний и унифицированное понимание между текстами, изображениями, аудио и видео.
MViT (Мультимасштабный Vision Transformer)
Видео-трансформерная архитектура, объединяющая признаки на нескольких временных и пространственных масштабах. Использует пирамидальное внимание для эффективного захвата дальнодействующих отношений в видео-последовательностях.
Многоголовое кросс-внимание
Расширение механизма многоголового внимания, где каждая голова изучает различные кросс-модальные соответствия между модальностями. Позволяет более богатый и разнообразный захват межмодальных отношений в мультимодальных трансформерных архитектурах.