Глоссарий ИИ
Полный словарь искусственного интеллекта
Кроссмодальное внимание
Механизм внимания, позволяющий модели устанавливать связи между элементами из разных модальностей (текст-изображение, аудио-текст) для обогащения контекстуального понимания. Этот подход вычисляет веса внимания между характеристиками каждой модальности для выявления релевантных семантических корреляций.
Кросс-доменная генерация
Способность модели ИИ создавать контент в целевой модальности на основе входных данных в одной или нескольких различных исходных модальностях. Такое преобразование позволяет, например, генерировать изображения из текстовых описаний, создавать аудио из видео или синтезировать текст из изображений.
Мультимодальные диффузионные модели
Генеративный подход, объединяющий процессы диффузии для создания согласованного контента одновременно в нескольких модальностях. Эти модели используют последовательный шум и кросс-модальные условия для генерации сложных выходов, таких как видео, синхронизированные с аудио, или изображения с подробными описаниями.
Совместная проекция
Техника отображения представлений разных модальностей в общее векторное пространство с помощью совместно обученных проекционных сетей. Этот подход облегчает прямые сравнения между модальностями и позволяет выполнять такие операции, как кросс-модальный поиск и условная генерация.
Мультимодальные контрастивные модели
Класс моделей, использующих цели контрастивного обучения для максимизации сходства между положительными парами модальностей при одновременном минимизации сходства отрицательных пар. Эти модели превосходно справляются с задачами выравнивания и поиска благодаря своей способности изучать семантически богатые представления.
Мультимодальные латентные представления
Пространства пониженной размерности, кодирующие существенную информацию нескольких модальностей в компактной и интерпретируемой форме. Эти представления захватывают кросс-модальные корреляции, отфильтровывая шум, что позволяет эффективно выполнять задачи генерации, классификации и поиска.
Мультимодальные модели кодирования-декодирования
Архитектура, состоящая из мультимодального кодера, обрабатывающего неоднородные входные данные, и декодера, генерирующего выходы в целевой модальности. Эти модели особенно эффективны для кросс-модальных задач последовательность-в-последовательность, таких как перевод изображение-текст или синтез аудио-видео.
Мультимодальный адаптер
Легкий нейронный модуль, позволяющий адаптировать предварительно обученные модели на конкретную модальность для эффективной обработки мультимодальных входов без полного переобучения. Эти компоненты облегчают трансферное обучение, сохраняя при этом возможности базовой модели.