Глоссарий ИИ
Полный словарь искусственного интеллекта
Визуально-языковая модель (VLM)
Подкласс мультимодальных моделей, специализирующихся на совместном понимании текста и изображений, способный выполнять такие задачи, как создание подписей к изображениям, визуальное мышление или генерация изображений по тексту.
Визуальная токенизация
Техника, разбивающая изображение на последовательность патчей или дискретных токенов, часто с помощью нейросети, такой как Vision Transformer (ViT), чтобы сделать его совместимым с архитектурой текстовых трансформеров.
Модель выравнивания
Модель, часто основанная на контрастивном подходе, таком как CLIP, обученная на огромных корпусах пар (изображение, текст) для проецирования обеих модальностей в общее векторное пространство, где косинусное сходство отражает их взаимную релевантность.
Мультимодальная условная генерация
Задача генерации, в которой выходные данные (например, текст, изображение) создаются на основе одного или нескольких входов разных модальностей, таких как описание изображения или создание изображения по тексту.
Мультимодальное цепное рассуждение
Способность модели использовать информацию из нескольких модальностей для построения логической последовательности мыслей и достижения вывода, например, анализ графика и текста для ответа на вопрос.
Мультимодальный перцептрон
Теоретическая концепция или примитивная архитектура, в которой входы различной природы объединяются, часто путем конкатенации или операции слияния, перед обработкой полносвязными слоями нейронов.
Мультимодальная диффузионная модель
Генеративная архитектура, использующая итеративный процесс зашумления и устранения шума для создания данных (например, изображений), обусловленных другой модальностью (например, текстовым описанием), при этом процесс устранения шума направляется информацией об условии.
Раздельное кодирование против Единое кодирование
Две архитектурные стратегии для мультимодальных моделей: раздельное кодирование обрабатывает каждую модальность отдельным кодировщиком перед слиянием, в то время как единое кодирование использует один трансформер для обработки последовательности смешанных токенов.
Мультимодальное обучение с нулевым разметкой
Способность модели выполнять задачу в одной модальности (например, классифицировать изображение) без явного обучения для нее, используя знания, перенесенные из другой модальности (например, текст меток классов).
Аудио-визуально-текстовая модель
Продвинутая форма мультимодальной модели, интегрирующая три потока данных (звук, изображение, текст) для сложных задач, таких как описание видео, где модель должна синхронизировать и интерпретировать визуальную и аудиоинформацию для создания текстового описания.
Латентная проекция
Слой нейронной сети, часто представляющий собой простое линейное преобразование, используемый для отображения векторов вложений (эмбеддингов) каждой модальности в общее латентное пространство перед их слиянием или сравнением.
Мультимодальная фундаментальная модель
Модель очень большого масштаба, предварительно обученная на массивах разнородных данных, которая служит основой для адаптации (fine-tuning) к множеству конкретных мультимодальных задач.
Модульность в мультимодальных моделях
Принцип проектирования, при котором кодировщики для каждой модальности представляют собой отдельные и взаимозаменяемые модули, что позволяет обновлять или заменять компонент (например, визуальный кодировщик) без повторного обучения всей модели.
Мультимодальный промптинг
Техника взаимодействия с моделью, при которой входные данные ('промпт') состоят из нескольких модальностей, например, изображение, сопровождаемое текстовым вопросом, для направления модели к конкретному ответу.