Глоссарий ИИ
Полный словарь искусственного интеллекта
Синтез изображений из текста
Генерация фотореалистичных или стилизованных изображений из текстовых описаний с использованием генеративных моделей, таких как GAN или диффузионные модели. Эти модели понимают семантику текста для создания согласованных и детализированных визуальных элементов.
Перевод изображения в текст
Автоматическое преобразование визуального содержания изображений в описательные текстовые описания с использованием моделей зрения и языка. Эта технология лежит в основе таких приложений, как автоматическое подписывание изображений и визуальная доступность.
Диффузионные модели
Генеративные модели, которые учатся постепенно удалять шум из данных для генерации высококачественных образцов, особенно эффективны для синтеза изображений из текста. Эти модели используют процессы прямой и обратной диффузии для генерации.
Мультимодальные трансформеры
Архитектура трансформеров, адаптированная для одновременной обработки нескольких модальностей данных (текст, изображение, аудио) с помощью механизмов кросс-модального внимания. Эти модели унифицируют представление и обработку гетерогенных данных.
Модели зрения и языка
Модели ИИ, разработанные для понимания и генерации контента, объединяющего визуальную и лингвистическую информацию, такие как ViT, BLIP или ALIGN. Они изучают совместные представления через предварительное обучение на обширных корпусах изображение-текст.
Мультимодальные эмбеддинги
Векторные представления в общем пространстве, где различные модальности (текст, изображение, аудио) могут сравниваться и манипулироваться математически. Эти эмбеддинги позволяют выполнять кросс-модальные семантические операции, такие как поиск и вычисление схожести.
Генерация видео из текста
Генерация согласованных видео-последовательностей из текстовых описаний, моделирующая как пространственное содержание, так и временную динамику. Эти модели сочетают понимание естественного языка и покадровую генерацию видео.
Автоматическое подписывание изображений
Автоматическая генерация текстовых описаний, описывающих содержание изображений, сочетающая компьютерное зрение и обработку естественного языка. Современные модели используют кодировщики CNN или ViT и декодеры трансформеров.
Визуальное ответы на вопросы
Система, которая отвечает на текстовые вопросы о содержании изображений, требующая совместного понимания зрения и языка. VQA сочетает обнаружение объектов, пространственное рассуждение и лингвистическое понимание.
Мультимодальное слияние
Интеграция информации из различных модальностей для создания унифицированного и более богатого представления, чем каждая модальность по отдельности. Стратегии включают раннее слияние, позднее слияние и слияние на основе внимания.
Нейронный перенос стиля
Техника глубокого обучения, которая разделяет и рекомбинирует содержание и стиль изображений для создания цифровых произведений искусства. Использует сверточные нейронные сети для захвата стилистических и содержательных характеристик.
Синтез речи из текста
Преобразование письменного текста в естественную человеческую речь с использованием глубоких нейронных сетей, таких как Tacotron или WaveNet. Современные системы генерируют звуковые волны напрямую или через промежуточные спектрограммы.
Транскрипция речи в текст
Автоматическое преобразование речи в письменный текст с использованием сквозных моделей, таких как трансформеры или конформеры. Эти системы преобразуют аудиосигналы в последовательности символов или слов.
Аудиовизуальное обучение
Машинное обучение, одновременно сочетающее аудио и видео информацию для улучшения понимания мультимодальных сцен. Этот подход использует естественную корреляцию между звуками и визуальными событиями.
Мультимодальное выравнивание
Процесс обучения семантическим соответствиям между различными модальностями в общем пространстве представления. Выравнивание критически важно для задач кросс-модального перевода и поиска.