🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Синтез изображений из текста

Генерация фотореалистичных или стилизованных изображений из текстовых описаний с использованием генеративных моделей, таких как GAN или диффузионные модели. Эти модели понимают семантику текста для создания согласованных и детализированных визуальных элементов.

📖
термины

Перевод изображения в текст

Автоматическое преобразование визуального содержания изображений в описательные текстовые описания с использованием моделей зрения и языка. Эта технология лежит в основе таких приложений, как автоматическое подписывание изображений и визуальная доступность.

📖
термины

Диффузионные модели

Генеративные модели, которые учатся постепенно удалять шум из данных для генерации высококачественных образцов, особенно эффективны для синтеза изображений из текста. Эти модели используют процессы прямой и обратной диффузии для генерации.

📖
термины

Мультимодальные трансформеры

Архитектура трансформеров, адаптированная для одновременной обработки нескольких модальностей данных (текст, изображение, аудио) с помощью механизмов кросс-модального внимания. Эти модели унифицируют представление и обработку гетерогенных данных.

📖
термины

Модели зрения и языка

Модели ИИ, разработанные для понимания и генерации контента, объединяющего визуальную и лингвистическую информацию, такие как ViT, BLIP или ALIGN. Они изучают совместные представления через предварительное обучение на обширных корпусах изображение-текст.

📖
термины

Мультимодальные эмбеддинги

Векторные представления в общем пространстве, где различные модальности (текст, изображение, аудио) могут сравниваться и манипулироваться математически. Эти эмбеддинги позволяют выполнять кросс-модальные семантические операции, такие как поиск и вычисление схожести.

📖
термины

Генерация видео из текста

Генерация согласованных видео-последовательностей из текстовых описаний, моделирующая как пространственное содержание, так и временную динамику. Эти модели сочетают понимание естественного языка и покадровую генерацию видео.

📖
термины

Автоматическое подписывание изображений

Автоматическая генерация текстовых описаний, описывающих содержание изображений, сочетающая компьютерное зрение и обработку естественного языка. Современные модели используют кодировщики CNN или ViT и декодеры трансформеров.

📖
термины

Визуальное ответы на вопросы

Система, которая отвечает на текстовые вопросы о содержании изображений, требующая совместного понимания зрения и языка. VQA сочетает обнаружение объектов, пространственное рассуждение и лингвистическое понимание.

📖
термины

Мультимодальное слияние

Интеграция информации из различных модальностей для создания унифицированного и более богатого представления, чем каждая модальность по отдельности. Стратегии включают раннее слияние, позднее слияние и слияние на основе внимания.

📖
термины

Нейронный перенос стиля

Техника глубокого обучения, которая разделяет и рекомбинирует содержание и стиль изображений для создания цифровых произведений искусства. Использует сверточные нейронные сети для захвата стилистических и содержательных характеристик.

📖
термины

Синтез речи из текста

Преобразование письменного текста в естественную человеческую речь с использованием глубоких нейронных сетей, таких как Tacotron или WaveNet. Современные системы генерируют звуковые волны напрямую или через промежуточные спектрограммы.

📖
термины

Транскрипция речи в текст

Автоматическое преобразование речи в письменный текст с использованием сквозных моделей, таких как трансформеры или конформеры. Эти системы преобразуют аудиосигналы в последовательности символов или слов.

📖
термины

Аудиовизуальное обучение

Машинное обучение, одновременно сочетающее аудио и видео информацию для улучшения понимания мультимодальных сцен. Этот подход использует естественную корреляцию между звуками и визуальными событиями.

📖
термины

Мультимодальное выравнивание

Процесс обучения семантическим соответствиям между различными модальностями в общем пространстве представления. Выравнивание критически важно для задач кросс-модального перевода и поиска.

🔍

Результаты не найдены