🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Слияние токенов

Техника конкатенации или слияния токенов из разных модальностей перед их обработкой трансформерными слоями. Позволяет раннюю интеграцию мультимодальной информации для лучшего совместного представления.

📖
термины

ALIGN

Контрастная модель изображение-текст, обученная на миллиарде автоматически отфильтрованных зашумленных пар. Демонстрирует, что объем данных может компенсировать шум при крупномасштабном мультимодальном обучении.

📖
термины

Flamingo

Модель зрения и языка, которая адаптирует предварительно обученные трансформеры с модулями визуально-лингвистического внимания. Позволяет обучение с малым количеством примеров на сложных задачах мультимодального понимания без полного переобучения.

📖
термины

Кросс-модальное представление

Общее векторное пространство, где эмбеддинги разных модальностей семантически выровнены для обеспечения межмодальных взаимодействий. Облегчает передачу знаний и унифицированное понимание между текстами, изображениями, аудио и видео.

📖
термины

MViT (Мультимасштабный Vision Transformer)

Видео-трансформерная архитектура, объединяющая признаки на нескольких временных и пространственных масштабах. Использует пирамидальное внимание для эффективного захвата дальнодействующих отношений в видео-последовательностях.

📖
термины

Многоголовое кросс-внимание

Расширение механизма многоголового внимания, где каждая голова изучает различные кросс-модальные соответствия между модальностями. Позволяет более богатый и разнообразный захват межмодальных отношений в мультимодальных трансформерных архитектурах.

🔍

Результаты не найдены