Мультимодальные трансформеры
Oscar (Object-Semantics Aligned Pre-training)
Подход к предобучению, который вводит метки обнаруженных объектов в качестве семантических якорей для выравнивания текста и изображений, значительно улучшая многомодальное понимание.
← Назад