Słownik AI
Kompletny słownik sztucznej inteligencji
Vision-Language Model
Classe de modèles d'IA spécialisés dans la compréhension conjointe du contenu visuel et textuel, capables de décrire des images ou de générer des images à partir de textes.
GPT-4 Multimodal
Version étendue de GPT-4 intégrant des capacités de traitement visuel, permettant au modèle d'analyser des images et de répondre à des questions combinées texte-image.
Visual Question Answering
Système d'IA capable de comprendre des questions textuelles relatives à une image spécifique et de générer des réponses précises basées sur l'analyse du contenu visuel.
Modèle Encoder-Decoder Multimodal
Architecture où un encodeur traite les modalités d'entrée (texte, image) et un décodeur génère la sortie dans une modalité cible, permettant la traduction entre différents formats.
Audio-Visual Speech Recognition
Technologie combinant les signaux audio et vidéo pour améliorer la précision de la reconnaissance vocale, particulièrement utile dans des environnements bruyants.