Glossario IA
Il dizionario completo dell'Intelligenza Artificiale
Embedding Conditionnel
Projection de l'étiquette de classe (ex: 'golden retriever') dans un espace vectoriel de haute dimension, injectée dans le générateur et le discriminateur pour guider la génération d'images spécifiques à une classe donnée.
Troncature Latente
Méthode d'échantillonnage du bruit latent qui limite sa norme pour explorer un compromis entre la diversité et la fidélité des images générées, permettant d'obtenir des échantillons de qualité supérieure au détriment d'une légère variation.
Batch Normalisation à Apprentissage
Variante de la normalisation de lot où les paramètres de moyenne et de variance ne sont pas fixes mais appris, offrant une flexibilité accrue au générateur pour modéliser des distributions complexes et multi-modales.
FID Score
Métrique d'évaluation (Fréchet Inception Distance) qui mesure la similarité entre la distribution des caractéristiques des images réelles et générées, extraites d'un réseau de classification pré-entraîné (Inception v3), devenant la référence pour juger de la qualité des GANs.
Stabilité d'Entraînement
Défi majeur dans l'entraînement des GANs à grande échelle comme BigGAN, où l'équilibre délicat entre le générateur et le discriminateur peut facilement être rompu, conduisant à des effondrements de mode ou à une divergence du modèle.
Augmentation de Données Différentiable
Application de transformations géométriques ou photométriques (ex: rotations, translations) sur les images réelles pendant l'entraînement, avec des gradients qui peuvent rétropropager à travers ces opérations pour améliorer la robustesse du discriminateur.
Projection du Discriminateur
Architecture de discriminateur où l'embedding de classe est intégré via une opération de produit scalaire avec la sortie de la couche de convolution finale, plutôt qu'une simple concaténation, améliorant les performances de classification.
Résolution Auto-Régressive
Stratégie de génération d'images où le modèle produit des images à basse résolution, puis les sur-échantillonne de manière itérative pour atteindre une haute définition, une approche que BigGAN combine avec les GANs pour gérer des images de grande taille.
Effondrement de Mode
Phénomène où le générateur, en cherchant à tromper le discriminateur, produit une diversité limitée d'échantillons (par exemple, une seule image par classe), ignorant la majorité des modes de la distribution de données réelle.
Norme de Lipschitz
Contrainte mathématique sur la fonction du discriminateur qui limite la vitesse à laquelle sa sortie peut changer par rapport à une petite variation de son entrée, essentielle pour garantir une convergence stable de l'entraînement GAN.
Synthèse d'Image Haute Fidélité
Objectif principal de BigGAN, consistant à générer des images photoréalistes ou indiscernables de vraies photos pour l'œil humain, évaluées subjectivement et par des métriques comme le score FID.
Conditionnement par Classe
Processus qui fournit au GAN une étiquette de classe en entrée pour orienter la génération, permettant un contrôle explicite sur le type d'image produite (ex: générer spécifiquement un 'poisson rouge' ou une 'voiture de sport').
Équilibre Générateur-Discriminateur
État dynamique et fragile de l'entraînement GAN où le générateur devient suffisamment habile pour créer des échantillons convaincants, tandis que le discriminateur reste assez compétitif pour fournir des gradients utiles, sans être ni trop fort ni trop faible.