Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Precision@K
Métrique mesurant la proportion d'items pertinents parmi les K premières recommandations, essentielle pour évaluer la qualité des résultats les mieux classés.
Recall@K
Indicateur calculant le ratio d'items pertinents effectivement présents dans les K premières recommandations par rapport au total des items pertinents disponibles.
Mean Average Precision (MAP)
Métrique agrégée calculant la moyenne des précisions à chaque position pertinent, pondérée par le rang de chaque item pertinent dans la liste de recommandations.
NDCG (Normalized Discounted Cumulative Gain)
Score normalisé évaluant la qualité du classement en pénalisant les items pertinents placés loin en début de liste, idéal pour les recommandations avec pertinence graduée.
RMSE (Root Mean Square Error)
Erreur quadratique moyenne utilisée pour évaluer la précision des prédictions de notes en mesurant l'écart entre valeurs prédites et réelles.
Hit Rate (HR)
Pourcentage de sessions où au moins un item pertinent apparaît dans les N premières recommandations, mesurant l'efficacité globale du système.
Catalog Coverage
Pourcentage d'items uniques du catalogue pouvant être recommandés par le système, crucial pour éviter la concentration sur un sous-ensemble restreint d'items.
Intra-List Diversity
Mesure de dissimilarité moyenne entre les items d'une même liste de recommandations, essentielle pour éviter la redondance et enrichir l'expérience utilisateur.
Novelty
Degré d'inconnu des items recommandés pour l'utilisateur, calculé comme l'inverse de leur popularité globale dans le catalogue.
Serendipity
Capacité du système à recommander des items pertinents mais inattendus qui surprennent positivement l'utilisateur au-delà de simples prédictions.
A/B Testing
Méthodologie expérimentale comparant les performances de deux versions du système sur des segments d'utilisateurs réels pour mesurer l'impact business.
Leave-One-Out Cross-Validation
Technique d'évaluation robuste où chaque interaction utilisateur est tour à tour utilisée comme donnée de test pendant que les autres servent à l'entraînement.
Offline vs Online Evaluation
Dual approche évaluant les performances sur données historiques (offline) et avec interactions réelles (online) pour valider l'efficacité complète du système.
Temporal Generalization
Capacité du système à maintenir ses performances sur des données futures, évaluée en séquentiel sur des splits temporels plutôt qu'aléatoires.
Business Metrics Correlation
Analyse de la relation entre métriques algorithmiques (NDCG, Precision) et indicateurs business (conversion, rétention) pour valider la pertinence métier.
Cataract Metric
Score composite équilibrant précision, diversité, nouveauté et couverture pour évaluer holistiquement la qualité globale des recommandations.
Expected Reciprocal Rank (ERR)
Modèle probabiliste basé sur le comportement utilisateur supposant l'arrêt de l'examen après le premier clic, pondérant fortement les premières positions.
User Coverage
Pourcentage d'utilisateurs pour qui le système peut générer des recommandations, critique pour mesurer l'applicabilité universelle du système.
Fairness Metrics
Indicateurs évaluant l'équité de distribution des recommandations entre différents groupes démographiques pour éviter les biais algorithmiques.
Exposure Bias Measurement
Quantification de la disparité d'exposition entre items populaires et de la longue traîne, essentielle pour évaluer l'équilibre des recommandations.