Glosario IA
El diccionario completo de la Inteligencia Artificial
Precisión@K
Métrica que mide la proporción de ítems relevantes entre las K primeras recomendaciones, esencial para evaluar la calidad de los resultados mejor clasificados.
Recall@K
Indicador que calcula la proporción de ítems relevantes presentes en las K primeras recomendaciones en relación al total de ítems relevantes disponibles.
Precisión Media Promedio (MAP)
Métrica agregada que calcula el promedio de las precisiones en cada posición relevante, ponderada por el rango de cada ítem relevante en la lista de recomendaciones.
NDCG (Ganancia Acumulada Descontada Normalizada)
Puntuación normalizada que evalúa la calidad del ordenamiento penalizando los ítems relevantes ubicados lejos del principio de la lista, ideal para recomendaciones con relevancia graduada.
RMSE (Error Cuadrático Medio)
Error cuadrático medio utilizado para evaluar la precisión de las predicciones de calificaciones midiendo la diferencia entre valores predichos y reales.
Tasa de Aciertos (HR)
Porcentaje de sesiones donde al menos un ítem relevante aparece en las N primeras recomendaciones, midiendo la eficacia global del sistema.
Cobertura del Catálogo
Porcentaje de ítems únicos del catálogo que pueden ser recomendados por el sistema, crucial para evitar la concentración en un subconjunto restringido de ítems.
Diversidad Intra-Lista
Medida de disimilitud promedio entre los ítems de una misma lista de recomendaciones, esencial para evitar redundancia y enriquecer la experiencia del usuario.
Novedad
Grado de desconocimiento de los ítems recomendados para el usuario, calculado como el inverso de su popularidad global en el catálogo.
Serendipia
Capacidad del sistema para recomendar ítems relevantes pero inesperados que sorprenden positivamente al usuario más allá de simples predicciones.
Test A/B
Metodología experimental comparando el rendimiento de dos versiones del sistema en segmentos de usuarios reales para medir el impacto de negocio.
Validación Cruzada Dejar Uno Fuera
Técnica de evaluación robusta donde cada interacción de usuario se utiliza alternativamente como dato de prueba mientras las otras sirven para el entrenamiento.
Evaluación Offline vs Online
Enfoque dual evaluando el rendimiento en datos históricos (offline) y con interacciones reales (online) para validar la eficacia completa del sistema.
Generalización Temporal
Capacidad del sistema para mantener su rendimiento en datos futuros, evaluada secuencialmente en divisiones temporales en lugar de aleatorias.
Correlación de Métricas de Negocio
Análisis de la relación entre métricas algorítmicas (NDCG, Precisión) e indicadores de negocio (conversión, retención) para validar la relevancia comercial.
Métrica Cataract
Puntuación compuesta que equilibra precisión, diversidad, novedad y cobertura para evaluar holísticamente la calidad global de las recomendaciones.
Rango Recíproco Esperado (ERR)
Modelo probabilístico basado en el comportamiento del usuario que asume el cese del examen después del primer clic, ponderando fuertemente las primeras posiciones.
Cobertura de Usuario
Porcentaje de usuarios para quienes el sistema puede generar recomendaciones, crítico para medir la aplicabilidad universal del sistema.
Métricas de Equidad
Indicadores que evalúan la equidad en la distribución de recomendaciones entre diferentes grupos demográficos para evitar sesgos algorítmicos.
Medición del Sesgo de Exposición
Cuantificación de la disparidad de exposición entre elementos populares y de la cola larga, esencial para evaluar el equilibrio de las recomendaciones.