Evaluación de Sistemas de Recomendación

📖

términos

Precisión@K

Métrica que mide la proporción de ítems relevantes entre las K primeras recomendaciones, esencial para evaluar la calidad de los resultados mejor clasificados.

📖

términos

Recall@K

Indicador que calcula la proporción de ítems relevantes presentes en las K primeras recomendaciones en relación al total de ítems relevantes disponibles.

📖

términos

Precisión Media Promedio (MAP)

Métrica agregada que calcula el promedio de las precisiones en cada posición relevante, ponderada por el rango de cada ítem relevante en la lista de recomendaciones.

📖

términos

NDCG (Ganancia Acumulada Descontada Normalizada)

Puntuación normalizada que evalúa la calidad del ordenamiento penalizando los ítems relevantes ubicados lejos del principio de la lista, ideal para recomendaciones con relevancia graduada.

📖

términos

RMSE (Error Cuadrático Medio)

Error cuadrático medio utilizado para evaluar la precisión de las predicciones de calificaciones midiendo la diferencia entre valores predichos y reales.

📖

términos

Tasa de Aciertos (HR)

Porcentaje de sesiones donde al menos un ítem relevante aparece en las N primeras recomendaciones, midiendo la eficacia global del sistema.

📖

términos

Cobertura del Catálogo

Porcentaje de ítems únicos del catálogo que pueden ser recomendados por el sistema, crucial para evitar la concentración en un subconjunto restringido de ítems.

📖

términos

Diversidad Intra-Lista

Medida de disimilitud promedio entre los ítems de una misma lista de recomendaciones, esencial para evitar redundancia y enriquecer la experiencia del usuario.

📖

términos

Novedad

Grado de desconocimiento de los ítems recomendados para el usuario, calculado como el inverso de su popularidad global en el catálogo.

📖

términos

Serendipia

Capacidad del sistema para recomendar ítems relevantes pero inesperados que sorprenden positivamente al usuario más allá de simples predicciones.

📖

términos

Test A/B

Metodología experimental comparando el rendimiento de dos versiones del sistema en segmentos de usuarios reales para medir el impacto de negocio.

📖

términos

Validación Cruzada Dejar Uno Fuera

Técnica de evaluación robusta donde cada interacción de usuario se utiliza alternativamente como dato de prueba mientras las otras sirven para el entrenamiento.

📖

términos

Evaluación Offline vs Online

Enfoque dual evaluando el rendimiento en datos históricos (offline) y con interacciones reales (online) para validar la eficacia completa del sistema.

📖

términos

Generalización Temporal

Capacidad del sistema para mantener su rendimiento en datos futuros, evaluada secuencialmente en divisiones temporales en lugar de aleatorias.

📖

términos

Correlación de Métricas de Negocio

Análisis de la relación entre métricas algorítmicas (NDCG, Precisión) e indicadores de negocio (conversión, retención) para validar la relevancia comercial.

📖

términos

Métrica Cataract

Puntuación compuesta que equilibra precisión, diversidad, novedad y cobertura para evaluar holísticamente la calidad global de las recomendaciones.

📖

términos

Rango Recíproco Esperado (ERR)

Modelo probabilístico basado en el comportamiento del usuario que asume el cese del examen después del primer clic, ponderando fuertemente las primeras posiciones.

📖

términos

Cobertura de Usuario

Porcentaje de usuarios para quienes el sistema puede generar recomendaciones, crítico para medir la aplicabilidad universal del sistema.

📖

términos

Métricas de Equidad

Indicadores que evalúan la equidad en la distribución de recomendaciones entre diferentes grupos demográficos para evitar sesgos algorítmicos.

📖

términos

Medición del Sesgo de Exposición

Cuantificación de la disparidad de exposición entre elementos populares y de la cola larga, esencial para evaluar el equilibrio de las recomendaciones.

Glosario IA

Precisión@K

Recall@K

Precisión Media Promedio (MAP)

NDCG (Ganancia Acumulada Descontada Normalizada)

RMSE (Error Cuadrático Medio)

Tasa de Aciertos (HR)

Cobertura del Catálogo

Diversidad Intra-Lista

Novedad

Serendipia

Test A/B

Validación Cruzada Dejar Uno Fuera

Evaluación Offline vs Online

Generalización Temporal

Correlación de Métricas de Negocio

Métrica Cataract

Rango Recíproco Esperado (ERR)

Cobertura de Usuario

Métricas de Equidad

Medición del Sesgo de Exposición

No se encontraron resultados