Optimización en Línea
Aprendizaje con Información Parcial
Paradigma donde el algoritmo solo recibe información sobre la acción elegida (bandido) en lugar de todas las acciones posibles (información completa).
← Volver