Bandidos Contextuales

📖

términos

Bandido Contextual

Algoritmo de aprendizaje por refuerzo que selecciona dinámicamente las mejores acciones según el contexto observado para maximizar las recompensas acumuladas.

📖

términos

Exploración vs Explotación

Dilema fundamental donde el algoritmo debe equilibrar el descubrimiento de nuevas opciones y la explotación de opciones conocidas como de alto rendimiento.

📖

términos

Upper Confidence Bound (UCB)

Estrategia que selecciona los brazos según un límite superior de confianza en su recompensa esperada, favoreciendo la exploración de acciones inciertas.

📖

términos

Thompson Sampling

Algoritmo bayesiano que muestrea los parámetros de recompensa desde su distribución posterior para tomar decisiones probabilísticas.

📖

términos

LinUCB

Extensión del UCB que modela la recompensa esperada como una función lineal del contexto, adaptada a espacios de contexto de alta dimensión.

📖

términos

Context Features

Variables descriptivas que caracterizan el estado actual del entorno e influyen en la elección óptima de la acción en los bandidos contextuales.

📖

términos

Regret Minimization

Objetivo que busca minimizar la diferencia entre la recompensa acumulada obtenida y la de la política óptima, midiendo el rendimiento del algoritmo.

📖

términos

Multi-armed Bandits

Problema fundamental donde un agente debe seleccionar entre varias opciones (brazos) con distribuciones de recompensa desconocidas para maximizar la ganancia.

📖

términos

Función de Recompensa

Función matemática que cuantifica la recompensa inmediata obtenida después de tomar una acción en un contexto dado, guiando el aprendizaje del algoritmo.

📖

términos

Selección de Brazo

Proceso de elección de la acción óptima entre las opciones disponibles basado en las estimaciones actuales de recompensas y el contexto observado.

📖

términos

Recompensa Esperada

Valor promedio anticipado de la recompensa para una acción dada en un contexto específico, calculado a partir de observaciones históricas.

📖

términos

Función de Valor-Acción

Función Q(a,x) que estima la recompensa futura esperada al tomar la acción 'a' en el contexto 'x', fundamental para la evaluación de políticas.

📖

términos

Aprendizaje en Línea

Paradigma de aprendizaje donde el modelo se ajusta continuamente a medida que llegan nuevos datos, sin necesidad de reentrenamiento completo.

📖

términos