Glosario IA
El diccionario completo de la Inteligencia Artificial
Bandido Contextual
Algoritmo de aprendizaje por refuerzo que selecciona dinámicamente las mejores acciones según el contexto observado para maximizar las recompensas acumuladas.
Exploración vs Explotación
Dilema fundamental donde el algoritmo debe equilibrar el descubrimiento de nuevas opciones y la explotación de opciones conocidas como de alto rendimiento.
Upper Confidence Bound (UCB)
Estrategia que selecciona los brazos según un límite superior de confianza en su recompensa esperada, favoreciendo la exploración de acciones inciertas.
Thompson Sampling
Algoritmo bayesiano que muestrea los parámetros de recompensa desde su distribución posterior para tomar decisiones probabilísticas.
LinUCB
Extensión del UCB que modela la recompensa esperada como una función lineal del contexto, adaptada a espacios de contexto de alta dimensión.
Context Features
Variables descriptivas que caracterizan el estado actual del entorno e influyen en la elección óptima de la acción en los bandidos contextuales.
Regret Minimization
Objetivo que busca minimizar la diferencia entre la recompensa acumulada obtenida y la de la política óptima, midiendo el rendimiento del algoritmo.
Multi-armed Bandits
Problema fundamental donde un agente debe seleccionar entre varias opciones (brazos) con distribuciones de recompensa desconocidas para maximizar la ganancia.
Función de Recompensa
Función matemática que cuantifica la recompensa inmediata obtenida después de tomar una acción en un contexto dado, guiando el aprendizaje del algoritmo.
Selección de Brazo
Proceso de elección de la acción óptima entre las opciones disponibles basado en las estimaciones actuales de recompensas y el contexto observado.
Recompensa Esperada
Valor promedio anticipado de la recompensa para una acción dada en un contexto específico, calculado a partir de observaciones históricas.
Función de Valor-Acción
Función Q(a,x) que estima la recompensa futura esperada al tomar la acción 'a' en el contexto 'x', fundamental para la evaluación de políticas.
Aprendizaje en Línea
Paradigma de aprendizaje donde el modelo se ajusta continuamente a medida que llegan nuevos datos, sin necesidad de reentrenamiento completo.
Bandidos Contextuales Estocásticos
Variante donde las recompensas siguen distribuciones estocásticas independientes e idénticamente distribuidas para cada par contexto-acción.
Bandidos Neuronales
Enfoque que utiliza redes neuronales para aproximar la función de valor o la política, capaz de capturar relaciones no lineales complejas.