Glosario IA
El diccionario completo de la Inteligencia Artificial
Upper Confidence Bound (UCB)
Algoritmo que selecciona las acciones según su límite superior de confianza, combinando el valor medio estimado con una medida de incertidumbre para equilibrar exploración y explotación.
Softmax o Boltzmann Exploration
Estrategia probabilística que asigna probabilidades a las acciones proporcionales al exponencial de sus valores estimados, controladas por un parámetro de temperatura τ.
Tasa de Exploración
Parámetro que controla la frecuencia con la que el agente elige acciones no óptimas para explorar, esencial para mantener un equilibrio adecuado en el aprendizaje.
Optimismo Frente a la Incertidumbre
Principio algorítmico que inicializa los valores de acción con estimaciones optimistas, incentivando la exploración de todas las acciones al menos una vez antes de converger hacia la explotación.
Recocido Simulado (Simulated Annealing)
Metaheurística inspirada en metalurgia donde el parámetro de temperatura controla progresivamente la transición desde la exploración aleatoria hacia la explotación más determinista.
Exploración Dirigida
Enfoque de exploración que utiliza información específica sobre el entorno o los valores estado-acción para guiar selectivamente la exploración hacia regiones prometedoras.
Upper Confidence Bounds for Trees (UCT)
Algoritmo de búsqueda en árboles que combina UCB con Monte Carlo Tree Search, aplicando el principio de optimismo frente a la incertidumbre en la selección de nodos.
Exploración Basada en Varianza
Estrategia de exploración que prioriza las acciones con mayor varianza en la estimación del valor, identificando así las zonas más inciertas del espacio estado-acción.
Estrategia Voraz (Greedy)
Política de acción que selecciona sistemáticamente la acción con el valor estimado más alto, representando la explotación extrema sin ninguna componente de exploración.