Glosario IA
El diccionario completo de la Inteligencia Artificial
Tasa de exploración épsilon
Parámetro de control en el algoritmo épsilon-greedy que determina la probabilidad de exploración en lugar de explotación. Su valor influye directamente en la velocidad de convergencia y la calidad final de la política aprendida.
Acción codiciosa
Acción seleccionada que tiene el valor estimado más alto según el conocimiento actual del agente. En épsilon-greedy, esta acción se elige con probabilidad 1-ε durante la fase de explotación.
Exploración aleatoria
Proceso que consiste en seleccionar una acción uniformemente al azar entre todas las acciones disponibles. En épsilon-greedy, esta estrategia se aplica con probabilidad ε para descubrir nuevas opciones potencialmente rentables.
Decaimiento de épsilon
Técnica donde el valor de épsilon disminuye progresivamente con el tiempo para favorecer la exploración inicial y luego la explotación final. Este enfoque permite una convergencia más estable hacia una política óptima.
Épsilon-greedy optimista
Variante del algoritmo que inicializa los valores de las acciones con estimaciones optimistas altas para fomentar la exploración inicial. Este método obliga al agente a probar todas las acciones al menos una vez.
Arrepentimiento acumulado
Medida de rendimiento que cuantifica la diferencia entre la suma de las recompensas óptimas posibles y las realmente obtenidas por el algoritmo. Sirve como indicador para evaluar la eficacia de la política de aprendizaje.
Convergencia del algoritmo
Propiedad que garantiza que el algoritmo épsilon-greedy converge hacia la política óptima bajo ciertas condiciones. La convergencia depende del decaimiento apropiado de épsilon y del número suficiente de iteraciones.
Inicialización de valores
Proceso de asignación de valores iniciales a las estimaciones de recompensa para cada acción al comienzo del aprendizaje. La estrategia de inicialización influye significativamente en el comportamiento exploratorio inicial del agente.
Política puramente codiciosa
Estrategia donde épsilon = 0, lo que resulta en una explotación sistemática de la acción actualmente considerada óptima sin ninguna exploración. Esta política puede converger prematuramente hacia un óptimo local.
Recocido de épsilon
Técnica de reducción progresiva y controlada del valor de épsilon durante el aprendizaje. El recocido permite una transición suave de la exploración hacia la explotación para mejorar la convergencia.