Algoritmos Epsilon-Voraces

📖

términos

Tasa de exploración épsilon

Parámetro de control en el algoritmo épsilon-greedy que determina la probabilidad de exploración en lugar de explotación. Su valor influye directamente en la velocidad de convergencia y la calidad final de la política aprendida.

📖

términos

Acción codiciosa

Acción seleccionada que tiene el valor estimado más alto según el conocimiento actual del agente. En épsilon-greedy, esta acción se elige con probabilidad 1-ε durante la fase de explotación.

📖

términos

Exploración aleatoria

Proceso que consiste en seleccionar una acción uniformemente al azar entre todas las acciones disponibles. En épsilon-greedy, esta estrategia se aplica con probabilidad ε para descubrir nuevas opciones potencialmente rentables.

📖

términos

Decaimiento de épsilon

Técnica donde el valor de épsilon disminuye progresivamente con el tiempo para favorecer la exploración inicial y luego la explotación final. Este enfoque permite una convergencia más estable hacia una política óptima.

📖

términos

Épsilon-greedy optimista

Variante del algoritmo que inicializa los valores de las acciones con estimaciones optimistas altas para fomentar la exploración inicial. Este método obliga al agente a probar todas las acciones al menos una vez.

📖

términos

Arrepentimiento acumulado

Medida de rendimiento que cuantifica la diferencia entre la suma de las recompensas óptimas posibles y las realmente obtenidas por el algoritmo. Sirve como indicador para evaluar la eficacia de la política de aprendizaje.

📖

términos

Convergencia del algoritmo

Propiedad que garantiza que el algoritmo épsilon-greedy converge hacia la política óptima bajo ciertas condiciones. La convergencia depende del decaimiento apropiado de épsilon y del número suficiente de iteraciones.

📖

términos

Inicialización de valores

Proceso de asignación de valores iniciales a las estimaciones de recompensa para cada acción al comienzo del aprendizaje. La estrategia de inicialización influye significativamente en el comportamiento exploratorio inicial del agente.

📖

términos

Política puramente codiciosa

Estrategia donde épsilon = 0, lo que resulta en una explotación sistemática de la acción actualmente considerada óptima sin ninguna exploración. Esta política puede converger prematuramente hacia un óptimo local.

📖

términos

Recocido de épsilon

Técnica de reducción progresiva y controlada del valor de épsilon durante el aprendizaje. El recocido permite una transición suave de la exploración hacia la explotación para mejorar la convergencia.

Glosario IA

Tasa de exploración épsilon

Acción codiciosa

Exploración aleatoria

Decaimiento de épsilon

Épsilon-greedy optimista

Arrepentimiento acumulado

Convergencia del algoritmo

Inicialización de valores

Política puramente codiciosa

Recocido de épsilon

No se encontraron resultados