Aprendizaje por Refuerzo en Tiempo Real
Q-Learning en Streaming
Variante del algoritmo Q-Learning optimizada para el procesamiento de datos continuos, actualizando la tabla de valores Q a medida que llegan nuevas experiencias. Este método mantiene el equilibrio entre exploración y explotación en entornos no estacionarios.
← Volver