Aprendizaje por Refuerzo Clásico

📂

subcategorías

Q-learning

Algoritmo de aprendizaje por refuerzo sin modelo que aprende la función de valor acción-estado para encontrar la política óptima.

16 términos

📂

subcategorías

SARSA

Algoritmo de aprendizaje por refuerzo on-policy que actualiza los valores Q utilizando la acción realmente seguida.

13 términos

📂

subcategorías

Programación Dinámica

Métodos matemáticos que incluyen la iteración del valor y la iteración de la política para resolver los Procesos de Decisión Markovianos (MDP).

16 términos

📂

subcategorías

Métodos Monte Carlo

Técnicas de aprendizaje basadas en el muestreo de episodios completos para estimar los valores.

16 términos

📂

subcategorías

Aprendizaje Temporal Diferencial

Combinación de programación dinámica y Monte Carlo que permite actualizaciones en línea después de cada paso.

14 términos

📂

subcategorías

Aprendizaje Q doble

Variante del aprendizaje Q que utiliza dos estimadores Q para reducir el sesgo de sobreestimación de los valores de acción.

16 términos

📂

subcategorías

Aproximación de Funciones

Extensión de los métodos tabulares a espacios de estados continuos utilizando aproximadores como redes neuronales.

12 términos

📂

subcategorías

Aprendizaje con Modelo

Enfoques en los que el modelo de transición del entorno es conocido o aprendido para planificar las acciones.

14 términos

📂

subcategorías

Exploración vs Explotación

Estrategias para equilibrar la exploración de nuevas acciones y la explotación de los conocimientos adquiridos.

9 términos

📂

subcategorías

Procesos de Decisión Markovianos

Marco matemático formal que modela problemas de decisión secuencial en entornos estocásticos.

19 términos

📂

subcategorías

Aprendizaje Multiagentes

Extensión del aprendizaje por refuerzo a entornos con múltiples agentes interactuando.

16 términos

📂

subcategorías

Procesos Observables Parcialmente

Generalización de los Procesos de Decisión Markovianos donde el estado solo es parcialmente observable, requiriendo creencias sobre el estado.

14 términos

📂

subcategorías

Métodos de Gradiente de Política

Optimización directa de los parámetros de la política siguiendo el gradiente de las recompensas esperadas.

8 términos

📂

subcategorías

Trayectorias de Elegibilidad

Mecanismo que combina las ventajas del Método Temporal Diferencial (TD) y el Método Monte Carlo para acelerar el aprendizaje mediante la asignación de crédito temporal.

17 términos

📂

subcategorías

Factorización del Valor

Descomposición de la función Q en valor de estado y ventaja para mejorar la estabilidad del aprendizaje.

15 términos

Glosario IA

Q-learning

SARSA

Programación Dinámica

Métodos Monte Carlo

Aprendizaje Temporal Diferencial

Aprendizaje Q doble

Aproximación de Funciones

Aprendizaje con Modelo

Exploración vs Explotación

Procesos de Decisión Markovianos

Aprendizaje Multiagentes

Procesos Observables Parcialmente

Métodos de Gradiente de Política

Trayectorias de Elegibilidad

Factorización del Valor

No se encontraron resultados