Aprendizaje por Refuerzo con Bandidos

📂

subcategorías

Bandidos Multi-brazos Clásicos

Problema fundamental donde el agente elige entre varias opciones para maximizar la recompensa acumulativa.

10 términos

📂

subcategorías

Algoritmos Epsilon-Voraces

Estrategia que explota la mejor acción conocida con probabilidad 1-ε y explora aleatoriamente con probabilidad ε.

10 términos

📂

subcategorías

Algoritmos UCB

Métodos basados en los límites superiores de confianza que equilibran exploración y explotación mediante intervalos estadísticos.

13 términos

📂

subcategorías

Muestreo de Thompson

Enfoque bayesiano que muestrea parámetros según su distribución posterior para tomar decisiones.

0 términos

📂

subcategorías

Bandidos Contextuales

Extensión donde las decisiones dependen de características contextuales observadas en cada ronda.

10 términos

📂

subcategorías

Bandidos Lineales

Modelos donde la recompensa esperada es una función lineal de las características contextuales.

12 términos

📂

subcategorías

Bandidos No Estacionarios

Marco donde las distribuciones de recompensa cambian con el tiempo, requiriendo una adaptación continua.

13 términos

📂

subcategorías

Bandidos Combinatorios

Problemas donde el agente selecciona conjuntos de acciones simultáneamente con restricciones estructurales.

10 términos

📂

subcategorías

Bandidos Adversarios

Escenario donde un adversario elige las recompensas para minimizar la ganancia del agente.

10 términos

📂

subcategorías

Bandidos en Cascada

Modelo donde los ítems se presentan secuencialmente hasta que el usuario hace clic en uno de ellos.

14 términos

📂

subcategorías

Bandidos con Retroalimentación Limitada

Situaciones en las que solo se observa información parcial sobre las recompensas después de cada acción.

14 términos

📂

subcategorías

Bandidos para Publicidad Online

Aplicación específica para la optimización de campañas publicitarias en tiempo real.

8 términos

📂

subcategorías

Bandidos para Pruebas A/B

Alternativa inteligente a las pruebas A/B tradicionales para la optimización de experiencias web.

5 términos

📂

subcategorías

Bandidos para Recomendaciones

Sistemas que aprenden las preferencias del usuario para personalizar las recomendaciones.

7 términos

📂

subcategorías

Bandidos Jerárquicos

Estructuras multinivel donde las decisiones se organizan en una jerarquía para problemas complejos.

10 términos

Glosario IA

Bandidos Multi-brazos Clásicos

Algoritmos Epsilon-Voraces

Algoritmos UCB

Muestreo de Thompson

Bandidos Contextuales

Bandidos Lineales

Bandidos No Estacionarios

Bandidos Combinatorios

Bandidos Adversarios

Bandidos en Cascada

Bandidos con Retroalimentación Limitada

Bandidos para Publicidad Online

Bandidos para Pruebas A/B

Bandidos para Recomendaciones

Bandidos Jerárquicos

No se encontraron resultados