🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Bandido Contextual

Algoritmo de aprendizaje por refuerzo que selecciona dinámicamente las mejores acciones según el contexto observado para maximizar las recompensas acumuladas.

📖
términos

Exploración vs Explotación

Dilema fundamental donde el algoritmo debe equilibrar el descubrimiento de nuevas opciones y la explotación de opciones conocidas como de alto rendimiento.

📖
términos

Upper Confidence Bound (UCB)

Estrategia que selecciona los brazos según un límite superior de confianza en su recompensa esperada, favoreciendo la exploración de acciones inciertas.

📖
términos

Thompson Sampling

Algoritmo bayesiano que muestrea los parámetros de recompensa desde su distribución posterior para tomar decisiones probabilísticas.

📖
términos

LinUCB

Extensión del UCB que modela la recompensa esperada como una función lineal del contexto, adaptada a espacios de contexto de alta dimensión.

📖
términos

Context Features

Variables descriptivas que caracterizan el estado actual del entorno e influyen en la elección óptima de la acción en los bandidos contextuales.

📖
términos

Regret Minimization

Objetivo que busca minimizar la diferencia entre la recompensa acumulada obtenida y la de la política óptima, midiendo el rendimiento del algoritmo.

📖
términos

Multi-armed Bandits

Problema fundamental donde un agente debe seleccionar entre varias opciones (brazos) con distribuciones de recompensa desconocidas para maximizar la ganancia.

📖
términos

Función de Recompensa

Función matemática que cuantifica la recompensa inmediata obtenida después de tomar una acción en un contexto dado, guiando el aprendizaje del algoritmo.

📖
términos

Selección de Brazo

Proceso de elección de la acción óptima entre las opciones disponibles basado en las estimaciones actuales de recompensas y el contexto observado.

📖
términos

Recompensa Esperada

Valor promedio anticipado de la recompensa para una acción dada en un contexto específico, calculado a partir de observaciones históricas.

📖
términos

Función de Valor-Acción

Función Q(a,x) que estima la recompensa futura esperada al tomar la acción 'a' en el contexto 'x', fundamental para la evaluación de políticas.

📖
términos

Aprendizaje en Línea

Paradigma de aprendizaje donde el modelo se ajusta continuamente a medida que llegan nuevos datos, sin necesidad de reentrenamiento completo.

📖
términos

Bandidos Contextuales Estocásticos

Variante donde las recompensas siguen distribuciones estocásticas independientes e idénticamente distribuidas para cada par contexto-acción.

📖
términos

Bandidos Neuronales

Enfoque que utiliza redes neuronales para aproximar la función de valor o la política, capaz de capturar relaciones no lineales complejas.

🔍

No se encontraron resultados