🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Gradiente de Política Estocástico

Método de optimización directa de la política utilizando estimaciones de gradiente basadas en trayectorias muestreadas, permitiendo gestionar espacios de acción continuos y discretos.

📖
términos

Actor-Crítico Estocástico

Arquitectura híbrida que combina un actor estocástico que aprende la política y un crítico que estima la función de valor para reducir la varianza de las estimaciones de gradiente.

📖
términos

Gradiente Natural

Método de optimización que sigue la geometría del espacio de parámetros definida por la métrica de Fisher, adaptado naturalmente a problemas estocásticos en RL.

📖
términos

Descenso de Gradiente Estocástico

Algoritmo de optimización iterativo que utiliza estimaciones ruidosas del gradiente calculadas en mini-lotes de datos para actualizar los parámetros del modelo.

📖
términos

Algoritmo de Robbins-Monro

Fundador de los métodos de aproximación estocástica, utilizando un paso de aprendizaje decreciente para garantizar la convergencia a puntos estacionarios en un entorno ruidoso.

📖
términos

Aproximación Estocástica

Marco teórico para la optimización en presencia de ruido, proporcionando garantías de convergencia para algoritmos de aprendizaje que utilizan estimaciones ruidosas.

📖
términos

Muestreo por Importancia en RL

Técnica que permite utilizar datos recolectados con una política antigua para entrenar una nueva política, ponderando las muestras por la relación de densidades.

📖
términos

Regularización por Divergencia KL

Restricción que regulariza la distancia entre la política actual y la anterior mediante la divergencia de Kullback-Leibler, previniendo cambios de política demasiado abruptos.

📖
términos

Inyección de Ruido en la Política

Estrategia de exploración que añade ruido estocástico directamente a los parámetros o a las salidas de la política para mantener la exploración durante la optimización.

📖
términos

Redes Neuronales Estocásticas en RL

Redes neuronales que incorporan incertidumbre en sus parámetros o activaciones, utilizadas como políticas estocásticas para modelar distribuciones complejas de acciones.

🔍

No se encontraron resultados