🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Actor-Critic

Arquitectura de aprendizaje por refuerzo combinando una red actor que aprende una política estocástica y una red crítica que estima la función de valor para reducir la varianza del gradiente de política.

📖
términos

Value Function

Función matemática estimando el retorno acumulado esperado desde un estado o un par estado-acción, sirviendo como señal de aprendizaje para la crítica en la arquitectura Actor-Critic.

📖
términos

Asynchronous Advantage Actor-Critic

Arquitectura distribuida donde múltiples agentes se entrenan en paralelo en entornos independientes, compartiendo periódicamente sus gradientes para acelerar el aprendizaje.

📖
términos

Deep Deterministic Policy Gradient

Algoritmo Actor-Critic para espacios de acción continuos utilizando redes neuronales profundas con política determinista y replay buffer para el aprendizaje fuera de política estable.

📖
términos

Twin Delayed Deep Deterministic Policy Gradient

Mejora de DDPG utilizando dos críticas gemelas para reducir la sobreestimación del valor y actualizaciones diferidas del actor y los objetivos para una mejor estabilidad.

📖
términos

Soft Actor-Critic

Algoritmo Actor-Critic maximizando una recompensa entropica combinando retorno y entropía para fomentar la exploración, utilizando actualizaciones fuera de política estables y eficientes.

📖
términos

Advantage Actor-Critic

Variante síncrona de A3C utilizando la estimación de la ventaja para reducir la varianza del gradiente de política, con actualizaciones batch para una mejor estabilidad en GPU.

📖
términos

Critic Network

Red neuronal estimando la función de valor V(s) o Q(s,a) para proporcionar la señal de aprendizaje TD al actor, utilizando el error de predicción como gradiente de optimización.

🔍

No se encontraron resultados