🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Función de Recorte

Mecanismo PPO que limita la magnitud de las actualizaciones de política truncando la relación de probabilidad entre la nueva y la antigua política para evitar cambios demasiado drásticos.

📖
términos

Región de Confianza

Región de confianza en el espacio de políticas donde las actualizaciones se consideran seguras, definida por una restricción sobre la divergencia KL entre políticas sucesivas.

📖
términos

Objetivo Sustituto

Función objetivo modificada utilizada en PPO que aproxima el objetivo original incorporando restricciones de estabilidad como el recorte para evitar la degradación del rendimiento.

📖
términos

Penalización de Divergencia KL

Penalización añadida a la función objetivo PPO para controlar la divergencia entre políticas sucesivas, ajustada adaptativamente para mantener las actualizaciones en una región aceptable.

📖
términos

Actualizaciones de Mini-lotes

Proceso de optimización PPO donde los datos recopilados se dividen en pequeños lotes para realizar múltiples pasadas de gradiente, mejorando la eficiencia computacional y la estabilidad.

📖
términos

Parámetro de Rango de Recorte

Hiperparámetro épsilon en PPO que define el ancho de la zona de recorte para la relación de probabilidad, controlando directamente el conservadurismo de las actualizaciones de política.

📖
términos

Recorte de Función de Valor

Variante de PPO que también aplica recorte a la función de valor para estabilizar el aprendizaje y prevenir grandes variaciones en las estimaciones de valor.

📖
términos

Optimización de Épocas

Proceso PPO donde los mismos datos de experiencia se reutilizan para múltiples pasadas de optimización, mejorando el aprovechamiento de los datos recopilados.

📖
términos

Ventaja Normalizada

Técnica de normalización de estimaciones de ventaja para estabilizar el entrenamiento manteniendo una escala consistente de gradientes entre actualizaciones.

📖
términos

Recolección de Experiencia

Fase PPO donde el agente interactúa con el entorno siguiendo la política actual para recolectar transiciones (estado, acción, recompensa) utilizadas para la optimización.

📖
términos

Penalización KL Adaptativa

Variante PPO que ajusta dinámicamente la fuerza de la penalización KL según la divergencia observada entre políticas, asegurando actualizaciones controladas.

🔍

No se encontraron resultados