Glosario IA
El diccionario completo de la Inteligencia Artificial
Leyes de Escalado
Principios matemáticos que describen cómo el rendimiento de los modelos de aprendizaje profundo mejora de manera predecible con el aumento del tamaño del modelo, los datos y el cómputo.
Escalado de Ley de Potencia
Relación matemática donde el rendimiento del modelo sigue una ley de potencia en función de factores como el tamaño del modelo, el número de parámetros o la cantidad de datos.
Leyes de Escalado Chinchilla
Leyes de escalado específicas descubiertas por DeepMind que sugieren que los modelos actuales están subentrenados y que los datos son más importantes de lo previsto para la optimización del rendimiento.
Escalado Óptimo de Cómputo
Estrategia de asignación óptima de recursos de cómputo entre el tamaño del modelo y la cantidad de datos de entrenamiento para maximizar el rendimiento con un presupuesto fijo.
Leyes de Escalado de Datos
Principios que describen cómo el aumento de la cantidad de datos de entrenamiento influye en el rendimiento del modelo, a menudo siguiendo una relación de potencia con saturación.
Escalado de Tamaño del Modelo
Estudio de la evolución de las capacidades del modelo en función del número de parámetros, revelando mejoras predecibles hasta ciertos puntos de saturación.
Escalado de Tokens
Análisis del impacto del número de tokens de entrenamiento en el rendimiento del modelo, esencial para determinar la cantidad óptima de datos textuales.
Habilidades Emergentes
Capacidades que aparecen repentinamente en modelos grandes a ciertas escalas críticas, sin estar presentes en modelos más pequeños de la misma familia.
Transiciones de Fase
Cambios abruptos en el comportamiento o rendimiento del modelo que ocurren en umbrales específicos de tamaño o datos.
Leyes de Escalado Neuronal
Marco teórico general que unifica las observaciones empíricas sobre el escalado de redes neuronales a través de diferentes arquitecturas y tareas.
Leyes de Escalado de Kaplan
Primeras leyes de escalado empíricas establecidas por OpenAI, que muestran relaciones de potencia entre el tamaño del modelo, los datos y el rendimiento.
Curvas IsoFLOP
Curvas de rendimiento con presupuesto FLOP constante que permiten comparar diferentes arquitecturas o estrategias de entrenamiento con igual costo computacional.
Tamaño Crítico de Lote
Tamaño de lote óptimo más allá del cual el aumento adicional no produce mejoras significativas en la velocidad de entrenamiento.
Doble Descenso
Fenómeno donde el error de prueba disminuye, aumenta y luego disminuye nuevamente a medida que el tamaño del modelo supera el punto de interpolación de los datos.
Grokking
Fenómeno donde los modelos adquieren repentinamente una comprensión generalizable después de un largo período de aparente sobreajuste.
Minimización Consciente de la Agudeza
Técnica de optimización que busca mínimos planos en el panorama de pérdida, particularmente importante para la estabilidad de modelos grandes.
Escalado de Pérdidas
Predicción de la evolución de la función de pérdida en función de los recursos asignados, permitiendo estimar el rendimiento antes del entrenamiento.
Mesetas de Rendimiento
Fases de estancamiento en la mejora del rendimiento a pesar del aumento de recursos, indicando límites en las leyes de escalado actuales.
Exponente de Escalado
Parámetro crucial en las leyes de potencia que determina la velocidad de mejora del rendimiento en relación con el aumento de recursos.
Coeficiente de Escalado
Constante multiplicativa en las ecuaciones de escalado que determina el nivel de rendimiento base antes de aplicar los efectos de escalado.