Glosario IA
El diccionario completo de la Inteligencia Artificial
Verdadero Positivo (TP)
Resultado correcto donde el modelo predice positivamente una observación que es efectivamente positiva, indicando una clasificación exitosa de la clase de interés. El número de verdaderos positivos es crucial para evaluar la capacidad del modelo para identificar correctamente los casos relevantes.
Falso Positivo (FP)
Error de clasificación donde el modelo predice incorrectamente una observación como positiva cuando es realmente negativa, correspondiendo a una falsa alarma. Los falsos positivos son particularmente costosos en áreas como el diagnóstico médico o la detección de fraude.
Precisión (Precision)
Métrica calculada como el ratio de verdaderos positivos sobre la suma de verdaderos y falsos positivos, midiendo la proporción de predicciones positivas correctas entre todas las predicciones positivas. Es particularmente importante cuando el costo de los falsos positivos es alto.
Recall (Recall)
También llamado sensibilidad, mide el ratio de verdaderos positivos sobre la suma de verdaderos positivos y falsos negativos, evaluando la capacidad del modelo para identificar todas las observaciones positivas reales. El recall es crucial cuando los falsos negativos tienen consecuencias graves.
Curva ROC
Gráfico que representa la tasa de verdaderos positivos en función de la tasa de falsos positivos para diferentes umbrales de clasificación, ilustrando el compromiso entre sensibilidad y especificidad. El área bajo esta curva (AUC) cuantifica el rendimiento global del clasificador.
Regresión Logística
Modelo lineal generalizado que utiliza la función sigmoide para mapear las predicciones continuas a una probabilidad entre 0 y 1 en clasificación binaria. Este modelo interpretable se utiliza a menudo como línea base para problemas de clasificación dicotómica.
Umbral de Decisión
Valor límite (generalmente 0.5) utilizado para convertir las probabilidades de salida en predicciones binarias, por encima del cual la observación se clasifica como positiva. El ajuste de este umbral permite optimizar el compromiso entre precisión y recall.
Desequilibrio de Clases
Situación donde una clase está significativamente más representada que la otra en el conjunto de datos de entrenamiento, pudiendo sesgar el modelo hacia la clase mayoritaria. Esta problemática requiere técnicas específicas como el sobremuestreo o la ponderación de clases.
SMOTE
Técnica de sobremuestreo sintético que genera nuevos ejemplos de la clase minoritaria mediante interpolación entre instancias existentes, equilibrando así la distribución de clases sin duplicación exacta. SMOTE es particularmente efectivo para mejorar el rendimiento en conjuntos de datos desequilibrados.
Árbol de Decisión Binario
Algoritmo de clasificación que utiliza una estructura jerárquica de decisiones binarias para particionar el espacio de características en regiones puras, cada hoja representando una clase predicha. Los árboles de decisión ofrecen gran interpretabilidad pero son propensos al sobreajuste.
Especificidad
Medida calculada como el cociente de verdaderos negativos sobre la suma de verdaderos negativos y falsos positivos, evaluando la capacidad del modelo para identificar correctamente las observaciones negativas. La especificidad es complementaria al recuerdo y crucial en las pruebas de detección.