Glosario IA
El diccionario completo de la Inteligencia Artificial
Entropía de Shannon
Medida matemática de la incertidumbre o desorden en un conjunto de datos, calculada como la suma de las probabilidades multiplicadas por su logaritmo negativo. Utilizada como criterio de división para cuantificar la impureza de un nodo en los árboles de decisión.
Criterio de división
Regla matemática utilizada para determinar el mejor atributo y umbral de división en cada nodo de un árbol de decisión, basada en la maximización de la ganancia de información o la minimización de la impureza. Determina la estructura y la eficacia predictiva del árbol final.
Entropía condicional
Medida de la incertidumbre restante sobre una variable aleatoria Y cuando se conoce el valor de otra variable X, esencial para el cálculo de la ganancia de información. Representa la entropía promedio de las distribuciones condicionales de Y dado cada valor de X.
Relación de información
Variante normalizada de la ganancia de información que divide esta última por la entropía intrínseca del atributo de división para evitar el sesgo hacia atributos con muchos valores. Compensa la tendencia natural de la ganancia de información a favorecer atributos muy granulares.
Principio MDL
Principio de Descripción de Longitud Mínima que utiliza la teoría de la información para equilibrar complejidad del modelo y calidad de ajuste, penalizando divisiones que no aportan suficiente información en comparación con su costo descriptivo. Alternativa regularizada a criterios de división puros.
Poda basada en entropía
Técnica de post-poda que utiliza criterios entrópicos para evaluar si la eliminación de una rama mejora el compromiso sesgo-varianza del modelo. Compara la ganancia de información potencial al costo de complejidad adicional.
Entropía conjunta
Medida de la incertidumbre total de un sistema compuesto por varias variables aleatorias simultáneamente, fundamental para entender relaciones entre atributos en la construcción de árboles de decisión. Utilizada en el cálculo de la información mutua.
Relación de ganancia
Modificación de la ganancia de información normalizada por la entropía de partición para corregir el sesgo hacia atributos de alta cardinalidad, introducida en el algoritmo C4.5. Mantiene las ventajas de la ganancia de información mientras reduce su sensibilidad al número de valores.
Ganancia de Información Relativa
Versión normalizada de la ganancia de información expresada como proporción de la entropía inicial, permitiendo la comparación entre diferentes conjuntos de datos o problemas. Facilita la interpretación y el benchmarking de los rendimientos de división.
División Binaria
Estrategia de división que crea exactamente dos nodos hijos en cada paso, simplificando el cálculo de la ganancia de información y reduciendo la complejidad estructural del árbol. Optimiza la eficiencia computacional mientras preserva la potencia expresiva del modelo.
División Multi-vía
Enfoque de división que crea tantos nodos hijos como valores distintos para el atributo seleccionado, maximizando potencialmente la ganancia de información bruta. Requiere a menudo técnicas de regularización como la ratio de ganancia para evitar el sobreajuste.