Ganancia de Información y Entropía

📖

términos

Entropía de Shannon

Medida matemática de la incertidumbre o desorden en un conjunto de datos, calculada como la suma de las probabilidades multiplicadas por su logaritmo negativo. Utilizada como criterio de división para cuantificar la impureza de un nodo en los árboles de decisión.

📖

términos

Criterio de división

Regla matemática utilizada para determinar el mejor atributo y umbral de división en cada nodo de un árbol de decisión, basada en la maximización de la ganancia de información o la minimización de la impureza. Determina la estructura y la eficacia predictiva del árbol final.

📖

términos

Entropía condicional

Medida de la incertidumbre restante sobre una variable aleatoria Y cuando se conoce el valor de otra variable X, esencial para el cálculo de la ganancia de información. Representa la entropía promedio de las distribuciones condicionales de Y dado cada valor de X.

📖

términos

Relación de información

Variante normalizada de la ganancia de información que divide esta última por la entropía intrínseca del atributo de división para evitar el sesgo hacia atributos con muchos valores. Compensa la tendencia natural de la ganancia de información a favorecer atributos muy granulares.

📖

términos

Principio MDL

Principio de Descripción de Longitud Mínima que utiliza la teoría de la información para equilibrar complejidad del modelo y calidad de ajuste, penalizando divisiones que no aportan suficiente información en comparación con su costo descriptivo. Alternativa regularizada a criterios de división puros.

📖

términos

Poda basada en entropía

Técnica de post-poda que utiliza criterios entrópicos para evaluar si la eliminación de una rama mejora el compromiso sesgo-varianza del modelo. Compara la ganancia de información potencial al costo de complejidad adicional.

📖

términos

Entropía conjunta

Medida de la incertidumbre total de un sistema compuesto por varias variables aleatorias simultáneamente, fundamental para entender relaciones entre atributos en la construcción de árboles de decisión. Utilizada en el cálculo de la información mutua.

📖

términos

Relación de ganancia

Modificación de la ganancia de información normalizada por la entropía de partición para corregir el sesgo hacia atributos de alta cardinalidad, introducida en el algoritmo C4.5. Mantiene las ventajas de la ganancia de información mientras reduce su sensibilidad al número de valores.

📖

términos

Ganancia de Información Relativa

Versión normalizada de la ganancia de información expresada como proporción de la entropía inicial, permitiendo la comparación entre diferentes conjuntos de datos o problemas. Facilita la interpretación y el benchmarking de los rendimientos de división.

📖

términos

División Binaria

Estrategia de división que crea exactamente dos nodos hijos en cada paso, simplificando el cálculo de la ganancia de información y reduciendo la complejidad estructural del árbol. Optimiza la eficiencia computacional mientras preserva la potencia expresiva del modelo.

📖

términos

División Multi-vía

Enfoque de división que crea tantos nodos hijos como valores distintos para el atributo seleccionado, maximizando potencialmente la ganancia de información bruta. Requiere a menudo técnicas de regularización como la ratio de ganancia para evitar el sobreajuste.

Glosario IA

Entropía de Shannon

Criterio de división

Entropía condicional

Relación de información

Principio MDL

Poda basada en entropía

Entropía conjunta

Relación de ganancia

Ganancia de Información Relativa

División Binaria

División Multi-vía

No se encontraron resultados