Glosario IA
El diccionario completo de la Inteligencia Artificial
C4.5
Algoritmo de aprendizaje supervisado desarrollado por Quinlan en 1993, extensión de ID3 capaz de manejar atributos continuos y datos faltantes, utilizando el ratio de ganancia como criterio de división.
C5.0
Versión mejorada del C4.5 desarrollada por Quinlan, ofreciendo rendimiento superior, gestión más eficiente de conjuntos de datos voluminosos y la capacidad de generar conjuntos de árboles (boosting).
Ratio de ganancia
Criterio de división utilizado en C4.5 para corregir el sesgo de ganancia de información hacia atributos con muchos valores, calculado como la ganancia de información dividida por la entropía intrínseca del atributo.
Entropía intrínseca
Medida utilizada en el cálculo del ratio de ganancia para penalizar atributos con un gran número de valores, representando la cantidad de información potencial contenida en la distribución de valores de un atributo.
Discretización binaria
Técnica utilizada por C4.5 para transformar atributos continuos en atributos categóricos binarios identificando el punto de división óptimo que maximiza la ganancia de información.
Gestión de valores faltantes
Capacidad del C4.5 para manejar instancias con atributos faltantes utilizando métodos de ponderación probabilística o distribuyendo la instancia fraccionalmente según las ramas posibles.
Poda pesimista
Método de reducción de complejidad en C4.5 que elimina ramas no esenciales utilizando una estimación estadística pesimista del error basada en la distribución binomial.
Boosting C5.0
Técnica de ensemble learning implementada en C5.0 que combina múltiples árboles de decisión débiles para crear un clasificador fuerte, mejorando significativamente la precisión de predicción.
Punto de corte óptimo
Valor umbral determinado por C4.5 para dividir un atributo continuo en dos intervalos, seleccionada para maximizar la ganancia de información de la división resultante.
Ganancia de información normalizada
Variante de la ganancia de información utilizada en ciertos contextos para evitar el sesgo, similar al ratio de ganancia pero con un enfoque matemático ligeramente diferente de normalización.
Árbol de decisión C4.5
Estructura jerárquica producida por el algoritmo C4.5 donde cada nodo interno representa una prueba en un atributo, cada rama representa un resultado de prueba, y cada hoja representa una etiqueta de clase.
Ventana deslizante C5.0
Optimización en C5.0 para procesar eficientemente grandes conjuntos de datos utilizando una ventana de muestras que se mueve a través del conjunto de datos completo durante la construcción del árbol.
Coeficiente de confianza
Parámetro en C4.5 (generalmente 25%) utilizado en la estimación del error para la poda, controlando el nivel de pesimismo en la evaluación del rendimiento de las ramas del árbol.
Reglas SI-ENTONCES C4.5
Representación alternativa de los árboles de decisión generada por C4.5 donde cada camino de la raíz a una hoja se convierte en una regla de clasificación condicional.
Complejidad computacional C4.5
Costo algorítmico de C4.5 del orden de O(n * m * log n) donde n es el número de instancias y m el número de atributos, optimizado mediante técnicas de ordenamiento y cálculo incremental.
División multivía
Capacidad de C4.5 para crear nodos con más de dos ramas para los atributos categóricos, a diferencia de otros algoritmos que se limitan a divisiones binarias.