Glosario IA
El diccionario completo de la Inteligencia Artificial
Imputación por la media
Técnica de imputación que reemplaza los valores faltantes por la media calculada sobre las observaciones disponibles de la misma variable. Este método simple preserva la media global de la variable pero puede subestimar la varianza.
Imputación por la mediana
Método robusto que sustituye los valores faltantes por la mediana de los valores observados, particularmente adaptado a distribuciones asimétricas. Este enfoque minimiza la influencia de los valores atípicos comparado con la imputación por la media.
Imputación KNN
Algoritmo que imputa los valores faltantes basándose en los k vecinos más cercanos en el espacio de características, utilizando un promedio ponderado de los valores vecinos. Este método preserva las relaciones locales entre variables pero puede ser costoso computacionalmente.
Imputación múltiple
Enfoque estadístico avanzado que genera múltiples valores imputados para cada dato faltante, reflejando la incertidumbre de la imputación. Los resultados se combinan posteriormente para producir estimaciones más robustas e intervalos de confianza válidos.
Imputación por regresión
Técnica que predice los valores faltantes utilizando un modelo de regresión basado en las otras variables disponibles como predictores. Este método captura las relaciones lineales entre variables pero puede introducir un sesgo de regresión hacia la media.
Imputación EM
Algoritmo Expectation-Maximization que estima iterativamente los parámetros del modelo e imputa los valores faltantes maximizando la verosimilitud. Este enfoque estadístico es particularmente eficaz para datos faltantes bajo el supuesto MAR (Missing At Random).
Imputación hot-deck
Método que reemplaza cada valor faltante por un valor observado de un donante similar seleccionado aleatoriamente en el mismo conjunto de datos. Esta técnica preserva la distribución original de los datos y las correlaciones entre variables.
Imputación por interpolación
Técnica utilizada principalmente para series temporales que estima los valores faltantes basándose en los valores temporales adyacentes (lineal, spline, polinomial). Este método mantiene la continuidad temporal y las tendencias subyacentes.
Imputación MICE
Imputación Múltiple por Ecuaciones Encadenadas, método que imputa cada variable con un modelo específico adaptado a su naturaleza, iterando hasta la convergencia. Este enfoque flexible maneja diferentes tipos de variables y relaciones complejas.
Imputación por matrices complementarias
Técnica que descompone la matriz de datos en matrices de rango bajo para predecir los valores faltantes, utilizando métodos como SVD (Descomposición en Valores Singulares). Este enfoque captura las estructuras latentes en los datos multidimensionales.
Imputación por autoencoder
Enfoque de aprendizaje profundo que entrena una red neuronal para comprimir y luego reconstruir los datos, aprendiendo así a predecir los valores faltantes. Este método captura relaciones no lineales complejas en datos de alta dimensión.
Imputación bayesiana
Método que utiliza distribuciones a priori y el teorema de Bayes para estimar los valores faltantes, generando distribuciones posteriores para cada imputación. Este enfoque cuantifica naturalmente la incertidumbre e incorpora conocimientos del dominio.
Imputación MissForest
Algoritmo no paramétrico basado en bosques aleatorios que imputa los valores faltantes utilizando modelos de árboles de decisión entrenados en las observaciones completas. Este método maneja eficientemente las interacciones no lineales y los diferentes tipos de variables.
Imputación por clustering
Técnica que agrupa las observaciones similares y luego imputa los valores faltantes utilizando las estadísticas (media, mediana) del cluster correspondiente. Este enfoque preserva las estructuras subyacentes en los datos multimodales.
Imputación por cadenas de Markov
Método que modela las transiciones entre estados de datos para predecir los valores faltantes basándose en los estados anteriores o siguientes en una secuencia. Esta técnica es particularmente adecuada para datos secuenciales y temporales.
Imputación por árbol de decisión
Enfoque que utiliza árboles de decisión para predecir los valores faltantes basándose en las reglas de segmentación aprendidas a partir de las observaciones completas. Este método captura automáticamente las interacciones no lineales entre variables.
Imputación por ACP
Técnica basada en el Análisis de Componentes Principales que proyecta los datos en un espacio de dimensión reducida y luego reconstruye los valores faltantes. Este método es eficaz para datos multivariados con estructura de correlación fuerte.
Imputación por valor constante
Estrategia simple que reemplaza todos los valores faltantes por una constante predefinida (a menudo 0, -1, o un valor específico del dominio). Este método es rápido pero puede introducir un sesgo significativo si la constante no se elige juiciosamente.