Glosario IA
El diccionario completo de la Inteligencia Artificial
k-Plus Proches Voisins (k-NN)
Algorithme d'apprentissage supervisé non paramétrique qui classe une nouvelle observation en fonction de la classe majoritaire de ses k voisins les plus proches dans l'espace des caractéristiques.
Distance Euclidienne
Mesure de distance standard dans l'espace euclidien, calculée comme la racine carrée de la somme des carrés des différences entre les coordonnées de deux points.
Distance de Manhattan
Mesure de distance calculée comme la somme des valeurs absolues des différences entre les coordonnées de deux points, également appelée distance L1 ou distance taxi.
Distance de Minkowski
Métrique de distance généralisée qui inclut la distance euclidienne (p=2) et Manhattan (p=1) comme cas particuliers, définie par la racine p-ième de la somme des différences absolues élevées à la puissance p.
Pondération par la Distance
Variante du vote majoritaire où les voisins plus proches ont plus d'influence sur la classification finale, généralement en utilisant l'inverse de la distance comme poids.
KD-Tree
Structure de données partitionnant l'espace k-dimensionnel pour accélérer la recherche des plus proches voisins, réduisant la complexité de O(n) à O(log n) en moyenne.
Ball Tree
Structure de données hiérarchique qui organise les points dans des sphères imbriquées, efficace pour les recherches de plus proches voisins en haute dimension où les KD-Tree deviennent inefficaces.
Malédiction de la Dimensionnalité
Phénomène où la performance des algorithmes basés sur la distance se dégrade en haute dimension car toutes les distances tendent à devenir équivalentes, rendant la notion de 'plus proche' moins significative.
Hiperparámetro k
Número de vecinos a considerar en el algoritmo k-NN, crucial para el equilibrio entre sesgo y varianza: un k pequeño crea un modelo complejo, un k grande crea un modelo más suave.
Estandarización de Datos
Preprocesamiento esencial para k-NN donde las características se ponen en la misma escala para evitar que las variables con grandes rangos de valores dominen el cálculo de distancia.
k-NN para Regresión
Variante de k-NN donde la predicción es el promedio (o promedio ponderado) de los valores de los k vecinos más cercanos en lugar de un voto de clase mayoritaria.
Distancia de Hamming
Medida de distancia para datos categóricos binarios, calculada como el número de posiciones donde dos vectores difieren, utilizada cuando las características son binarias o categóricas.
Método del Codo
Técnica de selección de k óptimo trazando la tasa de error en función de k y eligiendo el punto donde la mejora comienza a disminuir significativamente (el 'codo').
Validación Cruzada K-Fold
Método de evaluación robusto para k-NN donde los datos se dividen en k subconjuntos, permitiendo una estimación confiable del rendimiento y ayudando en la elección del k óptimo.
Búsqueda Exhaustiva
Enfoque ingenuo para encontrar los k vecinos más cercanos calculando la distancia a todos los puntos del conjunto de datos, con complejidad O(n) por consulta.
Vecino Más Cercano Aproximado (ANN)
Familia de algoritmos que encuentran vecinos aproximadamente más cercanos con un compromiso entre precisión y velocidad, esencial para grandes conjuntos de datos.