AI 词汇表
人工智能完整词典
k-Plus Proches Voisins (k-NN)
Algorithme d'apprentissage supervisé non paramétrique qui classe une nouvelle observation en fonction de la classe majoritaire de ses k voisins les plus proches dans l'espace des caractéristiques.
Distance Euclidienne
Mesure de distance standard dans l'espace euclidien, calculée comme la racine carrée de la somme des carrés des différences entre les coordonnées de deux points.
Distance de Manhattan
Mesure de distance calculée comme la somme des valeurs absolues des différences entre les coordonnées de deux points, également appelée distance L1 ou distance taxi.
Distance de Minkowski
Métrique de distance généralisée qui inclut la distance euclidienne (p=2) et Manhattan (p=1) comme cas particuliers, définie par la racine p-ième de la somme des différences absolues élevées à la puissance p.
Pondération par la Distance
Variante du vote majoritaire où les voisins plus proches ont plus d'influence sur la classification finale, généralement en utilisant l'inverse de la distance comme poids.
KD-Tree
Structure de données partitionnant l'espace k-dimensionnel pour accélérer la recherche des plus proches voisins, réduisant la complexité de O(n) à O(log n) en moyenne.
Ball Tree
Structure de données hiérarchique qui organise les points dans des sphères imbriquées, efficace pour les recherches de plus proches voisins en haute dimension où les KD-Tree deviennent inefficaces.
Malédiction de la Dimensionnalité
Phénomène où la performance des algorithmes basés sur la distance se dégrade en haute dimension car toutes les distances tendent à devenir équivalentes, rendant la notion de 'plus proche' moins significative.
超参数k
在k-NN算法中要考虑的邻居数量,对偏差和方差之间的平衡至关重要:小的k创建复杂模型,大的k创建更平滑的模型。
数据标准化
k-NN的重要预处理步骤,将特征调整到相同尺度,以避免值范围大的变量主导距离计算。
k-NN回归
k-NN的变体,其中预测是k个最近邻居值的平均值(或加权平均值),而不是多数类投票。
汉明距离
用于二元分类数据的距离度量,计算为两个向量不同位置的数量,当特征为二元或分类时使用。
肘部方法
通过绘制误差率随k变化的图表来选择最优k的技术,选择改进开始显著减少的点(即'肘部')。
K折交叉验证
k-NN的鲁棒评估方法,将数据分成k个子集,允许可靠地估计性能并帮助选择最优k。
穷举搜索
找到k个最近邻居的朴素方法,通过计算到数据集中所有点的距离,每次查询复杂度为O(n)。
近似最近邻(ANN)
找到近似最近邻居的算法族,在精度和速度之间进行权衡,对于大数据集至关重要。