高斯混合模型 (GMM)

📖

術語

高斯混合模型

一种概率方法，将数据集建模为多个高斯分布的线性组合，以识别潜在结构。

📖

術語

EM算法

一种迭代参数估计方法，用于在具有潜在变量的模型中最大化似然，在E步（期望）和M步（最大化）之间交替进行。

📖

術語

多元高斯分布

正态分布向多维的推广，由均值向量和协方差矩阵定义，后者确定了概率椭球。

📖

術語

对数似然

似然函数的对数，用于避免数值下溢并简化GMM训练中的最大化计算。

📖

術語

赤池信息准则

一种评估指标，通过惩罚模型复杂度来平衡数据拟合度与简洁性，用于选择最优分量数。

📖

術語

贝叶斯信息准则

一种比AIC更严格的模型选择标准，对参数数量施加更强的惩罚，以倾向于更简单的模型。

📖

術語

概率聚类

一种分区方法，为每个簇分配隶属概率而非二元分配，从而实现数据的软分类。

📖

術語

协方差退化

一种数值问题，指协方差矩阵变为奇异矩阵，需要通过正则化技术或对协方差结构施加约束来解决。

📖

術語

混合权重

表示每个高斯分量中预期数据比例的参数πk，被约束为正值且总和为一。

📖

術語

K-means++初始化

一种用于EM算法的智能初始化策略，它使用K-means++来分散初始中心，以避免陷入次优的局部最小值。

📖

術語

对角正则化

一种在协方差矩阵的对角线上添加一个小的正值的技术，以确保其可逆性和数值稳定性。

📖

術語

算法收敛

基于连续迭代间对数似然的相对变化，或基于预定义的最大迭代次数的停止准则。

📖

術語

最优分量数

通过交叉验证或信息准则来确定最优参数K，以平衡模型复杂度与数据拟合质量。

📖

術語

混合密度

由模型中每个高斯分量的个体密度加权组合而产生的概率密度函数。

📖

術語

责任

表示观测值n属于分量k的概率的值γ(z_nk)，在EM算法的E步中计算得出。

📖

術語

矩估计法

一种替代EM的估计技术，它使用数据的经验矩来初始化混合模型的参数。

AI 詞彙表