白盒模型 - AI 术语表

📖

个术语

线性回归

一种统计模型，通过最小化残差平方和来建立因变量与一个或多个自变量之间的线性关系。该模型被认为是白盒模型，因为系数可以直接解释为每个变量对预测的影响。

📖

个术语

K近邻算法（KNN）

一种监督学习算法，基于特征空间中k个最近邻的多数类别对新样本进行分类。该模型完全可解释，因为可以通过明确显示用于决策的邻居来解释预测结果。

📖

个术语

关联规则

在大型数据库中发现变量之间关系的方法，通常以IF-THEN形式表示，并带有支持度和置信度度量。这些规则本质上是可解释的，因为它们直接表达了属性之间可理解的逻辑关系。

📖

个术语

广义线性模型（GLM）

线性回归的扩展，允许非正态的响应分布和非线性链接函数，同时保持加性结构。GLM仍然可解释，因为系数可以转换以揭示每个预测变量的边际效应。

📖

个术语

广义加性模型（GAM）

GLM的扩展，其中预测是各个变量的平滑函数之和，而不是线性项。GAM具有很高的可解释性，因为它们允许分别可视化每个变量对预测的影响，同时捕捉非线性关系。

📖

个术语

线性判别分析（LDA）

一种分类方法，通过最大化类间方差与类内方差的比率来寻找能够最好地分离两个或多个类别的特征线性组合。可解释性来自于特征向量，这些向量指示了特征空间中最具判别性的方向。

📖

个术语

CART决策树

构建决策树的算法，使用基尼指数进行分类，使用均方误差进行回归，并在每个节点进行二元分割。CART树的二元结构便于解释决策路径和提取的规则。

📖

个术语

ID3算法

一种历史性的决策树构建算法，使用基于熵的信息增益来选择分割属性。ID3产生高度可解释的树，其中每条路径都代表基于二元或多类测试的清晰决策规则。

📖

个术语

C4.5算法

ID3算法的改进版本，使用信息增益比来避免对具有多个值的属性产生偏见，并处理连续属性和缺失值。C4.5生成优化的决策树，同时保持决策过程的完全可解释性。

📖

个术语

CHAID算法

一种决策树构建算法，对分类变量使用卡方检验，对连续变量使用F检验，采用多路分割而非二元分割。CHAID特别适用于调查和营销数据，生成高度可解释的决策树。

📖

个术语

决策列表

一种分类结构，表示为有序的IF-THEN规则序列，每条规则按顺序测试直到满足条件。决策列表比决策树具有更好的可解释性，因为它呈现的是线性决策流程而非复杂的树状结构。

📖

个术语

基于规则的模型

使用一组逻辑规则进行分类或回归预测的系统，通常组织为覆盖集或决策列表。这些模型是最具可解释性的模型之一，因为每个预测都可以通过一个或多个非专家也能理解的明确规则来解释。

📖

个术语

简单感知器

一种二元线性分类算法，通过基于分类错误迭代调整权重来学习分离超平面。虽然简单，但感知器仍然具有可解释性，因为可以通过检查权重来理解每个特征的重要性和影响方向。

📖

个术语

泊松回归

用于计数数据的回归模型，假设响应变量服从泊松分布，使用对数连接函数作为均值函数。模型的指数化系数可以直接解释为预期事件率的乘数。

📖

个术语

随机梯度提升(SGB)

一种集成方法，通过顺序构建每个新模型来纠正前一个模型的错误，从而组合简单的可解释模型（通常是浅层树）。虽然功能强大，但使用浅层树的SGB通过每个单独树的贡献保持了一定的可解释性。

AI 词汇表