外部验证 - AI 术语表

📖

个术语

保留集（Holdout Set）是指在模型训练过程中单独保留的一部分数据，不用于训练，而是用于客观评估模型的最终性能。该数据集在最终评估前完全隔离，以避免信息泄露。

📖

个术语

真实世界测试（Real-world Testing）是指在实际操作环境中部署模型，以评估其在自然使用场景下的性能。这种测试通常能揭示在实验室验证中未观察到的意外行为。

📖

个术语

生产测试（Production Testing）是指模型部署到生产环境后进行的持续验证过程，用于监控其性能并检测任何性能下降。这一步骤对于维护人工智能系统在运行环境中的可靠性至关重要。

📖

个术语

影子模式测试（Shadow Mode Testing）是一种验证方法，新模型与生产系统并行运行，但不影响最终决策，从而比较其与当前模型的性能。这种方法在评估新版本时能最大限度降低风险。

📖

个术语

时间验证（Temporal Validation）是一种遵循数据时间顺序的验证策略，仅使用过去的数据进行训练，而用未来的数据进行测试。这种方法模拟真实部署条件，避免时间信息泄露。

📖

个术语

地理验证（Geographic Validation）是一种外部验证方法，模型在与训练数据不同的地理区域的数据上进行测试。这种技术对于评估模型的空间泛化能力至关重要。

📖

个术语

群体漂移（Population Shift）指的是模型训练与部署之间目标群体的人口统计或统计特征发生变化。这种现象可能显著影响模型的性能和预测公平性。

📖

个术语

环境验证（Environmental Validation）是指在不同环境条件（如光照、噪声、温度）下测试模型，以评估其对外部因素的鲁棒性。这种验证对视觉系统和物联网传感器尤为重要。

📖

个术语

在从多个不同地点或机构收集的数据上评估模型性能，以测试其泛化能力。这种方法在医学领域是标准做法，用于确保诊断模型的有效性。

AI 词汇表