AI用語集
人工知能の完全辞典
ホールドアウトセット
モデルのトレーニング中には使用せず、最終的なパフォーマンスを客観的に評価するために別途保持されるデータのサブセット。情報の混入を防ぐため、最終評価まで完全に隔離された状態で維持される。
実世界テスト
モデルを実際の運用環境に展開し、自然な使用状況下でのパフォーマンスを評価する検証フェーズ。実験室での検証では観測されなかった予期せぬ動作を明らかにすることが多い。
プロダクションテスト
本番環境へのデプロイ後、モデルのパフォーマンスを継続的に検証し、劣化を検出するプロセス。運用環境におけるAIシステムの信頼性を維持するために不可欠なステップ。
シャドウモードテスト
新しいモデルが本番システムと並行して実行され、最終的な決定に影響を与えることなく、現在のモデルとのパフォーマンス比較を可能にする検証方法。新バージョンの評価におけるリスクを最小限に抑えるアプローチ。
時間的検証
データの時間的順序を尊重し、過去のデータのみをトレーニングに、未来のデータをテストに使用する検証戦略。実際のデプロイメント状況を模倣し、時間的な情報漏洩を防ぐ。
地理的検証
トレーニングに使用された地域とは異なる地理的領域からのデータでモデルをテストする外部検証。モデルの空間的汎化能力を評価するために重要な技術。
人口シフト
モデルのトレーニングとデプロイメントの間における対象人口の人口統計学的または統計的特性の変化。パフォーマンスと予測の公平性に大きな影響を与える可能性がある現象。
環境検証
様々な環境条件(光、騒音、温度)下でモデルをテストし、外部要因に対する堅牢性を評価する。コンピュータビジョンシステムやIoTセンサーにとって特に重要な検証。
マルチサイト検証
モデルの一般化可能性をテストするために、複数のサイトや機関から収集されたデータを用いてモデルの性能を評価すること。医療分野では診断モデルの妥当性を保証するための標準的なアプローチである。