モデルの頑健性

📖

用語

敵対的機械学習

機械学習モデルの脆弱性について研究する分野で、悪意のある攻撃によってモデルを欺いたり性能を低下させたりすることを目的としている。この分野では同時に、攻撃技術と防御戦略を開発し、AIシステムのセキュリティを強化する。

📖

用語

回避攻撃

既に訓練されたモデルを誤らせるために、入力データに知覚できないほどの摂動を適用する攻撃手法。これらの攻撃は、モデルの内部パラメータを変更することなく、モデルの決定を回避することを目的としている。

📖

用語

データポイズニング

訓練データセットに悪意のあるデータを注入し、最終的なモデルの性能を損なう攻撃手法。目的は、バックドアを作成したり、特定のターゲットで予測を体系的に低下させたりすることである。

📖

用語

敵対的トレーニング

モデルのロバスト性を向上させるために、敵対的サンプルを積極的に学習プロセスに組み込む訓練方法。このアプローチは、モデルが本番環境で遭遇する可能性のある攻撃タイプにさらされる。

📖

用語

ランダムスムージング

入力にガウシアンノイズを追加し、複数のノイズサンプルで多数決によって分類する認証済み防御技術。この方法は、有界摂動に対するモデルのロバスト性に関する数学的保証を提供する。

📖

用語

抽出攻撃

APIにクエリを送信し、その応答を分析することで、プロプライエタリなモデルを複製または盗もうとする攻撃戦略。これらの攻撃は、予測を通じて漏洩する情報を悪用して、モデルまたはその訓練データを再構築する。

📖

用語

堅牢性認証

定義された半径内のすべての摂動に対して、モデルが正しい予測を維持することを形式的に保証する数学的プロセス。この認証は、攻撃に対するモデルの脆弱性の上限を提供する。

📖

用語

勾配マスキング

モデルの勾配を変更またはマスキングして、攻撃者が効果的な敵対的摂動を計算できないようにする防御技術。効果的と思われることが多いが、このアプローチはより洗練された攻撃によって回避されることが多い。

📖

用語

普遍的敵対的攻撃

単一の摂動が多種多様な異なる入力に対してモデルを効果的に騙すことができる攻撃タイプ。これらの攻撃は特に危険であり、各サンプルに固有の摂動を計算する必要がないためです。

📖

用語

堅牢なコントラスト学習

サンプルの表現と敵対的に拡張されたバージョン間の類似性を最大化する学習アプローチ。この方法は、モデルが悪意のある摂動に対して不変な特徴を発展させることを奨励します。

📖

用語

敵対的例の検出

メインモデルによって処理される前に、潜在的に操作された入力を自動的に識別することを目的とする一連の技術。これらのシステムは、メタ分類器や活性化の統計的分析をよく使用します。

📖

用語

検証によるトレーニング

指定された堅牢性の特性を保証するために、形式的検証器を学習ループに統合するトレーニング手法。このアプローチは、パフォーマンスの最適化と数学的に証明された安全性の制約を組み合わせます。

📖

用語

物理的敵対的攻撃

視覚システムを騙すために、敵対的摂動が実際の世界で物理的オブジェクトに適用される攻撃。これらの攻撃は、照明条件、視角、その他の環境変数を考慮する必要があります。

AI用語集