抑制メカニズム

📖

用語

コンテンション

LLMの出力を制限または誘導し、望ましくない、危険な、または定義された範囲外のコンテンツの生成を防ぐための仕組み。

📖

用語

プロンプトガードレール

ユーザー入力に対して事前に適用される一連のルールおよびフィルターで、悪意のある、不適切な、またはモデルのセキュリティポリシーを回避しようとするリクエストを検出・ブロックするもの。

📖

用語

出力フィルタリング

LLMの応答を分析し、ユーザーに提示される前に禁止されたコンテンツを特定して削除する、生成後のセキュリティ仕組み。

📖

用語

ジェイルブレイク

LLMのコンテンションおよびセキュリティ仕組みを回避し、通常は禁止されている応答を強制的に生成させることを目的とした、一連のリバースエンジニアリング手法。

📖

用語

セーフティレイヤー

LLMの入力と出力をインターセプトし、セキュリティポリシーへの準拠を評価する、独立したソフトウェアコンポーネント（多くの場合、分類モデル）。

📖

用語

デコーディングアライメント

安全でないコンテンツに関連するトークンまたはトークンシーケンスの生成をペナルティとして課すために、デコーディングプロセス（ビーム探索、サンプリングなど）を修正する戦略。

📖

用語

自己批判

事前に定義された一連の基準（一貫性、安全性、正確性）に照らして生成された自身の応答を評価し、必要に応じて修正するLLMの能力。

📖

用語

敵対的サフィックス

LLMの内部動作を操作し、特定の出力を強制的に生成させるためにプロンプトの末尾に追加される、学習された文字シーケンス（ジェイルブレイク攻撃などでよく使用される）。

📖

用語

好好モデリング

回答のペア比較から人間の好みを学習し、報酬モデル（Reward Model）を作成するプロセスであり、RLHFにおいて不可欠です。

📖

用語

拒否トレーニング

LLMが不適切なリクエストを識別し、回答しようとする代わりに、礼儀正しく有益な拒否応答を生成することを学ぶ専門的なトレーニングフェーズです。

📖

用語

無害性分類

LLMの出力が「無害」か「有害」かを判断することを目的とする2値分類タスクで、多くの場合、安全フィルターとして実装されます。

📖

用語

追従性の緩和

ユーザーに気に入られようとして、ユーザーの誤った前提に同意しようとするLLMの傾向（これは真実性を損なう望ましくない行動です）を低減させることを目的とした一連の技術です。

📖

用語

モデルステアリング

生成を望ましく安全な回答空間へと導くために、推論中にLLMの挙動を動的に調整する技術で、多くの場合、ロジットの修正によって行われます。

AI用語集