安全性とアライメント

📖

用語

ジェイルブレイク

言語モデルのセキュリティメカニズムを意図的に迂回し、通常は制限されているコンテンツを生成させるプロセス。

📖

用語

RLHF

LLMの振る舞いを人間の好みに合わせるために、人間からのフィードバックに基づいた強化学習を利用する訓練手法。

📖

用語

レッドチーミング

専門チームが攻撃をシミュレートし、モデルの脆弱性を体系的にテストしてセキュリティ上の弱点を特定するプロセス。

📖

用語

セーフティレイヤー

最終的な生成前に、潜在的に危険または不適切な出力をフィルタリング・修正するためにLLMに統合された追加の保護層。

📖

用語

コンテンツモデレーション

言語モデルとの対話における不適切、憎悪的、または危険なコンテンツを検出・フィルタリングする自動化システム。

📖

用語

倫理的アライメント

AIの意思決定と行動が、基本的な倫理原則と受け入れ可能な社会規範を尊重するように保証するプロセス。

📖

用語

価値アライメント

AIシステムの目的と行動を、複雑でしばしば暗黙的な人間の価値観と一致させることを目指す研究分野。

📖

用語

ガードレール

LLMの振る舞いを、事前に定義された安全かつ倫理的な範囲内に制限するために実装された、予防的および反応的な制御メカニズム。

📖

用語

出力フィルタリング

LLMが生成した応答に適用される後処理技術で、ユーザーに提供される前に不適切なコンテンツを検出しブロックします。

📖

用語

憲法原則

AIシステムの許容可能および許容不可能な動作を定義する基本的かつ明示的なルールの集合で、運用倫理フレームワークとして機能します。

📖

用語

有害コンテンツ検出

言語モデルの生成物において、潜在的に有害、危険、または不適切なコンテンツを特定する自動分類システム。

📖

用語

バイアス緩和

AIモデルに存在する体系的なバイアスを削減または排除し、公平で差別的でない応答を保証するための技術の集合。

📖

用語

安全性制約

セキュリティポリシーや適用される規制に違反するコンテンツの生成を防ぐために、LLMにプログラムされた運用上の制限。

📖

用語

嗜好モデリング

AIモデルをユーザーが望ましいと判断する行動へ導くため、複雑な人間の嗜好を学習するプロセス。

📖

用語

報酬ハッキング

モデルが報酬関数を文字通りしかし意図しない方法で最適化し、望ましくないが報酬される行動を生成する現象。

📖

用語

AI安全性研究

AIシステムが安全かつ有益に機能することを保証するための方法と技術の開発に特化した研究分野。

📖

用語

憲法監督

AIモデルが憲法原則と確立された倫理的制約を常に遵守することを保証する継続的監視メカニズム。

AI用語集