アラインメントと安全性

📖

用語

憲法AI

モデルが事前に定義された一連の原則や憲法に従い、これらの倫理的ルールに基づいて自己評価し回答を修正することを可能にするアライメント方法論。

📖

用語

レッドチーミング

専門家がモデルの脆弱性を体系的に評価するプロセス。望ましくないまたは危険な行動を積極的に引き起こし、弱点を特定・修正することを目的とする。

📖

用語

安全性アライメント

言語モデルが有害、危険、または不適切なコンテンツの生成を回避しながら、全体的な性能を維持することを保証するための技術の集合。

📖

用語

価値観アライメント

AIシステムの目標と行動を人間の基本的価値観に合わせるプロセス。人間の好みと倫理に対する微妙な理解を必要とする。

📖

用語

モデルジェイルブレイキング

モデルの安全性とアライメントのメカニズムを迂回し、通常制限または禁止されているコンテンツを生成させるように強制するように設計された攻撃技術。

📖

用語

報酬モデリング

報酬モデルが人間の好みを予測することを学び、主要な言語モデルの強化学習訓練のガイドとして機能するアプローチ。

📖

用語

憲法原則

AIモデルの行動を導き、望ましい価値観との一貫性と整合性を保証する、明示的に定義された基本的なルールと原則の集合。

📖

用語

選好学習

モデルが異なる選択肢の比較から学習し、人間の選好を捉えてそれに合わせる機械学習の分野。

📖

用語

無害性トレーニング

モデルが潜在的に有害、危険、またはユーザーに不利益をもたらすコンテンツを生成することを避けるように教える特定のトレーニングプロセス

📖

用語

真実性アライメント

モデルが事実に基づいた正確な情報を提供し、幻覚や検証されていない主張を避けることを保証するためのアライメント目標

📖

用語

バイアス軽減

言語モデルにおける体系的なバイアスを特定、定量化、削減するための技術の集合。公平で差別のない表現を保証する

📖

用語

ガードレール

危険または不適切な相互作用をリアルタイムで防止するために、AIシステムに組み込まれた入出力を監視・フィルタリングする安全メカニズム

📖

用語

憲法的監督

モデルが明示的な憲法によって導かれ、これらの指針原則に従って自らの応答を自己批判し改善することを可能にする監督方法

📖

用語

人間選好データ

異なるモデル応答間の人間による比較評価から収集されたデータセット。アライメントトレーニングと最適化の基礎として機能する

📖

用語

安全性ファインチューニング

初期事前学習後の特定の調整段階。モデルの動作を微調整して安全性と倫理の制約を遵守させることを目的とする

📖

用語

アライメント分類体系

AIにおける様々なタイプと次元のアライメントを体系的に分類したもの。価値観のアライメント、安全性、堅牢性、モデルの解釈可能性を含む

AI用語集