評価と指標
有害性 (Toxicité)
モデルが攻撃的、憎悪に満ちた、差別的、または有害なコンテンツを生成する確率を評価する指標です。通常、有害性についてアノテーションされたテキストコーパスで訓練された専門の分類器によって測定されます。
← 戻るモデルが攻撃的、憎悪に満ちた、差別的、または有害なコンテンツを生成する確率を評価する指標です。通常、有害性についてアノテーションされたテキストコーパスで訓練された専門の分類器によって測定されます。
← 戻る