GPT (Generative Pre-trained Transformer)
RLHF (Reinforcement Learning from Human Feedback)
Парадигма выравнивания, в которой модель донастраивается с помощью обучения с подкреплением, используя вознаграждения, полученные из человеческих предпочтений, для калибровки её поведения.
← Назад