Многоцелевое Q-обучение
Вектор вознаграждения
Многомерный вектор вознаграждений, где каждый компонент соответствует вознаграждению, связанному с конкретной целью, заменяя традиционный скалярный сигнал вознаграждения.
← Назад