Многоагентное обучение с подкреплением

📖

термины

Многоагентное обучение с подкреплением (MARL)

Парадигма обучения, в которой несколько агентов взаимодействуют и одновременно учатся в общей среде, часто конкурентно или кооперативно для максимизации коллективной или индивидуальной награды.

📖

термины

Игры с ненулевой суммой

Контекст взаимодействия, где общие выигрыши агентов не фиксированы, позволяя ситуации сотрудничества, когда агенты могут взаимно извлекать выгоду из своих действий для улучшения общей награды.

📖

термины

Децентрализованное Q-обучение

Вариант Q-обучения, где каждый агент независимо изучает свою собственную функцию значения Q без прямого обмена информацией о политиках или значениях других агентов.

📖

термины

Централизованное Q-обучение с децентрализованным выполнением (CTDE)

Фреймворк обучения, где агенты используют глобальную информацию (централизованную) во время фазы обучения для оценки действий, но принимают решения децентрализованно во время выполнения.

📖

термины

Расширение теории игр на среды, где переходы состояний и награды вероятностны, предоставляя формальную математическую модель для взаимодействий между множественными агентами в динамических контекстах.

📖

термины

Итеративная дилемма заключённого

Повторяющаяся версия дилеммы заключённого, используемая в MARL для изучения возникновения кооперативных или конкурентных стратегий на основе истории взаимодействий между агентами.

📖

термины

Многоагентные состязательные сети (Многоагентные GANs)

Применение генеративных состязательных сетей, где несколько агентов (генераторы и дискриминаторы) соревнуются, каждый обучаясь улучшать свою производительность в ответ на стратегии других.

📖

термины

Иерархическое многоагентное обучение с подкреплением

Подход, структурирующий обучение на нескольких уровнях, где агенты верхнего уровня определяют подзадачи для агентов нижнего уровня, облегчая решение сложных задач и координацию.

📖

термины

Экологическая стабильность

Проблема в MARL, когда среда, воспринимаемая агентом, постоянно меняется, так как другие агенты учатся и адаптируют свои политики, что делает обучение оптимальной политике особенно сложным.

📖

термины

Исследование против использования в мультиагентных системах

Дилемма, усложненная присутствием других агентов, где исследование одного агента может быть воспринято как шум или враждебное действие другими, а использование может зависеть от конкурирующих стратегий.

📖

термины

Многагентное обучение с обратным подкреплением

Техника, при которой агенты выводят функцию вознаграждения или намерения других агентов, наблюдая за их поведением, чтобы лучше предсказывать их действия и более эффективно сотрудничать или конкурировать.

📖

термины

Смешанные политики

Стратегия, при которой агент выбирает свои действия в соответствии с распределением вероятностей, а не детерминированно, что существенно для достижения равновесия Нэша в играх с нулевой суммой.

📖

термины

Формирование коалиций

Динамический процесс, в ходе которого подгруппы агентов объединяются для достижения общей цели, делясь вознаграждениями и информацией для улучшения своей производительности по сравнению с индивидуальными действиями.

📖

термины

Непрерывное обучение в мультиагентных системах

Проблема, заключающаяся в том, чтобы позволить агентам адаптировать свои политики к новым задачам или прибытию/уходу других агентов, не забывая ранее полученные знания, обеспечивая надежность и гибкость системы.

📖

термины

Мета-обучение в MARL

Подход, направленный на обучение агентов эффективно учиться в различных мультиагентных задачах, позволяющий им быстро адаптироваться к новым средам или конфигурациям агентов.

Глоссарий ИИ