Глоссарий ИИ
Полный словарь искусственного интеллекта
Многоагентное обучение с подкреплением (MARL)
Парадигма обучения, в которой несколько агентов взаимодействуют и одновременно учатся в общей среде, часто конкурентно или кооперативно для максимизации коллективной или индивидуальной награды.
Игры с ненулевой суммой
Контекст взаимодействия, где общие выигрыши агентов не фиксированы, позволяя ситуации сотрудничества, когда агенты могут взаимно извлекать выгоду из своих действий для улучшения общей награды.
Децентрализованное Q-обучение
Вариант Q-обучения, где каждый агент независимо изучает свою собственную функцию значения Q без прямого обмена информацией о политиках или значениях других агентов.
Централизованное Q-обучение с децентрализованным выполнением (CTDE)
Фреймворк обучения, где агенты используют глобальную информацию (централизованную) во время фазы обучения для оценки действий, но принимают решения децентрализованно во время выполнения.
Теория стохастических игр
Расширение теории игр на среды, где переходы состояний и награды вероятностны, предоставляя формальную математическую модель для взаимодействий между множественными агентами в динамических контекстах.
Итеративная дилемма заключённого
Повторяющаяся версия дилеммы заключённого, используемая в MARL для изучения возникновения кооперативных или конкурентных стратегий на основе истории взаимодействий между агентами.
Многоагентные состязательные сети (Многоагентные GANs)
Применение генеративных состязательных сетей, где несколько агентов (генераторы и дискриминаторы) соревнуются, каждый обучаясь улучшать свою производительность в ответ на стратегии других.
Иерархическое многоагентное обучение с подкреплением
Подход, структурирующий обучение на нескольких уровнях, где агенты верхнего уровня определяют подзадачи для агентов нижнего уровня, облегчая решение сложных задач и координацию.
Экологическая стабильность
Проблема в MARL, когда среда, воспринимаемая агентом, постоянно меняется, так как другие агенты учатся и адаптируют свои политики, что делает обучение оптимальной политике особенно сложным.
Исследование против использования в мультиагентных системах
Дилемма, усложненная присутствием других агентов, где исследование одного агента может быть воспринято как шум или враждебное действие другими, а использование может зависеть от конкурирующих стратегий.
Многагентное обучение с обратным подкреплением
Техника, при которой агенты выводят функцию вознаграждения или намерения других агентов, наблюдая за их поведением, чтобы лучше предсказывать их действия и более эффективно сотрудничать или конкурировать.
Смешанные политики
Стратегия, при которой агент выбирает свои действия в соответствии с распределением вероятностей, а не детерминированно, что существенно для достижения равновесия Нэша в играх с нулевой суммой.
Формирование коалиций
Динамический процесс, в ходе которого подгруппы агентов объединяются для достижения общей цели, делясь вознаграждениями и информацией для улучшения своей производительности по сравнению с индивидуальными действиями.
Непрерывное обучение в мультиагентных системах
Проблема, заключающаяся в том, чтобы позволить агентам адаптировать свои политики к новым задачам или прибытию/уходу других агентов, не забывая ранее полученные знания, обеспечивая надежность и гибкость системы.
Мета-обучение в MARL
Подход, направленный на обучение агентов эффективно учиться в различных мультиагентных задачах, позволяющий им быстро адаптироваться к новым средам или конфигурациям агентов.