Федеративное обучение с подкреплением

📖

термины

Федеративное обучение с подкреплением

Парадигма машинного обучения, сочетающая принципы обучения с подкреплением с федеративным обучением, позволяющая множеству агентов коллективно обучаться без обмена исходными данными. Агенты выполняют локальное обучение, а затем агрегируют свои знания для улучшения общей глобальной политики.

📖

термины

Федеративный агент

Автономная обучающаяся сущность, работающая в распределенной среде, которая участвует в процессе федеративного обучения, сохраняя конфиденциальность своих локальных данных. Агент принимает решения на основе своей локальной политики, одновременно способствуя улучшению глобальной модели.

📖

термины

Глобальная политика

Консолидированная стратегия принятия решений, являющаяся результатом агрегации локальных политик различных агентов-участников в системе федеративного обучения. Эта политика представляет коллективные знания и периодически распределяется между агентами для руководства их будущими действиями.

📖

термины

Агрегация политик

Алгоритмический процесс объединения политик или параметров обучения от множества локальных агентов для формирования улучшенной глобальной политики. Агрегация обычно использует методы взвешенного усреднения или более сложные методы, такие как FedAvg, адаптированный для обучения с подкреплением.

📖

термины

Синхронная коммуникация

Режим координации, при котором все федеративные агенты должны завершить свой цикл локального обучения перед проведением глобальной агрегации. Этот подход гарантирует временную согласованность, но может создавать узкие места из-за более медленных агентов.

📖

термины

Дифференциальная конфиденциальность

Формальная структура, гарантирующая, что вклад отдельного агента не может быть существенно выведен из агрегированной глобальной модели. В федеративном контексте она защищает от атак на вывод данных, одновременно позволяя эффективное совместное обучение.

📖

термины

Федеративное многопользовательское обучение

Расширение федеративного обучения с подкреплением, где несколько агентов взаимодействуют в потенциально разных средах, но делятся знаниями для коллективного улучшения своей производительности. Этот подход сочетает проблемы координации множества агентов с ограничениями федеративной конфиденциальности.

📖

термины

Федеративная сходимость

Свойство, гарантирующее, что алгоритм федеративного обучения с подкреплением достигает оптимальной или почти оптимальной политики, несмотря на распределенность данных и ограниченную коммуникацию. Сходимость зависит от таких факторов, как неоднородность данных, частота коммуникации и метод агрегации.

📖

термины

Федеративный градиент

Градиент глобальной целевой функции, вычисленный распределенным способом из локальных градиентов различных участвующих агентов. Федеративные градиенты позволяют обновлять параметры модели без раскрытия конфиденциальных данных агентов.

📖

термины

Локальный опыт

Набор переходов состояние-действие-вознаграждение, накопленных отдельным агентом в его специфической среде в течение цикла локального обучения. Этот опыт остается приватным и используется только для вычисления локальных обновлений перед агрегацией.

📖

термины

Децентрализованная координация

Механизм, позволяющий агентам согласовывать общие цели без явной централизации, использующий протоколы связи peer-to-peer или консенсуса. В федеративном обучении она возникает через итеративную агрегацию локальных политик.

📖

термины

Взвешенная агрегация

Техника агрегации локальных вкладов, где каждому агенту присваивается вес на основе качества или количества его данных, его производительности или других релевантных метрик. Этот подход позволяет оказывать большее влияние более надежным или репрезентативным агентам.

📖

термины

Федеративное исследование

Распределенная стратегия исследования, где агенты исследуют различные пространства состояний-действий скоординированным образом для максимизации коллективного открытия при минимизации избыточности. Федеративное исследование оптимизирует эффективность обучения в сложных и распределенных средах.

📖

термины

Распределенное вознаграждение

Система вознаграждений, где агенты получают локальные отклики на основе своих действий, одновременно внося вклад в общую глобальную цель. Распределенные вознаграждения должны балансировать индивидуальные стимулы с коллективной производительностью федеративной системы.

📖

термины

Федеративный перенос знаний

Процесс избирательного переноса знаний, изученных одним агентом или группой агентов, к другим агентам федеративной сети. Этот перенос оптимизирует эффективность обучения, используя успешный опыт при соблюдении ограничений конфиденциальности.

📖

термины

Устойчивость к сбоям

Способность системы федеративного обучения поддерживать свою производительность несмотря на отключения, вредоносное поведение или деградацию некоторых участвующих агентов. Устойчивость необходима для гарантии надежности в неконтролируемых распределенных средах.

Глоссарий ИИ