Aprendizaje por Refuerzo Profundo Multiagente

📖

términos

MARL (Aprendizaje por Refuerzo Multiagente)

Paradigma de aprendizaje donde múltiples agentes interactúan simultáneamente en un entorno compartido, aprendiendo políticas óptimas individual o colectivamente.

📖

términos

Entrenamiento Centralizado con Ejecución Descentralizada (CTDE)

Enfoque donde los agentes se entrenan utilizando información global centralizada pero ejecutan sus políticas de manera descentralizada con observaciones locales.

📖

términos

QMIX (Mezcla de Valores Q)

Algoritmo de descomposición del valor Q que representa el valor Q conjunto como una combinación no lineal monótona de los valores Q individuales de los agentes.

📖

términos

VDN (Redes de Descomposición de Valor)

Método de factorización del valor total que descompone el valor conjunto en la suma de los valores individuales de cada agente en un marco cooperativo.

📖

términos

MADDPG (Gradiente de Política Determinista Profundo Multiagente)

Extensión de DDPG a entornos multiagentes utilizando entrenamiento centralizado con ejecución descentralizada para entornos mixtos.

📖

términos

COMA (Gradientes de Política Multiagente Contrafactual)

Algoritmo que utiliza bases contrafactuales para estimar cómo las acciones individuales afectan la recompensa global modificando la política de un agente mientras mantiene los demás fijos.

📖

términos

Dec-POMDP (Proceso de Decisión de Markov Parcialmente Observable Descentralizado)

Formalización matemática de problemas de decisión secuencial multiagente con observación parcial y toma de decisiones descentralizada.

📖

términos

Asignación de Crédito

Problema fundamental que consiste en determinar la contribución de cada agente a la recompensa colectiva en entornos multiagentes cooperativos.

📖

términos

Aprendizaje de Acción Conjunta

Técnica donde los agentes aprenden a coordinar sus acciones considerando las acciones simultáneas de todos los agentes en el entorno.

📖

términos

Modelado de Agentes

Capacidad de un agente para construir y mantener modelos mentales de las intenciones, creencias y políticas de otros agentes en el entorno.

📖

términos

Teoría de Campo Medio en MARL

Enfoque teórico que trata las interacciones multiagente a gran escala aproximando la influencia colectiva mediante un campo medio estadístico.

📖

términos

Modelado de Oponentes

Proceso de aprendizaje de las estrategias y comportamientos de los agentes adversarios para anticipar sus acciones y optimizar la propia política en juegos competitivos.

📖

términos

Protocolos de Comunicación en MARL

Mecanismos que permiten a los agentes intercambiar información para mejorar la coordinación y la eficiencia colectiva en tareas cooperativas.

📖

términos

MARL Cooperativo

Subdominio del MARL donde los agentes comparten un objetivo común y maximizan una recompensa colectiva a través de la coordinación y colaboración.

📖

términos

MARL Competitivo

Marco multiagente donde los individuos o equipos compiten en juegos de suma cero o no nula para maximizar sus recompensas individuales.

📖

términos

MARL de Motivos Mixtos

Entornos multiagente que combinan elementos cooperativos y competitivos, donde los agentes deben equilibrar intereses personales y objetivos colectivos.

📖

términos

Comportamiento Emergente

Comportamientos complejos no programados que aparecen espontáneamente de la interacción entre agentes que aprenden en un entorno compartido.

📖

términos

Mecanismos de Atención en MARL

Técnicas que permiten a los agentes ponderar selectivamente la información proveniente de otros agentes o partes del entorno para una mejor decisión.

📖

términos

Aprendizaje Curricular en MARL

Estrategia de entrenamiento que progresa de tareas simples a complejas para facilitar el aprendizaje de políticas robustas en entornos multi-agente.

📖

términos

Escalabilidad en MARL

Desafío algorítmico consistente en mantener el rendimiento del aprendizaje frente al aumento exponencial del espacio de acción conjunto con el número de agentes.

Glosario IA

MARL (Aprendizaje por Refuerzo Multiagente)

Entrenamiento Centralizado con Ejecución Descentralizada (CTDE)

QMIX (Mezcla de Valores Q)

VDN (Redes de Descomposición de Valor)

MADDPG (Gradiente de Política Determinista Profundo Multiagente)

COMA (Gradientes de Política Multiagente Contrafactual)

Dec-POMDP (Proceso de Decisión de Markov Parcialmente Observable Descentralizado)

Asignación de Crédito

Aprendizaje de Acción Conjunta

Modelado de Agentes

Teoría de Campo Medio en MARL

Modelado de Oponentes

Protocolos de Comunicación en MARL

MARL Cooperativo

MARL Competitivo

MARL de Motivos Mixtos

Comportamiento Emergente

Mecanismos de Atención en MARL

Aprendizaje Curricular en MARL

Escalabilidad en MARL

No se encontraron resultados