Aprendizagem por Imitação Offline
Conjunto de transições
Estrutura de dados que armazena tuplas (estado, ação, próximo estado, recompensa) extraídas de trajetórias de especialistas para treinamento offline.
← Voltar