🏠 홈
벤치마크
📊 모든 벤치마크 🦖 공룡 v1 🦖 공룡 v2 ✅ 할 일 목록 앱 🎨 창의적인 자유 페이지 🎯 FSACB - 궁극의 쇼케이스 🌍 번역 벤치마크
모델
🏆 톱 10 모델 🆓 무료 모델 📋 모든 모델 ⚙️ 킬로 코드 모드
리소스
💬 프롬프트 라이브러리 📖 AI 용어 사전 🔗 유용한 링크

AI 용어집

인공지능 완전 사전

162
카테고리
2,032
하위 카테고리
23,060
용어
📖
용어

Transformeur pour POMDP

Architecture de réseau neuronal basée sur le mécanisme d'attention, adaptée pour modéliser les dépendances temporelles longues et les croyances dans les environnements partiellement observables.

📖
용어

État de Croyance (Belief State)

Distribution de probabilité sur l'ensemble des états possibles de l'environnement, représentant l'incertitude de l'agent sur l'état réel compte tenu de l'historique des observations et des actions.

📖
용어

Mémoire Épisode

Séquence historique des paires (action, observation, récompense) que le transformeur utilise pour mettre à jour son état de croyance et décider de la prochaine action.

📖
용어

Décodeur de Politique (Policy Decoder)

Partie du modèle transformeur qui prend la représentation enrichie de l'historique (encodée par l'encodeur) pour générer une distribution sur les actions possibles.

📖
용어

Masquage Causal (Causal Masking)

Mécanisme dans les transformeurs qui empêche un token à une position donnée d'atténuer les tokens des positions futures, garantissant que la prédiction pour un pas de temps ne dépend que du passé.

📖
용어

Généralisation à Long Terme

Capacité d'un modèle, comme un transformeur, à utiliser des informations provenant d'un passé très lointain pour prendre des décisions pertinentes dans le présent, un défi majeur dans les POMDP.

📖
용어

Filtre de Particules Transformer

Approche hybride où un transformeur est utilisé pour améliorer l'étape de propagation ou de pondération dans un filtre à particules, une méthode d'inférence séquentielle pour les POMDP.

📖
용어

Représentation Latente de l'Historique

Vecteur ou tenseur de dimension fixe produit par l'encodeur du transformeur, qui résume de manière compacte et riche l'ensemble de l'historique des interactions de l'agent.

📖
용어

Agent Transformer

Reinforcement learning agent whose decision core is a transformer architecture, used to process the history of observations and generate a policy.

🔍

결과를 찾을 수 없습니다