🏠 홈
벤치마크
📊 모든 벤치마크 🦖 공룡 v1 🦖 공룡 v2 ✅ 할 일 목록 앱 🎨 창의적인 자유 페이지 🎯 FSACB - 궁극의 쇼케이스 🌍 번역 벤치마크
모델
🏆 톱 10 모델 🆓 무료 모델 📋 모든 모델 ⚙️ 킬로 코드 모드
리소스
💬 프롬프트 라이브러리 📖 AI 용어 사전 🔗 유용한 링크

AI 용어집

인공지능 완전 사전

162
카테고리
2,032
하위 카테고리
23,060
용어
📂
하위 카테고리

Conservative Q-Learning (CQL)

Method that penalizes overestimated Q-values to keep the policy close to the data distribution.

18 용어
📂
하위 카테고리

Batch Constrained Q-learning (BCQ)

Approach that constrains actions to remain close to those observed in the dataset to avoid distribution shift.

17 용어
📂
하위 카테고리

Decision Transformer

Transformer architecture that treats offline reinforcement learning as a sequence-to-sequence problem.

11 용어
📂
하위 카테고리

Implicit Q-Learning (IQL)

Method that implicitly learns the Q function without requiring an explicit max operator.

13 용어
📂
하위 카테고리

Model-Based Offline RL

Approach using learned models of the environment to improve out-of-distribution sampling.

10 용어
📂
하위 카테고리

Offline-to-Online Transfer Learning

Techniques for effectively transferring offline learnings to online settings.

6 용어
📂
하위 카테고리

Distributional Offline RL

Methods modeling the full distribution of returns rather than just their mathematical expectation.

13 용어
📂
하위 카테고리

Safe Offline Reinforcement Learning

Approaches ensuring safety when deploying policies learned solely on static data.

11 용어
📂
하위 카테고리

Uncertainty-Aware Offline RL

Methods quantifying epistemic uncertainty to avoid out-of-distribution actions.

17 용어
📂
하위 카테고리

Trajectory Transformer

Transformer model that generates complete trajectories by learning the distribution of state-action-reward sequences.

6 용어
📂
하위 카테고리

Advantage-Weighted Regression (AWR)

Approach weighting regressions based on advantage to improve out-of-distribution action selection.

11 용어
📂
하위 카테고리

Offline Multi-Task Reinforcement Learning

Paradigm for simultaneous learning of multiple tasks from shared batch datasets.

18 용어
🔍

결과를 찾을 수 없습니다