Глоссарий ИИ
Полный словарь искусственного интеллекта
Distribution de Valeur
Représentation complète de l'incertitude sur les retours futurs dans l'apprentissage par renforcement, modélisant l'ensemble des probabilités de chaque retour possible plutôt que seule son espérance.
Apprentissage par Renforcement Distributionnel
Paradigme de l'AR qui modélise explicitement la distribution complète des retours attendus pour capturer l'incertitude et la variabilité des résultats futurs.
Fonction Q Distributionnelle
Extension de la fonction Q-valeur qui retourne une distribution de probabilité sur les retours attendus au lieu d'une valeur scalaire unique.
Paramétrisation Atomique
Technique de discrétisation des distributions continues en ensembles finis de points (atomes) avec probabilités associées pour faciliter l'apprentissage computationnel.
Categorical Distributional RL (C51)
Algorithme pionnier qui modélise la distribution de retour comme une distribution catégorielle discrète sur un support fixe de valeurs.
Opérateur de Bellman Distributionnel
Généralisation de l'opérateur de Bellman classique qui s'applique aux distributions complètes plutôt qu'aux valeurs espérées uniquement.
Distance de Wasserstein
Métrique utilisée pour mesurer la similarité entre distributions de valeur dans l'espace des retours, permettant de capturer à la fois la localisation et la forme des distributions.
Projection Distributionnelle
Processus de projection de distributions continues sur un support discret prédéfini, essentiel pour l'implémentation pratique des algorithmes distributionnels.
Распределительный риск
Мера неопределенности и изменчивости в предсказаниях вознаграждения, количественно оцениваемая через старшие статистические моменты распределения значений.
Моменты высшего порядка
Статистики (дисперсия, асимметрия, эксцесс), описывающие форму распределения вознаграждения за пределами среднего значения, отражающие асимметрию и концентрацию вероятностей.
Распределительная временная вариация
Временная эволюция полной формы распределения вознаграждения, а не только его ожидаемого значения, выявляющая изменяющиеся паттерны риска.
Дискретное значение поддержки
Конечное и упорядоченное множество значений, на котором непрерывные распределения аппроксимируются в практических распределительных алгоритмах.
Распределительное распространение
Процесс обновления распределений значений через оператор Беллмана, сохраняющий информацию о неопределенности на каждом временном шаге.
Распределительная стабильность
Свойство сходимости распределений значений к стабильной форме во время обучения, обеспечивающее согласованность оценок неопределенности.