Глоссарий ИИ
Полный словарь искусственного интеллекта
Precision@K
Métrique mesurant la proportion d'items pertinents parmi les K premières recommandations, essentielle pour évaluer la qualité des résultats les mieux classés.
Recall@K
Indicateur calculant le ratio d'items pertinents effectivement présents dans les K premières recommandations par rapport au total des items pertinents disponibles.
Mean Average Precision (MAP)
Métrique agrégée calculant la moyenne des précisions à chaque position pertinent, pondérée par le rang de chaque item pertinent dans la liste de recommandations.
NDCG (Normalized Discounted Cumulative Gain)
Score normalisé évaluant la qualité du classement en pénalisant les items pertinents placés loin en début de liste, idéal pour les recommandations avec pertinence graduée.
RMSE (Root Mean Square Error)
Erreur quadratique moyenne utilisée pour évaluer la précision des prédictions de notes en mesurant l'écart entre valeurs prédites et réelles.
Hit Rate (HR)
Pourcentage de sessions où au moins un item pertinent apparaît dans les N premières recommandations, mesurant l'efficacité globale du système.
Catalog Coverage
Pourcentage d'items uniques du catalogue pouvant être recommandés par le système, crucial pour éviter la concentration sur un sous-ensemble restreint d'items.
Intra-List Diversity
Mesure de dissimilarité moyenne entre les items d'une même liste de recommandations, essentielle pour éviter la redondance et enrichir l'expérience utilisateur.
Новизна
Степень неизвестности рекомендуемых пользователю элементов, вычисляемая как обратная их общей популярности в каталоге.
Серендипность
Способность системы рекомендовать релевантные, но неожиданные элементы, которые положительно удивляют пользователя за рамками простых прогнозов.
A/B тестирование
Экспериментальная методология, сравнивающая производительность двух версий системы на сегментах реальных пользователей для измерения бизнес-влияния.
Перекрестная проверка с исключением одного
Надежная методика оценки, где каждое взаимодействие пользователя поочередно используется в качестве тестовых данных, в то время как остальные служат для обучения.
Офлайн и Онлайн оценка
Двойственный подход, оценивающий производительность на исторических данных (офлайн) и с реальными взаимодействиями (онлайн) для проверки полной эффективности системы.
Временная генерализация
Способность системы поддерживать свою производительность на будущих данных, оцениваемая последовательно на временных разделениях, а не случайных.
Корреляция бизнес-метрик
Анализ взаимосвязи между алгоритмическими метриками (NDCG, Precision) и бизнес-показателями (конверсия, удержание) для проверки бизнес-релевантности.
Метрика Катаракт
Композиционный показатель, балансирующий точность, разнообразие, новизну и охват для комплексной оценки общего качества рекомендаций.
Ожидаемый взаимный ранг (ERR)
Вероятностная модель, основанная на поведении пользователя, предполагающая прекращение просмотра после первого клика, с сильным взвешиванием первых позиций.
Покрытие пользователей
Процент пользователей, для которых система может генерировать рекомендации, критически важный для измерения универсальной применимости системы.
Метрики справедливости
Показатели, оценивающие справедливость распределения рекомендаций между различными демографическими группами для избежания алгоритмических предубеждений.
Измерение предубеждения экспозиции
Количественная оценка разницы в экспозиции между популярными элементами и элементами из длинного хвоста, необходимая для оценки сбалансированности рекомендаций.