Оценка систем рекомендаций

📖

термины

Precision@K

Métrique mesurant la proportion d'items pertinents parmi les K premières recommandations, essentielle pour évaluer la qualité des résultats les mieux classés.

📖

термины

Recall@K

Indicateur calculant le ratio d'items pertinents effectivement présents dans les K premières recommandations par rapport au total des items pertinents disponibles.

📖

термины

Mean Average Precision (MAP)

Métrique agrégée calculant la moyenne des précisions à chaque position pertinent, pondérée par le rang de chaque item pertinent dans la liste de recommandations.

📖

термины

NDCG (Normalized Discounted Cumulative Gain)

Score normalisé évaluant la qualité du classement en pénalisant les items pertinents placés loin en début de liste, idéal pour les recommandations avec pertinence graduée.

📖

термины

RMSE (Root Mean Square Error)

Erreur quadratique moyenne utilisée pour évaluer la précision des prédictions de notes en mesurant l'écart entre valeurs prédites et réelles.

📖

термины

Hit Rate (HR)

Pourcentage de sessions où au moins un item pertinent apparaît dans les N premières recommandations, mesurant l'efficacité globale du système.

📖

термины

Catalog Coverage

Pourcentage d'items uniques du catalogue pouvant être recommandés par le système, crucial pour éviter la concentration sur un sous-ensemble restreint d'items.

📖

термины

Intra-List Diversity

Mesure de dissimilarité moyenne entre les items d'une même liste de recommandations, essentielle pour éviter la redondance et enrichir l'expérience utilisateur.

📖

термины

Новизна

Степень неизвестности рекомендуемых пользователю элементов, вычисляемая как обратная их общей популярности в каталоге.

📖

термины

Серендипность

Способность системы рекомендовать релевантные, но неожиданные элементы, которые положительно удивляют пользователя за рамками простых прогнозов.

📖

термины

A/B тестирование

Экспериментальная методология, сравнивающая производительность двух версий системы на сегментах реальных пользователей для измерения бизнес-влияния.

📖

термины

Перекрестная проверка с исключением одного

Надежная методика оценки, где каждое взаимодействие пользователя поочередно используется в качестве тестовых данных, в то время как остальные служат для обучения.

📖

термины

Офлайн и Онлайн оценка

Двойственный подход, оценивающий производительность на исторических данных (офлайн) и с реальными взаимодействиями (онлайн) для проверки полной эффективности системы.

📖

термины

Временная генерализация

Способность системы поддерживать свою производительность на будущих данных, оцениваемая последовательно на временных разделениях, а не случайных.

📖

термины

Корреляция бизнес-метрик

Анализ взаимосвязи между алгоритмическими метриками (NDCG, Precision) и бизнес-показателями (конверсия, удержание) для проверки бизнес-релевантности.

📖

термины

Метрика Катаракт

Композиционный показатель, балансирующий точность, разнообразие, новизну и охват для комплексной оценки общего качества рекомендаций.

📖

термины

Ожидаемый взаимный ранг (ERR)

Вероятностная модель, основанная на поведении пользователя, предполагающая прекращение просмотра после первого клика, с сильным взвешиванием первых позиций.

📖

термины

Покрытие пользователей

Процент пользователей, для которых система может генерировать рекомендации, критически важный для измерения универсальной применимости системы.

📖

термины

Метрики справедливости

Показатели, оценивающие справедливость распределения рекомендаций между различными демографическими группами для избежания алгоритмических предубеждений.

📖

термины

Измерение предубеждения экспозиции

Количественная оценка разницы в экспозиции между популярными элементами и элементами из длинного хвоста, необходимая для оценки сбалансированности рекомендаций.

Глоссарий ИИ

Precision@K

Recall@K

Mean Average Precision (MAP)

NDCG (Normalized Discounted Cumulative Gain)

RMSE (Root Mean Square Error)

Hit Rate (HR)

Catalog Coverage

Intra-List Diversity

Новизна

Серендипность

A/B тестирование

Перекрестная проверка с исключением одного

Офлайн и Онлайн оценка

Временная генерализация

Корреляция бизнес-метрик

Метрика Катаракт

Ожидаемый взаимный ранг (ERR)

Покрытие пользователей

Метрики справедливости

Измерение предубеждения экспозиции

Результаты не найдены