Avaliação de Sistemas de Recomendação

📖

termos

Precision@K

Métrica que mede a proporção de itens relevantes entre as K primeiras recomendações, essencial para avaliar a qualidade dos resultados mais bem classificados.

📖

termos

Recall@K

Indicador que calcula a proporção de itens relevantes efetivamente presentes nas K primeiras recomendações em relação ao total de itens relevantes disponíveis.

📖

termos

Mean Average Precision (MAP)

Métrica agregada que calcula a média das precisões em cada posição relevante, ponderada pela classificação de cada item relevante na lista de recomendações.

📖

termos

NDCG (Normalized Discounted Cumulative Gain)

Pontuação normalizada que avalia a qualidade da classificação penalizando itens relevantes posicionados longe do início da lista, ideal para recomendações com relevância graduada.

📖

termos

RMSE (Root Mean Square Error)

Erro quadrático médio usado para avaliar a precisão das previsões de notas, medindo o desvio entre valores previstos e reais.

📖

termos

Hit Rate (HR)

Percentual de sessões em que pelo menos um item relevante aparece nas N primeiras recomendações, medindo a eficácia geral do sistema.

📖

termos

Catalog Coverage

Percentual de itens únicos do catálogo que podem ser recomendados pelo sistema, crucial para evitar a concentração em um subconjunto restrito de itens.

📖

termos

Intra-List Diversity

Medida de dissimilaridade média entre os itens de uma mesma lista de recomendações, essencial para evitar redundância e enriquecer a experiência do usuário.

📖

termos

Novidade

Grau de desconhecimento dos itens recomendados para o usuário, calculado como o inverso de sua popularidade global no catálogo.

📖

termos

Serendipidade

Capacidade do sistema de recomendar itens relevantes mas inesperados que surpreendem positivamente o usuário além de simples previsões.

📖

termos

Teste A/B

Metodologia experimental comparando o desempenho de duas versões do sistema em segmentos de usuários reais para medir o impacto nos negócios.

📖

termos

Validação Cruzada Leave-One-Out

Técnica de avaliação robusta onde cada interação do usuário é por sua vez usada como dado de teste enquanto as outras servem para o treinamento.

📖

termos

Avaliação Offline vs Online

Abordagem dupla avaliando o desempenho em dados históricos (offline) e com interações reais (online) para validar a eficácia completa do sistema.

📖

termos

Generalização Temporal

Capacidade do sistema de manter seu desempenho em dados futuros, avaliada sequencialmente em divisões temporais em vez de aleatórias.

📖

termos

Correlação de Métricas de Negócios

Análise da relação entre métricas algorítmicas (NDCG, Precisão) e indicadores de negócios (conversão, retenção) para validar a relevância para o negócio.

📖

termos

Métrica Cataract

Pontuação composta equilibrando precisão, diversidade, novidade e cobertura para avaliar holísticamente a qualidade geral das recomendações.

📖

termos

Expected Reciprocal Rank (ERR)

Modelo probabilístico baseado no comportamento do usuário que pressupõe a interrupção do exame após o primeiro clique, ponderando fortemente as primeiras posições.

📖

termos

User Coverage

Percentual de usuários para os quais o sistema pode gerar recomendações, crítico para medir a aplicabilidade universal do sistema.

📖

termos

Fairness Metrics

Indicadores que avaliam a equidade na distribuição de recomendações entre diferentes grupos demográficos para evitar vieses algorítmicos.

📖

termos

Exposure Bias Measurement

Quantificação da disparidade de exposição entre itens populares e da longa cauda, essencial para avaliar o equilíbrio das recomendações.

Glossário IA

Precision@K

Recall@K

Mean Average Precision (MAP)

NDCG (Normalized Discounted Cumulative Gain)

RMSE (Root Mean Square Error)

Hit Rate (HR)

Catalog Coverage

Intra-List Diversity

Novidade

Serendipidade

Teste A/B

Validação Cruzada Leave-One-Out

Avaliação Offline vs Online

Generalização Temporal

Correlação de Métricas de Negócios

Métrica Cataract

Expected Reciprocal Rank (ERR)

User Coverage

Fairness Metrics

Exposure Bias Measurement

Nenhum resultado encontrado