Teste A/B para ML - Glossário IA

📖

termos

Interleaving

Técnica de avaliação online onde os resultados de vários modelos de ranking são misturados e apresentados simultaneamente ao utilizador, permitindo uma recolha de feedback mais rápida e sensível do que o teste A/B tradicional.

📖

termos

Power Analysis

Cálculo a priori que visa determinar o tamanho mínimo da amostra necessário para um teste A/B, a fim de detetar um efeito de uma dada magnitude com um nível de confiança e poder estatístico especificados.

📖

termos

OAT (Online A/B Testing)

Processo de avaliação de modelos ou algoritmos em condições reais, direcionando uma fração do tráfego de utilizadores para a nova versão para medir o seu impacto nas métricas de negócio.

📖

termos

Canary Release

Estratégia de implementação progressiva onde um novo modelo é inicialmente exposto a um subconjunto muito pequeno de utilizadores ou pedidos, antes de uma expansão gradual se os indicadores de saúde forem positivos.

📖

termos

Shadow Mode Deployment

Implementação onde o novo modelo recebe uma cópia do tráfego em tempo real e gera previsões em paralelo com o modelo antigo, sem afetar os utilizadores, para uma comparação offline do desempenho.

📖

termos

Novelty Effect

Viés em testes A/B onde os utilizadores reagem positivamente a uma novidade simplesmente porque é nova, independentemente da sua qualidade intrínseca, o que pode distorcer a avaliação de um novo modelo.

📖

termos

Primary Metric

Indicador de desempenho chave (KPI) único e principal utilizado para tomar a decisão final durante um teste A/B, escolhido pela sua forte correlação com o objetivo de negócio (ex: taxa de conversão, CTR).

📖

termos

Guardrail Metrics

Métricas secundárias monitorizadas durante um teste para garantir que uma melhoria na métrica principal não resulta numa regressão negativa noutros aspetos importantes do sistema (ex: latência, custo).

📖

termos

CUPED (Controlled-experiment Using Pre-Experiment Data)

Técnica de redução de variância que utiliza dados comportamentais dos usuários antes da experimentação para aumentar a sensibilidade estatística dos testes A/B e reduzir a duração necessária.

📖

termos

Two-Sided T-Test

Teste estatístico usado para determinar se existe uma diferença significativa entre as médias de dois grupos (ex: desempenho do modelo A vs B), sem pressupor o sentido dessa diferença.

📖

termos

Chi-Squared Test

Teste de hipótese não paramétrico aplicado a dados categóricos (ex: taxa de cliques) para avaliar se a distribuição das frequências observadas entre as variantes de um teste é devido ao acaso.

📖

termos

Sample Ratio Mismatch (SRM)

Anomalia detectada quando a proporção real de usuários alocados a cada variante de um teste se desvia significativamente da proporção esperada (ex: 50/50), indicando potencialmente um viés de configuração.

📖

termos

Peeking Problem

Viés introduzido ao analisar os resultados de um teste A/B repetidamente antes de sua conclusão planejada, o que aumenta o risco de falsas descobertas (falsos positivos) devido à inflação da taxa de erro tipo I.

📖

termos

Holdout Group

Segmento de usuários mantido intencionalmente na versão antiga do modelo mesmo após a implantação generalizada da nova versão, para medir o impacto a longo prazo de forma contínua.

📖

termos

Counterfactual Evaluation

Metodologia de estimativa do desempenho de um novo modelo utilizando os logs de um modelo de produção, simulando como o novo modelo teria agido sobre os mesmos dados históricos.

Glossário IA

Interleaving

Power Analysis

OAT (Online A/B Testing)

Canary Release

Shadow Mode Deployment

Novelty Effect

Primary Metric

Guardrail Metrics

CUPED (Controlled-experiment Using Pre-Experiment Data)

Two-Sided T-Test

Chi-Squared Test

Sample Ratio Mismatch (SRM)

Peeking Problem

Holdout Group

Counterfactual Evaluation

Nenhum resultado encontrado