Glossário IA
O dicionário completo da Inteligência Artificial
Interleaving
Técnica de avaliação online onde os resultados de vários modelos de ranking são misturados e apresentados simultaneamente ao utilizador, permitindo uma recolha de feedback mais rápida e sensível do que o teste A/B tradicional.
Power Analysis
Cálculo a priori que visa determinar o tamanho mínimo da amostra necessário para um teste A/B, a fim de detetar um efeito de uma dada magnitude com um nível de confiança e poder estatístico especificados.
OAT (Online A/B Testing)
Processo de avaliação de modelos ou algoritmos em condições reais, direcionando uma fração do tráfego de utilizadores para a nova versão para medir o seu impacto nas métricas de negócio.
Canary Release
Estratégia de implementação progressiva onde um novo modelo é inicialmente exposto a um subconjunto muito pequeno de utilizadores ou pedidos, antes de uma expansão gradual se os indicadores de saúde forem positivos.
Shadow Mode Deployment
Implementação onde o novo modelo recebe uma cópia do tráfego em tempo real e gera previsões em paralelo com o modelo antigo, sem afetar os utilizadores, para uma comparação offline do desempenho.
Novelty Effect
Viés em testes A/B onde os utilizadores reagem positivamente a uma novidade simplesmente porque é nova, independentemente da sua qualidade intrínseca, o que pode distorcer a avaliação de um novo modelo.
Primary Metric
Indicador de desempenho chave (KPI) único e principal utilizado para tomar a decisão final durante um teste A/B, escolhido pela sua forte correlação com o objetivo de negócio (ex: taxa de conversão, CTR).
Guardrail Metrics
Métricas secundárias monitorizadas durante um teste para garantir que uma melhoria na métrica principal não resulta numa regressão negativa noutros aspetos importantes do sistema (ex: latência, custo).
CUPED (Controlled-experiment Using Pre-Experiment Data)
Técnica de redução de variância que utiliza dados comportamentais dos usuários antes da experimentação para aumentar a sensibilidade estatística dos testes A/B e reduzir a duração necessária.
Two-Sided T-Test
Teste estatístico usado para determinar se existe uma diferença significativa entre as médias de dois grupos (ex: desempenho do modelo A vs B), sem pressupor o sentido dessa diferença.
Chi-Squared Test
Teste de hipótese não paramétrico aplicado a dados categóricos (ex: taxa de cliques) para avaliar se a distribuição das frequências observadas entre as variantes de um teste é devido ao acaso.
Sample Ratio Mismatch (SRM)
Anomalia detectada quando a proporção real de usuários alocados a cada variante de um teste se desvia significativamente da proporção esperada (ex: 50/50), indicando potencialmente um viés de configuração.
Peeking Problem
Viés introduzido ao analisar os resultados de um teste A/B repetidamente antes de sua conclusão planejada, o que aumenta o risco de falsas descobertas (falsos positivos) devido à inflação da taxa de erro tipo I.
Holdout Group
Segmento de usuários mantido intencionalmente na versão antiga do modelo mesmo após a implantação generalizada da nova versão, para medir o impacto a longo prazo de forma contínua.
Counterfactual Evaluation
Metodologia de estimativa do desempenho de um novo modelo utilizando os logs de um modelo de produção, simulando como o novo modelo teria agido sobre os mesmos dados históricos.