Avaliação e Métricas - Glossário IA

📖

termos

BLEU (Bilingual Evaluation Understudy)

Métrica automática para avaliar a qualidade das traduções automáticas, comparando a precisão de n-gramas do texto gerado em relação a uma ou mais referências humanas. Ela mede a sobreposição dos segmentos de texto entre a saída do modelo e a referência.

📖

termos

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

Conjunto de métricas principalmente utilizado para avaliar a qualidade de resumos automáticos, focando na revocação (recall) de n-gramas em relação a resumos de referência. ROUGE-N, ROUGE-L e ROUGE-S são suas variantes mais comuns.

📖

termos

Pontuação de Coerência

Indicador qualitativo que mede a coerência semântica e lógica de um texto gerado em uma extensão longa, avaliando se as frases e os parágrafos se encadeiam de forma sensata. É frequentemente calculado por meio de modelos de incorporação de frases ou classificadores treinados especificamente.

📖

termos

Avaliação Humana (Human Evaluation)

Metodologia de referência onde anotadores humanos julgam a qualidade das saídas de um LLM de acordo com critérios predefinidos como relevância, fluidez ou exaustividade. Ela fornece uma medida de verdade fundamental, mas é cara e difícil de escalar.

📖

termos

Toxicidade

Métrica que avalia a probabilidade de um modelo gerar conteúdo ofensivo, odioso, discriminatório ou prejudicial. Geralmente é medida por classificadores especializados treinados em corpora de textos anotados por sua toxicidade.

📖

termos

Alucinação

Fenômeno em que um LLM gera informações factualmente incorretas, infundadas ou inventadas, apresentando-as como verdades. A avaliação das alucinações consiste em verificar a fidelidade do conteúdo gerado em relação a uma fonte de verdade conhecida.

📖

termos

Viés (Bias)

Medida da tendência de um modelo produzir resultados sistematicamente prejudiciais ou estereotipados em relação a certos grupos demográficos. A avaliação do viés analisa as saídas para detectar preconceitos relacionados a gênero, raça ou outros atributos sensíveis.

📖

termos

Métrica de Fidelidade (Faithfulness)

Indicador que avalia em que medida o conteúdo gerado por um LLM, especialmente em sistemas de perguntas e respostas ou de resumo, permanece fiel e coerente com o contexto ou os documentos fonte fornecidos. Uma baixa fidelidade indica desvios ou invenções.

📖

termos

Benchmark MMLU (Massive Multitask Language Understanding)

Benchmark abrangente projetado para medir o conhecimento e as capacidades de compreensão de um LLM em uma ampla gama de 57 tópicos, desde matemática elementar até direito americano e história. Ele avalia a capacidade do modelo de responder a perguntas de múltipla escolha.

📖

termos

Pontuação de Utilidade da Resposta (Helpfulness Score)

Métrica qualitativa que avalia o quão útil, relevante e solucionadora da consulta ou problema do usuário é uma resposta gerada por um LLM. Essa pontuação é frequentemente obtida por meio de avaliação humana ou de modelos de recompensa (Reward Models).

📖

termos

Avaliação Few-Shot

Técnica de avaliação onde o modelo é apresentado a um número muito pequeno de exemplos (geralmente de 1 a 5) da tarefa alvo dentro do prompt, a fim de guiar sua compreensão e desempenho. Ela avalia a capacidade de adaptação rápida do modelo.

📖

termos

Alinhamento

Processo e métrica que visam garantir que o comportamento de um LLM seja consistente com as intenções humanas, valores éticos e instruções dadas. A avaliação do alinhamento verifica se o modelo é útil, inofensivo e honesto (estrutura HHH).

📖

termos

Métrica de Diversidade

Indicador que mede a variedade e a amplitude do vocabulário ou dos temas em um texto gerado por um LLM, evitando assim repetições e respostas genéricas. Pode ser calculada pela razão de tipos únicos sobre o número total de tokens (TTR) ou pela similaridade semântica entre as frases.

📖

termos

Pontuação de Referência Cruzada (Cross-Reference Score)

Métrica usada para avaliar a consistência de um LLM gerando múltiplas respostas para a mesma pergunta e medindo sua similaridade semântica ou factual. Uma pontuação alta indica alta confiabilidade e baixa probabilidade de contradição.

📖

termos

Escala TruthfulQA

Benchmark especializado projetado para medir a tendência de um LLM a imitar falsidades comuns encontradas em textos de treinamento, avaliando sua capacidade de gerar respostas factualmente verdadeiras. Ele se concentra na verdade em vez de apenas na utilidade ou consistência.

📖

termos

Métrica de Robustez

Avaliação da estabilidade do desempenho de um LLM diante de variações menores na entrada (por exemplo, erros de digitação, paráfrases ou ruído). Uma métrica de robustez alta significa que a qualidade da saída não se degrada significativamente com perturbações.

📖

termos

Pontuação de Seguimento de Instruções (Instruction Following Score)

Métrica que avalia a capacidade de um LLM de compreender e executar com precisão instruções complexas e multi-etapas fornecidas em um prompt. Esta pontuação é crucial para aplicações de agente e tarefas de geração condicional.

Glossário IA

BLEU (Bilingual Evaluation Understudy)

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

Pontuação de Coerência

Avaliação Humana (Human Evaluation)

Toxicidade

Alucinação

Viés (Bias)

Métrica de Fidelidade (Faithfulness)

Benchmark MMLU (Massive Multitask Language Understanding)

Pontuação de Utilidade da Resposta (Helpfulness Score)

Avaliação Few-Shot

Alinhamento

Métrica de Diversidade

Pontuação de Referência Cruzada (Cross-Reference Score)

Escala TruthfulQA

Métrica de Robustez

Pontuação de Seguimento de Instruções (Instruction Following Score)

Nenhum resultado encontrado