Evaluación y Métricas

📖

términos

BLEU (Bilingual Evaluation Understudy)

Métrica automática para evaluar la calidad de las traducciones automáticas comparando la precisión de n-gramas del texto generado con respecto a una o varias referencias humanas. Mide la superposición de segmentos de texto entre la salida del modelo y la referencia.

📖

términos

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

Conjunto de métricas utilizado principalmente para evaluar la calidad de los resúmenes automáticos, centrándose en el recall de n-gramas en comparación con resúmenes de referencia. ROUGE-N, ROUGE-L y ROUGE-S son sus variantes más comunes.

📖

términos

Score de Cohérence

Indicador cualitativo que mide la coherencia semántica y lógica de un texto generado en una extensión larga, evaluando si las frases y los párrafos se encadenan de manera sensata. A menudo se calcula mediante modelos de incrustación de frases o clasificadores entrenados específicamente.

📖

términos

Évaluation par Humains (Human Evaluation)

Metodología de referencia donde los anotadores humanos juzgan la calidad de las salidas de un LLM según criterios predefinidos como la pertinencia, la fluidez o la exhaustividad. Proporciona una medida de verdad terreno pero es costosa y difícil de escalar.

📖

términos

Toxicité

Métrica que evalúa la probabilidad de que un modelo genere contenido ofensivo, odioso, discriminatorio o dañino. Generalmente se mide mediante clasificadores especializados entrenados en corpus de textos anotados por su toxicidad.

📖

términos

Hallucination

Fenómeno donde un LLM genera información fácticamente incorrecta, infundada o inventada, presentándola como verdades. La evaluación de las alucinaciones consiste en verificar la fidelidad del contenido generado con respecto a una fuente de verdad conocida.

📖

términos

Biais (Bias)

Medida de la tendencia de un modelo a producir resultados sistemáticamente perjudiciales o estereotipados hacia ciertos grupos demográficos. La evaluación del sesgo analiza las salidas para detectar prejuicios relacionados con el género, la raza u otros atributos sensibles.

📖

términos

Métrique de Fidélité (Faithfulness)

Indicador que evalúa en qué medida el contenido generado por un LLM, especialmente en los sistemas de pregunta-respuesta o resumen, permanece fiel y coherente con el contexto o los documentos fuente proporcionados. Una baja fidelidad indica desviaciones o invenciones.

📖

términos

Benchmark MMLU (Massive Multitask Language Understanding)

Benchmark completo diseñado para medir los conocimientos y capacidades de comprensión de un LLM en una amplia gama de 57 temas, desde las matemáticas elementales hasta el derecho estadounidense, pasando por la historia. Evalúa la capacidad del modelo para responder preguntas de opción múltiple.

📖

términos

Score de Réponse Utile (Helpfulness Score)

Métrica cualitativa que evalúa en qué medida una respuesta generada por un LLM es útil, pertinente y resuelve la consulta o el problema del usuario. Esta puntuación se obtiene a menudo mediante la evaluación por humanos o modelos de recompensa (Reward Models).

📖

términos

Évaluation Few-Shot

Técnica de evaluación donde al modelo se le presenta un número muy pequeño de ejemplos (generalmente de 1 a 5) de la tarea objetivo dentro del prompt, para guiar su comprensión y rendimiento. Evalúa la capacidad de adaptación rápida del modelo.

📖

términos

Alignement

Proceso y métrica destinada a asegurar que el comportamiento de un LLM sea coherente con las intenciones humanas, los valores éticos y las instrucciones dadas. La evaluación del alineamiento verifica si el modelo es útil, inofensivo y honesto (framework HHH).

📖

términos

Métrique de Diversité

Indicador que mide la variedad y amplitud del vocabulario o de los temas en un texto generado por un LLM, evitando así repeticiones y respuestas genéricas. Puede calcularse mediante el ratio de tipos únicos sobre el número total de tokens (TTR) o por la similitud semántica entre las frases.

📖

términos

Score de Référence Croisée (Cross-Reference Score)

Métrica utilizada para evaluar la consistencia de un LLM generando múltiples respuestas a la misma pregunta y midiendo su similitud semántica o factual. Una puntuación alta indica una gran fiabilidad y una baja probabilidad de contradicción.

📖

términos

Échelle de TruthfulQA

Benchmark especializado diseñado para medir la tendencia de un LLM a imitar falsedades comunes encontradas en los textos de entrenamiento, evaluando su capacidad para generar respuestas fácticamente verdaderas. Se centra en la verdad más que en la simple utilidad o coherencia.

📖

términos

Métrique de Robustesse

Evaluación de la estabilidad del rendimiento de un LLM frente a variaciones menores en la entrada (por ejemplo, errores tipográficos, paráfrasis o ruido). Una métrica de robustez alta significa que la calidad de la salida no se degrada significativamente con perturbaciones.

📖

términos

Puntuación de Seguimiento de Instrucciones (Instruction Following Score)

Métrica que evalúa la capacidad de un LLM para comprender y ejecutar con precisión instrucciones complejas y de múltiples pasos proporcionadas en un prompt. Esta puntuación es crucial para las aplicaciones de agente y las tareas de generación condicional.

Glosario IA

BLEU (Bilingual Evaluation Understudy)

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

Score de Cohérence

Évaluation par Humains (Human Evaluation)

Toxicité

Hallucination

Biais (Bias)

Métrique de Fidélité (Faithfulness)

Benchmark MMLU (Massive Multitask Language Understanding)

Score de Réponse Utile (Helpfulness Score)

Évaluation Few-Shot

Alignement

Métrique de Diversité

Score de Référence Croisée (Cross-Reference Score)

Échelle de TruthfulQA

Métrique de Robustesse

Puntuación de Seguimiento de Instrucciones (Instruction Following Score)

No se encontraron resultados