Оценка и метрики - Глоссарий ИИ

📖

термины

BLEU (Bilingual Evaluation Understudy)

Автоматическая метрика для оценки качества машинного перевода путем сравнения точности n-грамм сгенерированного текста с одной или несколькими эталонными переводами человека. Она измеряет степень совпадения сегментов текста между выходными данными модели и эталоном.

📖

термины

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

Набор метрик, используемый в основном для оценки качества автоматического реферирования, с фокусом на полноту (recall) n-грамм по сравнению с эталонными рефератами. ROUGE-N, ROUGE-L и ROUGE-S — наиболее распространенные варианты этой метрики.

📖

термины

Оценка когерентности

Качественный показатель, измеряющий семантическую и логическую связность сгенерированного текста на большом отрезке, оценивая, следуют ли предложения и абзацы в логическом порядке. Он часто рассчитывается с помощью моделей эмбеддингов предложений или специально обученных классификаторов.

📖

термины

Оценка человеком (Human Evaluation)

Эталонная методология, при которой аннотаторы-люди оценивают качество выходных данных большой языковой модели (LLM) на основе заранее определенных критериев, таких как уместность, беглость или полнота. Она обеспечивает эталонную меру, но является дорогостоящей и сложной для масштабирования.

📖

термины

Токсичность

Метрика, оценивающая вероятность того, что модель сгенерирует оскорбительный, ненавистнический, дискриминационный или вредный контент. Она обычно измеряется с помощью специализированных классификаторов, обученных на корпусах текстов, аннотированных по признаку токсичности.

📖

термины

Галлюцинация

Феномен, при котором большая языковая модель (LLM) генерирует фактически неверную, необоснованную или выдуманную информацию, выдавая ее за правду. Оценка галлюцинаций заключается в проверке точности сгенерированного контента по сравнению с известным источником истины.

📖

термины

Предвзятость (Bias)

Мера склонности модели к созданию систематически наносящих вред или стереотипных результатов в отношении определенных демографических групп. Оценка смещения анализирует выходные данные для выявления предубеждений, связанных с полом, расой или другими чувствительными атрибутами.

📖

термины

Метрика верности (Faithfulness)

Показатель, оценивающий, в какой степени контент, сгенерированный большой языковой моделью (LLM), особенно в системах вопрос-ответ или реферирования, остается верным и непротиворечивым предоставленному контексту или исходным документам. Низкая верность указывает на отклонения или выдумки.

📖

термины

Бенчмарк MMLU (Massive Multitask Language Understanding)

Комплексный бенчмарк, разработанный для измерения знаний и способностей понимания большой языковой модели (LLM) в широком спектре из 57 предметов, от элементарной математики до американского права и истории. Он оценивает способность модели отвечать на вопросы с множественным выбором.

📖

термины

Оценка полезности ответа (Helpfulness Score)

Качественная метрика, оценивающая степень полезности и релевантности ответа, сгенерированного большой языковой моделью (LLM), а также его способность решить запрос или проблему пользователя. Этот показатель часто определяется посредством оценки людьми или с помощью моделей вознаграждения (Reward Models).

📖

термины

Оценка Few-Shot

Методика оценки, при которой модели предоставляется очень небольшое количество примеров (обычно от 1 до 5) целевой задачи в рамках промпта для направления ее понимания и повышения производительности. Она оценивает способность модели к быстрой адаптации.

📖

термины

Выравнивание

Процесс и метрика, направленные на то, чтобы поведение большой языковой модели (LLM) соответствовало человеческим намерениям, этическим ценностям и заданным инструкциям. Оценка выравнивания проверяет, является ли модель полезной, безобидной и честной (HHH framework).

📖

термины

Метрика разнообразия

Показатель, измеряющий разнообразие и широту словарного запаса или тем в тексте, сгенерированном большой языковой моделью (LLM), что позволяет избежать повторений и шаблонных ответов. Она может вычисляться как отношение уникальных типов к общему количеству токенов (TTR) или посредством семантического сходства между предложениями.

📖

термины

Оценка перекрестной ссылки (Cross-Reference Score)

Метрика, используемая для оценки согласованности большой языковой модели (LLM) путем генерации нескольких ответов на один и тот же вопрос и измерения их семантического или фактического сходства. Высокий балл указывает на высокую надежность и низкую вероятность возникновения противоречий.

📖

термины

Шкала TruthfulQA

Специализированный бенчмарк, разработанный для измерения склонности большой языковой модели (LLM) имитировать распространенные заблуждения, встречающиеся в обучающих текстах, и оценки ее способности генерировать фактические верные ответы. Он фокусируется на правдивости, а не просто на полезности или связности.

📖

термины

Метрика устойчивости

Оценка стабильности работы большой языковой модели (LLM) при наличии незначительных изменений во входных данных (например, опечаток, перефразирований или шума). Высокий показатель устойчивости означает, что качество выходных данных не снижается значительно при наличии возмущений.

📖

термины

Оценка следования инструкциям (Instruction Following Score)

Метрика, оценивающая способность LLM понимать и точно выполнять сложные многоэтапные инструкции, предоставленные в промпте. Этот показатель имеет решающее значение для агентских приложений и задач условной генерации.

Глоссарий ИИ

BLEU (Bilingual Evaluation Understudy)

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

Оценка когерентности

Оценка человеком (Human Evaluation)

Токсичность

Галлюцинация

Предвзятость (Bias)

Метрика верности (Faithfulness)

Бенчмарк MMLU (Massive Multitask Language Understanding)

Оценка полезности ответа (Helpfulness Score)

Оценка Few-Shot

Выравнивание

Метрика разнообразия

Оценка перекрестной ссылки (Cross-Reference Score)

Шкала TruthfulQA

Метрика устойчивости

Оценка следования инструкциям (Instruction Following Score)

Результаты не найдены