Глоссарий ИИ
Полный словарь искусственного интеллекта
Classification de textes
Tâche du TAL consistant à assigner automatiquement un document textuel à une ou plusieurs catégories prédéfinies en se basant sur son contenu sémantique.
Classification binaire
Type de classification où le modèle doit choisir entre deux classes mutuellement exclusives, généralement représentées comme positif/négatif ou 0/1.
Classification multi-classe
Problème de classification où chaque instance doit être assignée à exactement une classe parmi trois ou plus, les classes étant mutuellement exclusives.
Classification multi-étiquettes
Variante de classification où un document peut être associé simultanément à plusieurs étiquettes ou catégories non exclusives.
Naïve Bayes
Algorithme de classification probabiliste basé sur le théorème de Bayes avec une hypothèse d'indépendance conditionnelle entre les caractéristiques.
SVM (Support Vector Machine)
Algorithme d'apprentissage supervisé qui trouve l'hyperplan optimal séparant les classes dans un espace de grande dimension en maximisant la marge.
Bag-of-Words
Représentation textuelle qui décompte les occurrences des mots sans tenir compte de leur ordre ou de leur contexte grammatical.
TF-IDF
Métrique statistique évaluant l'importance d'un mot dans un document par rapport à un corpus, combinant fréquence term et fréquence inverse document.
Векторные представления слов
Плотные векторные представления слов в непрерывном пространстве, где сохраняются семантические расстояния между словами.
Трансформеры
Архитектура нейронных сетей на основе механизмов внимания, позволяющая захватывать дальние зависимости в последовательностях.
Матрица ошибок
Таблица для визуализации производительности классификатора путем сравнения предсказаний с истинными метками по классам.
Перекрестная проверка
Надежная техника оценки, разделяющая данные на подмножества для многократного обучения и тестирования модели на различных разделениях.
Точность
Метрика, измеряющая долю правильных положительных предсказаний среди всех положительных предсказаний, сделанных моделью.
Полнота
Метрика, оценивающая способность модели правильно идентифицировать все реальные положительные экземпляры в наборе данных.
F1-оценка
Гармоническое среднее между точностью и полнотой, обеспечивающее единую сбалансированную меру производительности классификации.
Переобучение
Явление, при котором модель слишком специфично обучается на обучающих данных и плохо обобщается на новые невидимые данные.
Токенизация
Процесс сегментации текста на элементарные единицы (токены), такие как слова, подслова или символы, для анализа.
Стемминг
Техника текстовой нормализации, сокращающая слова до их морфологической основы путем удаления суффиксов и префиксов.
Лемматизация
Лингвистический процесс, приводящий слова к их канонической форме (лемме) с использованием морфологического анализа и словаря.