Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Pattern Regex
Expression régulière utilisée pour décrire un motif de recherche dans une chaîne de caractères, essentielle pour l'extraction d'entités basées sur des formats textuels spécifiques.
Règle Linguistique
Principe dérivé de la grammaire ou de la syntaxe d'une langue, appliqué pour contraindre ou guider l'identification d'entités dans un système NER basé sur des règles.
Gazetteer
Liste ou dictionnaire de référence de noms propres (ex: villes, prénoms) utilisé par les systèmes NER pour valider ou reconnaître des entités par simple recherche textuelle.
Règle à Base de Fenêtre
Type de règle qui examine un token et son contexte immédiat (fenêtre de mots) pour décider s'il constitue une entité, en se basant sur des mots ou des étiquettes spécifiques.
Ambiguïté Nominale
Phénomène où un même terme peut désigner différents types d'entités (ex: 'Paris' comme ville ou personne), posant un défi pour les systèmes NER basés sur des règles.
Règle de Contexte Gauche/Droite
Règle qui identifie une entité en fonction de mots ou de patterns spécifiques apparaissant immédiatement avant (contexte gauche) ou après (contexte droit) le candidat.
Normalisation Textuelle
Prétraitement qui nettoie et standardise le texte (ex: suppression de la ponctuation, mise en minuscule) pour améliorer l'efficacité des patterns regex et des règles linguistiques.
Règle de Capitalisation
Règle heuristique qui exploite les majuscules pour identifier des entités potentielles, comme les noms propres ou les débuts de phrase.
Expression de Pattern
Formalisation d'une règle de recherche, souvent plus complexe qu'une simple regex, pouvant inclure des contraintes sur les étiquettes grammaticales ou la structure des phrases.
Désambiguïsation
Processus de résolution de l'ambiguïté pour déterminer le type d'entité correct lorsqu'un candidat peut en appartenir à plusieurs, souvent via des règles hiérarchisées.
Règle d'Exclusion
Règle spécifiant des conditions qui, si elles sont remplies, empêchent un segment de texte d'être étiqueté comme une entité, réduisant ainsi les faux positifs.