Glossário IA
O dicionário completo da Inteligência Artificial
Tokenização Subpalavra
Técnica de segmentação de texto em unidades linguísticas menores que palavras, mas maiores que caracteres, permitindo gerenciar eficientemente o vocabulário e palavras raras em modelos transformers.
Token Desconhecido (UNK)
Token especial usado para representar palavras ou subpalavras não presentes no vocabulário do tokenizer, permitindo que o modelo lide com entradas fora do vocabulário durante a inferência.
Análise Morfológica
Processo de identificação de morfemas e estruturas gramaticais em palavras, otimizado por tokenizers de subpalavras que capturam naturalmente as regularidades morfológicas das línguas.
Tokenização em Nível de Caractere
Abordagem de segmentação que trata cada caractere individual como um token, eliminando problemas de vocabulário, mas aumentando o comprimento das sequências em detrimento da eficiência computacional.
Tokenização em Nível de Palavra
Método tradicional que usa palavras inteiras como unidades de token, limitado pela explosão do vocabulário e pela incapacidade de lidar com palavras fora do vocabulário e variações morfológicas.
BPE Dropouts
Técnica de regularização que introduz aleatoriedade no processo de tokenização BPE, ignorando algumas fusões durante o treinamento, melhorando a robustez e a generalização do modelo.
Tokens Especiais (CLS, SEP, PAD, MASK)
Tokens reservados com funções específicas no BERT: CLS para classificação, SEP para separação, PAD para alinhamento e MASK para mascaramento durante o pré-treinamento.
Mapeamento de ID de Token
Correspondência bijetiva entre cada token do vocabulário e um identificador numérico único, permitindo a conversão eficiente entre representações textuais e numéricas em modelos neurais.
Compressão de Tokens
Objetivo principal da tokenização de subpalavras, visando minimizar o número médio de tokens por palavra, mantendo um vocabulário de tamanho razoável para um desempenho computacional ótimo.
Limite de Frequência de Tokens
Parâmetro que define a frequência mínima que um token deve atingir para ser incluído no vocabulário, crucial para equilibrar a cobertura e o tamanho do vocabulário na tokenização de subpalavras.
Algoritmo de Segmentação de Subpalavras
Conjunto de regras e heurísticas que determinam como dividir palavras desconhecidas em subpalavras existentes no vocabulário, baseado em princípios de maximização da probabilidade e minimização dos segmentos.
Cobertura do Vocabulário
Métrica que avalia a proporção do corpus que pode ser representada sem tokens UNK, otimizada por algoritmos de subpalavras para atingir tipicamente mais de 99,9% de cobertura em corpora modernos.