Glossário IA
O dicionário completo da Inteligência Artificial
Tokenizador
Ferramenta ou algoritmo específico que implementa as regras e métodos de decomposição de texto em tokens de acordo com um esquema predeterminado. Os tokenizadores modernos incluem pré-processamentos como normalização Unicode e pré-tokenização antes da segmentação principal.
Tokenização por Caractere
Abordagem de granularidade fina onde cada caractere individual se torna um token, eliminando completamente o problema das palavras fora do vocabulário. Embora teoricamente perfeita para cobertura, este método aumenta consideravelmente o comprimento das sequências e reduz a eficiência computacional.
Tokenização por Palavra
Método tradicional onde cada palavra completa (delimitada por espaços ou pontuações) se torna um token único. Esta abordagem sofre de limitações significativas com palavras raras, erros de ortografia e vocabulários de grande porte, tornando-a pouco adequada para LLMs modernos.
Tokenização por Subpalavra
Estratégia intermediária que divide as palavras em fragmentos significativos baseados em estatísticas de coocorrência, como prefixos, sufixos ou radicais. Este método representa o estado da arte em transformers, otimizando o equilíbrio entre cobertura do vocabulário e eficiência computacional.
Espaço de Tokenização
Dimensão matemática definida pelo tamanho total do vocabulário, onde cada token é mapeado para um identificador numérico único. Este espaço determina a complexidade computacional do processamento e influencia diretamente o tamanho dos embeddings e das camadas de atenção nas arquiteturas de transformers.
Tokenização Contextual
Técnica avançada onde a decisão de segmentação depende do contexto circundante, permitindo tokenizações diferentes para a mesma palavra de acordo com seu uso. Esta abordagem, utilizada em modelos como XLNet, melhora a representação semântica, mas aumenta significativamente a complexidade computacional.
Fora do Vocabulário (OOV)
Problema encontrado quando tokens não presentes no vocabulário pré-definido aparecem durante a inferência, exigindo estratégias de gerenciamento específicas. As abordagens modernas de tokenização por subpalavra reduzem consideravelmente as ocorrências de OOV, mas o tratamento desses casos permanece crucial para a robustez.
Tokenização Gulosa
Estratégia de segmentação que sempre seleciona o token mais longo possível correspondente ao início da palavra restante a ser processada. Esta abordagem simples e rápida pode, no entanto, por vezes produzir sub-optimalidades em comparação com métodos globais que consideram a sequência inteira.
Tokenização probabilística
Abordagem que utiliza modelos probabilísticos para avaliar diferentes segmentações possíveis e selecionar a mais provável de acordo com o corpus de treinamento. Ao contrário dos métodos determinísticos, ela pode produzir tokenizações variáveis em função das probabilidades condicionais aprendidas.