Tokenização - Glossário IA

📖

termos

Tokenizador

Ferramenta ou algoritmo específico que implementa as regras e métodos de decomposição de texto em tokens de acordo com um esquema predeterminado. Os tokenizadores modernos incluem pré-processamentos como normalização Unicode e pré-tokenização antes da segmentação principal.

📖

termos

Tokenização por Caractere

Abordagem de granularidade fina onde cada caractere individual se torna um token, eliminando completamente o problema das palavras fora do vocabulário. Embora teoricamente perfeita para cobertura, este método aumenta consideravelmente o comprimento das sequências e reduz a eficiência computacional.

📖

termos

Tokenização por Palavra

Método tradicional onde cada palavra completa (delimitada por espaços ou pontuações) se torna um token único. Esta abordagem sofre de limitações significativas com palavras raras, erros de ortografia e vocabulários de grande porte, tornando-a pouco adequada para LLMs modernos.

📖

termos

Tokenização por Subpalavra

Estratégia intermediária que divide as palavras em fragmentos significativos baseados em estatísticas de coocorrência, como prefixos, sufixos ou radicais. Este método representa o estado da arte em transformers, otimizando o equilíbrio entre cobertura do vocabulário e eficiência computacional.

📖

termos

Espaço de Tokenização

Dimensão matemática definida pelo tamanho total do vocabulário, onde cada token é mapeado para um identificador numérico único. Este espaço determina a complexidade computacional do processamento e influencia diretamente o tamanho dos embeddings e das camadas de atenção nas arquiteturas de transformers.

📖

termos

Tokenização Contextual

Técnica avançada onde a decisão de segmentação depende do contexto circundante, permitindo tokenizações diferentes para a mesma palavra de acordo com seu uso. Esta abordagem, utilizada em modelos como XLNet, melhora a representação semântica, mas aumenta significativamente a complexidade computacional.

📖

termos

Fora do Vocabulário (OOV)

Problema encontrado quando tokens não presentes no vocabulário pré-definido aparecem durante a inferência, exigindo estratégias de gerenciamento específicas. As abordagens modernas de tokenização por subpalavra reduzem consideravelmente as ocorrências de OOV, mas o tratamento desses casos permanece crucial para a robustez.

📖

termos

Tokenização Gulosa

Estratégia de segmentação que sempre seleciona o token mais longo possível correspondente ao início da palavra restante a ser processada. Esta abordagem simples e rápida pode, no entanto, por vezes produzir sub-optimalidades em comparação com métodos globais que consideram a sequência inteira.

📖

termos

Tokenização probabilística

Abordagem que utiliza modelos probabilísticos para avaliar diferentes segmentações possíveis e selecionar a mais provável de acordo com o corpus de treinamento. Ao contrário dos métodos determinísticos, ela pode produzir tokenizações variáveis em função das probabilidades condicionais aprendidas.

Glossário IA

Tokenizador

Tokenização por Caractere

Tokenização por Palavra

Tokenização por Subpalavra

Espaço de Tokenização

Tokenização Contextual

Fora do Vocabulário (OOV)

Tokenização Gulosa

Tokenização probabilística

Nenhum resultado encontrado