Glossário IA
O dicionário completo da Inteligência Artificial
Tokenização de Modelo de Linguagem Unigram
Método de tokenização que inicializa um grande vocabulário e depois o reduz iterativamente, removendo as subpalavras com o menor impacto na verossimilhança do modelo unigram, produzindo um vocabulário ótimo.
Vocabulário
Conjunto estático e predefinido de todos os tokens únicos que um modelo de linguagem pode reconhecer e processar, cujo tamanho influencia diretamente as capacidades e a complexidade computacional do modelo.
Token Especial
Token predefinido com uma função semântica específica, como [CLS] para classificação, [SEP] para separação, ou [PAD] para alinhamento de sequências, usado para estruturar as entradas do modelo.
Matriz de Embeddings
Tabela de pesos aprendidos onde cada linha corresponde à representação vetorial densa de um token do vocabulário, servindo como camada de projeção para transformar os identificadores de tokens em vetores.
Tokenização de Subpalavras
Estratégia de tokenização que divide as palavras em unidades menores (subpalavras), permitindo gerenciar um vocabulário finito enquanto é capaz de representar uma infinidade de palavras, incluindo neologismos e erros de digitação.
Tokenização ao Nível do Caractere
Abordagem de tokenização granular onde cada caractere se torna um token, eliminando o problema de palavras fora do vocabulário, mas gerando sequências muito longas e aumentando a complexidade computacional.
Tokenização ao Nível da Palavra
Método de segmentação onde cada palavra inteira, delimitada por espaços ou pontuação, é tratada como um token único, simples mas vulnerável ao problema de palavras fora do vocabulário (OOV).
Método de Tokenização
Conjunto de regras e algoritmos específicos (ex: BPE, WordPiece) que definem como o texto bruto é dividido em tokens, influenciando diretamente o desempenho e a robustez do modelo.
Tokenização por Espaços em Branco (Whitespace Tokenization)
Técnica de tokenização simples que segmenta o texto baseando-se unicamente nos caracteres de espaço em branco, frequentemente utilizada como um primeiro passo antes de métodos mais sofisticados.
Tokenização por Expressão Regular (Regex Tokenization)
Método de segmentação que utiliza padrões de expressão regular para definir regras complexas de tokenização, permitindo separar palavras, pontuação e outros símbolos de forma controlada.
Tokenização SentencePiece
Implementação específica que considera o texto como um fluxo de Unicode e aplica um algoritmo de tokenização (como BPE ou unigram) para criar um vocabulário totalmente decodificável e independente da língua.
Tokenização por Pares de Caracteres (Character Pair Encoding)
Variante de BPE que opera ao nível dos caracteres em vez dos bytes, fundindo os pares de caracteres adjacentes mais frequentes para construir um vocabulário de subpalavras.
Tokenização por N-gramas
Abordagem que segmenta o texto em sequências contíguas de n itens (caracteres ou palavras), capturando informações de contexto local, mas sofrendo de uma explosão combinatória do vocabulário.