Glossário IA
O dicionário completo da Inteligência Artificial
Byte Pair Encoding (BPE)
Algoritmo de compressão de dados adaptado para tokenização que funde iterativamente os pares de caracteres mais frequentes para criar um vocabulário de subpalavras otimizado.
WordPiece
Variante do BPE desenvolvida pelo Google que maximiza a probabilidade da linguagem durante a fusão dos tokens, utilizada nomeadamente nos modelos BERT e suas variantes.
Unigram Language Model
Abordagem de tokenização baseada em um modelo de linguagem unigrama que seleciona a melhor segmentação maximizando a probabilidade produto dos tokens na sequência.
SentencePiece
Biblioteca de tokenização independente da língua que trata o texto como uma sequência unicode bruta, eliminando a necessidade de pré-processamento específico para cada língua.
Vocabulary Size
Parâmetro crítico que determina o número total de tokens únicos no vocabulário de um modelo, influenciando diretamente o tamanho do modelo e sua capacidade de lidar com a diversidade linguística.
Special Tokens
Tokens reservados como [CLS], [SEP], [MASK], [PAD] utilizados para delimitar sequências, ocultar elementos ou preencher os lotes até um comprimento uniforme.
Tokenizer Training
Processo de aprendizagem automática do vocabulário e das regras de segmentação a partir de um corpus de texto, otimizando a representação para uma tarefa ou domínio específico.
Subword Regularization
Técnica de aumento de dados aplicando diferentes segmentações possíveis do mesmo texto durante o treinamento, melhorando a robustez e a generalização do modelo.
Truncamento de Vocabulário
Processo de limitar o vocabulário aos N tokens mais frequentes, substituindo tokens menos frequentes por subpalavras ou um token [UNK] para otimizar a eficiência computacional.
Pipeline de Tokenização
Sequência de etapas de pré-processamento incluindo normalização, pré-tokenização, segmentação de modelo e pós-processamento para produzir os tokens finais.
Configuração do Tokenizer
Arquivo de configuração JSON contendo todos os hiperparâmetros e metadados necessários para reproduzir exatamente o comportamento de um tokenizer específico.
Tokenizadores Rápidos
Implementações otimizadas de tokenizadores usando Rust e estruturas de dados eficientes, oferecendo desempenho 10-100x superior às implementações Python puras.
Inferência do Tokenizer
Fase de aplicação de um tokenizer treinado em novos dados textuais, convertendo texto bruto em sequências de tokens prontas para processamento pelo modelo.