Tokenização Subword - Glossário IA

📖

termos

Tokenização Subpalavra

Técnica de segmentação de texto em unidades linguísticas menores que palavras, mas maiores que caracteres, permitindo gerenciar eficientemente o vocabulário e palavras raras em modelos transformers.

📖

termos

Token Desconhecido (UNK)

Token especial usado para representar palavras ou subpalavras não presentes no vocabulário do tokenizer, permitindo que o modelo lide com entradas fora do vocabulário durante a inferência.

📖

termos

Análise Morfológica

Processo de identificação de morfemas e estruturas gramaticais em palavras, otimizado por tokenizers de subpalavras que capturam naturalmente as regularidades morfológicas das línguas.

📖

termos

Tokenização em Nível de Caractere

Abordagem de segmentação que trata cada caractere individual como um token, eliminando problemas de vocabulário, mas aumentando o comprimento das sequências em detrimento da eficiência computacional.

📖

termos

Tokenização em Nível de Palavra

Método tradicional que usa palavras inteiras como unidades de token, limitado pela explosão do vocabulário e pela incapacidade de lidar com palavras fora do vocabulário e variações morfológicas.

📖

termos

BPE Dropouts

Técnica de regularização que introduz aleatoriedade no processo de tokenização BPE, ignorando algumas fusões durante o treinamento, melhorando a robustez e a generalização do modelo.

📖

termos

Tokens Especiais (CLS, SEP, PAD, MASK)

Tokens reservados com funções específicas no BERT: CLS para classificação, SEP para separação, PAD para alinhamento e MASK para mascaramento durante o pré-treinamento.

📖

termos

Mapeamento de ID de Token

Correspondência bijetiva entre cada token do vocabulário e um identificador numérico único, permitindo a conversão eficiente entre representações textuais e numéricas em modelos neurais.

📖

termos

Compressão de Tokens

Objetivo principal da tokenização de subpalavras, visando minimizar o número médio de tokens por palavra, mantendo um vocabulário de tamanho razoável para um desempenho computacional ótimo.

📖

termos

Limite de Frequência de Tokens

Parâmetro que define a frequência mínima que um token deve atingir para ser incluído no vocabulário, crucial para equilibrar a cobertura e o tamanho do vocabulário na tokenização de subpalavras.

📖

termos

Algoritmo de Segmentação de Subpalavras

Conjunto de regras e heurísticas que determinam como dividir palavras desconhecidas em subpalavras existentes no vocabulário, baseado em princípios de maximização da probabilidade e minimização dos segmentos.

📖

termos

Cobertura do Vocabulário

Métrica que avalia a proporção do corpus que pode ser representada sem tokens UNK, otimizada por algoritmos de subpalavras para atingir tipicamente mais de 99,9% de cobertura em corpora modernos.

Glossário IA

Tokenização Subpalavra

Token Desconhecido (UNK)

Análise Morfológica

Tokenização em Nível de Caractere

Tokenização em Nível de Palavra

BPE Dropouts

Tokens Especiais (CLS, SEP, PAD, MASK)

Mapeamento de ID de Token

Compressão de Tokens

Limite de Frequência de Tokens

Algoritmo de Segmentação de Subpalavras

Cobertura do Vocabulário

Nenhum resultado encontrado