Glossário IA
O dicionário completo da Inteligência Artificial
Modelagem de Linguagem Mascarada (MLM)
Objetivo de pré-treinamento onde 15% dos tokens são mascarados aleatoriamente e o modelo deve prevê-los usando o contexto bidirecional. Esta técnica permite ao BERT aprender representações contextuais profundas, forçando o modelo a compreender as relações semânticas entre as palavras.
Predição da Próxima Frase (NSP)
Tarefa de pré-treinamento binária onde o modelo prevê se duas frases dadas são consecutivas no texto original. Embora controverso, este objetivo ajuda o BERT a compreender as relações inter-frases para tarefas como QA e NLI.
Tokenização WordPiece
Algoritmo de segmentação que divide as palavras em subunidades morfológicas para gerenciar o vocabulário desconhecido e otimizar a representação. Esta abordagem permite ao BERT processar eficientemente palavras raras e neologismos, decompondo-os em tokens conhecidos.
Mecanismo de Autoatenção
Mecanismo fundamental onde cada token calcula pesos de atenção em relação a todos os outros tokens da sequência. Esta operação permite ao BERT capturar dependências de longa distância e criar representações contextuais ricas.
Embeddings de Segmento
Embeddings especializados que distinguem diferentes segmentos na entrada, tipicamente usados para separar as frases A e B nas tarefas de par de frases. Estes embeddings permitem ao modelo diferenciar o contexto de cada segmento.
Bloco Codificador Transformer
Unidade computacional fundamental do BERT composta por atenção multi-cabeça seguida por uma rede feed-forward com conexões residuais e normalização. Cada bloco processa a sequência inteira simultaneamente, preservando as relações globais.
Camada de Pooling
Camada final que agrega as representações dos tokens em um vetor único para as tarefas de classificação. O BERT tipicamente usa a representação do token [CLS] ou realiza um pooling médio sobre todos os tokens.
Estados Ocultos
Representações vetoriais de alta dimensão produzidas em cada camada do Transformer para cada token da sequência. Estes estados ocultos capturam progressivamente características semânticas cada vez mais abstratas.
Pré-treinamento
Fase de treinamento não supervisionado em vastos corpora onde o BERT aprende representações linguísticas gerais através de MLM e NSP. Esta etapa estabelece as bases de conhecimento do modelo antes do ajuste fino específico para as tarefas.
Arquitetura Encoder-Only
Estrutura do BERT que utiliza apenas os blocos codificadores do Transformer, ao contrário dos modelos encoder-decoder. Esta arquitetura é otimizada para tarefas de compreensão e classificação de texto.
[CLS] Token
Token especial adicionado no início de cada sequência de entrada cuja representação final é utilizada para tarefas de classificação. Este token agrega a informação contextual de toda a sequência para tomar decisões de nível global.