Arquitetura BERT - Glossário IA

📖

termos

Modelagem de Linguagem Mascarada (MLM)

Objetivo de pré-treinamento onde 15% dos tokens são mascarados aleatoriamente e o modelo deve prevê-los usando o contexto bidirecional. Esta técnica permite ao BERT aprender representações contextuais profundas, forçando o modelo a compreender as relações semânticas entre as palavras.

📖

termos

Predição da Próxima Frase (NSP)

Tarefa de pré-treinamento binária onde o modelo prevê se duas frases dadas são consecutivas no texto original. Embora controverso, este objetivo ajuda o BERT a compreender as relações inter-frases para tarefas como QA e NLI.

📖

termos

Tokenização WordPiece

Algoritmo de segmentação que divide as palavras em subunidades morfológicas para gerenciar o vocabulário desconhecido e otimizar a representação. Esta abordagem permite ao BERT processar eficientemente palavras raras e neologismos, decompondo-os em tokens conhecidos.

📖

termos

Mecanismo de Autoatenção

Mecanismo fundamental onde cada token calcula pesos de atenção em relação a todos os outros tokens da sequência. Esta operação permite ao BERT capturar dependências de longa distância e criar representações contextuais ricas.

📖

termos

Embeddings de Segmento

Embeddings especializados que distinguem diferentes segmentos na entrada, tipicamente usados para separar as frases A e B nas tarefas de par de frases. Estes embeddings permitem ao modelo diferenciar o contexto de cada segmento.

📖

termos

Bloco Codificador Transformer

Unidade computacional fundamental do BERT composta por atenção multi-cabeça seguida por uma rede feed-forward com conexões residuais e normalização. Cada bloco processa a sequência inteira simultaneamente, preservando as relações globais.

📖

termos

Camada de Pooling

Camada final que agrega as representações dos tokens em um vetor único para as tarefas de classificação. O BERT tipicamente usa a representação do token [CLS] ou realiza um pooling médio sobre todos os tokens.

📖

termos

Estados Ocultos

Representações vetoriais de alta dimensão produzidas em cada camada do Transformer para cada token da sequência. Estes estados ocultos capturam progressivamente características semânticas cada vez mais abstratas.

📖

termos

Pré-treinamento

Fase de treinamento não supervisionado em vastos corpora onde o BERT aprende representações linguísticas gerais através de MLM e NSP. Esta etapa estabelece as bases de conhecimento do modelo antes do ajuste fino específico para as tarefas.

📖

termos

Arquitetura Encoder-Only

Estrutura do BERT que utiliza apenas os blocos codificadores do Transformer, ao contrário dos modelos encoder-decoder. Esta arquitetura é otimizada para tarefas de compreensão e classificação de texto.

📖

termos

[CLS] Token

Token especial adicionado no início de cada sequência de entrada cuja representação final é utilizada para tarefas de classificação. Este token agrega a informação contextual de toda a sequência para tomar decisões de nível global.

Glossário IA

Modelagem de Linguagem Mascarada (MLM)

Predição da Próxima Frase (NSP)

Tokenização WordPiece

Mecanismo de Autoatenção

Embeddings de Segmento

Bloco Codificador Transformer

Camada de Pooling

Estados Ocultos

Pré-treinamento

Arquitetura Encoder-Only

[CLS] Token

Nenhum resultado encontrado