Glossário IA
O dicionário completo da Inteligência Artificial
Modelo Professor
Modelo neural grande e complexo pré-treinado que serve como fonte de conhecimento para treinar um modelo mais compacto através do processo de destilação.
Modelo Aluno
Modelo neural de tamanho reduzido que aprende a imitar o comportamento do modelo professor, beneficiando de suas generalizações enquanto é mais eficiente em termos computacionais.
Alvos Suaves
Probabilidades de saída do modelo professor antes da aplicação da função argmax, contendo informações sobre as relações entre classes que os rótulos duros não capturam.
Escalonamento de Temperatura
Técnica de ajuste dos logits dividindo por um parâmetro de temperatura para suavizar a distribuição de probabilidade e revelar as relações inter-classe durante a destilação.
Alvos Duros
Rótulos de verdade terrena tradicionais (one-hot encoded) usados conjuntamente com os alvos suaves para manter a exatidão das previsões durante a destilação.
Conhecimento Escuro
Informações sutis contidas nas probabilidades de saída do modelo professor que revelam similaridades entre classes e não estão presentes nos rótulos duros.
Perda de Destilação
Função de perda combinada que mede tanto a divergência entre as previsões suaves do aluno e do professor, quanto a exatidão em relação aos rótulos duros.
Destilação de Características
Variante da destilação onde o aluno aprende a reproduzir as representações intermediárias (características) do professor em vez de apenas as previsões finais.
Destilação de Conhecimento Relacional
Abordagem onde o student aprende as relações estruturais entre as amostras de treinamento preservadas pelo teacher, além das previsões individuais.
Auto Destilação de Conhecimento
Técnica onde um modelo se auto-destila usando seu próprio conhecimento em diferentes estágios de treinamento ou diferentes ramificações para melhorar seu desempenho.
Destilação Multi-Professor
Estratégia usando múltiplos modelos teachers para transferir conhecimentos diversificados para um único student, combinando suas respectivas expertises.
Destilação Online
Método onde os modelos teachers e students são treinados simultaneamente, permitindo uma transferência de conhecimento dinâmica e adaptativa durante o processo de aprendizado.
Destilação de Conhecimento Zero-Shot
Abordagem que permite destilar o conhecimento de um teacher sem necessidade de dados de treinamento, usando apenas os pesos do modelo pré-treinado.
Destilação Baseada em Atenção
Técnica específica onde o student aprende a reproduzir os mapas de atenção do teacher, transferindo assim o conhecimento sobre as partes importantes dos dados de entrada.
Destilação de Conhecimento Estrutural
Método que preserva a estrutura e a arquitetura do teacher no student, mantendo as relações entre as camadas e os fluxos de informação originais.
Destilação de Conhecimento Progressiva
Estratégia em múltiplas etapas onde um modelo intermediário serve como teacher para o student final, permitindo uma transição suave do conhecimento.
Purificação do Conhecimento
Processo de filtragem de conhecimento ruidoso ou incorreto do teacher antes da destilação, garantindo uma transferência de conhecimento de melhor qualidade para o student.
Destilação de Conhecimento Heterogênea
Abordagem onde teacher e student têm arquiteturas diferentes (CNN para Transformer, por exemplo), necessitando de técnicas de adaptação específicas para a transferência de conhecimento.