Glossário IA
O dicionário completo da Inteligência Artificial
Visão de Dados
Representação distinta dos mesmos dados utilizada no co-treinamento, onde cada visão fornece informações complementares para a aprendizagem. As visões devem ser estatisticamente independentes condicionalmente à classe para garantir a eficácia do co-treinamento.
Classificador
Modelo algorítmico encarregado de atribuir rótulos de classe aos dados de entrada de acordo com critérios pré-definidos. No co-treinamento, os classificadores trabalham em colaboração para melhorar mutuamente seu desempenho.
Rotulagem Automática
Processo pelo qual um algoritmo atribui rótulos a dados não rotulados sem intervenção humana direta. No co-treinamento, essa rotulagem é baseada na confiança dos classificadores em suas previsões.
Amostragem de Instâncias
Método de seleção de exemplos não rotulados a serem adicionados ao conjunto de treinamento com base em sua pontuação de confiança. As instâncias mais confiáveis são escolhidas para enriquecer progressivamente o conjunto de aprendizagem.
Divergência de Classificadores
Princípio fundamental do co-treinamento onde os classificadores devem cometer erros diferentes para serem complementares. Essa divergência maximiza a informação mútua e melhora a robustez do sistema global.
Pool de Dados Não Rotulados
Conjunto de dados sem rótulos utilizado pelos algoritmos de co-treinamento para enriquecer o conjunto de treinamento inicial. Esses dados são progressivamente rotulados à medida que os classificadores ganham confiança.
Limiar de Confiança
Valor numérico que determina o nível mínimo de confiança exigido para que um classificador rotule uma instância não rotulada. Este limiar crucial equilibra a adição de novos dados e o risco de introduzir ruído.
Co-EM
Variante do co-treinamento inspirada no algoritmo Expectation-Maximization onde os classificadores se alternam nas fases E e M. Cada classificador estima os rótulos ausentes e depois otimiza seus parâmetros com base nessas estimativas.
Aprendizagem colaborativa democrática
Método onde múltiplos classificadores votam democraticamente para decidir a rotulagem de novas instâncias. Cada classificador pode usar diferentes visões ou algoritmos, promovendo a diversidade das previsões.
Co-treinamento de visão única
Variante do co-treinamento que funciona com uma única visão dos dados, criando artificialmente múltiplas visões. Esta abordagem utiliza subconjuntos de características ou diferentes instâncias do mesmo algoritmo.
Propagação de rótulos
Técnica semi-supervisionada onde os rótulos se propagam através de um grafo de similaridade entre as instâncias. Complementar ao co-treinamento, pode ser usada para inicializar ou refinar os rótulos.
Supervisão fraca
Paradigma de aprendizagem que utiliza rótulos imprecisos, incompletos ou ruidosos para treinar modelos. O co-treinamento se insere neste contexto, gerando progressivamente rótulos de melhor qualidade.
Co-treinamento baseado em grafos
Abordagem que combina co-treinamento e métodos baseados em grafos para explorar a estrutura dos dados. Os nós do grafo representam as instâncias e as arestas codificam suas similaridades.
Co-floresta
Algoritmo de co-treinamento baseado em random forests onde múltiplas árvores de decisão se treinam mutuamente. Cada árvore utiliza um subconjunto aleatório de características, criando naturalmente diferentes visões.
Amostragem baseada em confiança
Estratégia de seleção de instâncias não rotuladas baseada nos scores de probabilidade dos classificadores. Apenas as instâncias que excedem um certo limiar de confiança são adicionadas ao conjunto de treinamento.
Consistência multi-visão
Princípio segundo o qual as previsões dos classificadores em diferentes visões dos mesmos dados devem ser consistentes. Esta hipótese sustenta a eficácia dos métodos de co-treinamento na aprendizagem semi-supervisionada.