Glossário IA
O dicionário completo da Inteligência Artificial
Avaliação Preguiçosa
Estratégia onde as transformações são executadas apenas quando uma ação é acionada, permitindo otimizações globais do plano de execução.
Variáveis de Broadcast
Variáveis somente leitura distribuídas eficientemente para todos os nós para evitar transferências repetitivas de dados durante operações distribuídas.
Acumuladores
Variáveis compartilhadas que só podem ser adicionadas por operações associativas e comutativas, usadas para agregação paralela de informações.
Estágio
Conjunto de transformações que podem ser executadas sem shuffle, representando uma fase de execução no DAG dos jobs Spark.
Driver
Processo principal que coordena a execução de tarefas distribuídas, criando o DAG e orquestrando os executores em aplicações Spark.
Executor
Processo worker que executa as tarefas nos nós do cluster, gerenciando as partições de dados e as operações de cálculo atribuídas pelo driver.
Serialização
Processo de conversão de objetos para formato binário para armazenamento ou transferência de rede, crítico para o desempenho de sistemas distribuídos.
Contêiner
Unidade de alocação de recursos YARN que encapsula CPU, memória e outros recursos necessários para a execução de uma tarefa específica.
Pipeline
Cadeia de processamentos conectados onde a saída de uma etapa alimenta diretamente a entrada da próxima, otimizando o fluxo de dados no Spark Streaming.