Glossário IA
O dicionário completo da Inteligência Artificial
MapReduce
Modelo de programação paralela para processamento de grandes conjuntos de dados em clusters, dividindo o processamento em duas fases principais: Map para filtrar e transformar, e Reduce para agregar os resultados.
Lambda Architecture
Arquitetura de processamento de dados que combina um caminho batch para análise completa e um caminho speed para resultados em tempo real, com uma camada de serviço unificada para fundir as duas visões.
Kappa Architecture
Simplificação da arquitetura Lambda usando apenas um pipeline de processamento de fluxo, onde os dados são processados em tempo real e as consultas históricas são atendidas reproduzindo os eventos.
Batch Processing
Modo de processamento onde os dados são coletados e processados em lotes em intervalos predefinidos, otimizado para throughput em vez de latência, típico das análises ETL tradicionais.
Stream Processing
Processamento contínuo de dados em movimento à medida que são gerados, permitindo análises em tempo real com latência mínima entre a captura e o processamento.
Distributed File System
Sistema de arquivos que armazena dados em vários servidores enquanto aparece como um sistema único para os usuários, garantindo replicação e tolerância a falhas para confiabilidade.
HDFS
Hadoop Distributed File System, sistema de arquivos distribuído projetado para armazenar petabytes de dados em hardware padrão com alta tolerância a falhas através da replicação de blocos.
YARN
Yet Another Resource Negotiator, gerenciador de recursos do Hadoop que separa o processamento de dados do gerenciamento de recursos, permitindo a execução de múltiplos frameworks no mesmo cluster.
RDD
Resilient Distributed Dataset, estrutura de dados fundamental do Spark representando uma coleção imutável e particionada de objetos que pode ser calculada em paralelo com tolerância a falhas automática.
Data Locality
Princípio de computação distribuída onde as tarefas são executadas nos nós que contêm os dados necessários, minimizando a transferência de rede e melhorando significativamente o desempenho.
Speculative Execution
Mecanismo de tolerância a falhas que lança cópias de tarefas lentas em outros nós, usando o primeiro resultado concluído para reduzir o impacto de nós defeituosos ou sobrecarregados.
DAG
Directed Acyclic Graph, representação do fluxo de trabalho do Spark onde as transformações são organizadas em grafo direcionado sem ciclos, otimizando a execução paralela das etapas.
Fault Tolerance
Capacidade de um sistema distribuído continuar funcionando corretamente em caso de falhas de componentes, geralmente por redundância, replicação e mecanismos de recuperação automática.
Consistency Model
Contrato que define as garantias de consistência de dados em um sistema distribuído, variando da consistência forte à consistência eventual de acordo com as necessidades da aplicação.
Combiner
Função de otimização do MapReduce executada localmente em cada mapper para reduzir o volume de dados transferidos durante o shuffle, aplicando uma pré-agregação antes da fase de redução.