Modelos de Computação Distribuída

📖

termos

MapReduce

Modelo de programação paralela para processamento de grandes conjuntos de dados em clusters, dividindo o processamento em duas fases principais: Map para filtrar e transformar, e Reduce para agregar os resultados.

📖

termos

Lambda Architecture

Arquitetura de processamento de dados que combina um caminho batch para análise completa e um caminho speed para resultados em tempo real, com uma camada de serviço unificada para fundir as duas visões.

📖

termos

Kappa Architecture

Simplificação da arquitetura Lambda usando apenas um pipeline de processamento de fluxo, onde os dados são processados em tempo real e as consultas históricas são atendidas reproduzindo os eventos.

📖

termos

Batch Processing

Modo de processamento onde os dados são coletados e processados em lotes em intervalos predefinidos, otimizado para throughput em vez de latência, típico das análises ETL tradicionais.

📖

termos

Stream Processing

Processamento contínuo de dados em movimento à medida que são gerados, permitindo análises em tempo real com latência mínima entre a captura e o processamento.

📖

termos

Distributed File System

Sistema de arquivos que armazena dados em vários servidores enquanto aparece como um sistema único para os usuários, garantindo replicação e tolerância a falhas para confiabilidade.

📖

termos

HDFS

Hadoop Distributed File System, sistema de arquivos distribuído projetado para armazenar petabytes de dados em hardware padrão com alta tolerância a falhas através da replicação de blocos.

📖

termos

YARN

Yet Another Resource Negotiator, gerenciador de recursos do Hadoop que separa o processamento de dados do gerenciamento de recursos, permitindo a execução de múltiplos frameworks no mesmo cluster.

📖

termos

RDD

Resilient Distributed Dataset, estrutura de dados fundamental do Spark representando uma coleção imutável e particionada de objetos que pode ser calculada em paralelo com tolerância a falhas automática.

📖

termos

Data Locality

Princípio de computação distribuída onde as tarefas são executadas nos nós que contêm os dados necessários, minimizando a transferência de rede e melhorando significativamente o desempenho.

📖

termos

Speculative Execution

Mecanismo de tolerância a falhas que lança cópias de tarefas lentas em outros nós, usando o primeiro resultado concluído para reduzir o impacto de nós defeituosos ou sobrecarregados.

📖

termos

DAG

Directed Acyclic Graph, representação do fluxo de trabalho do Spark onde as transformações são organizadas em grafo direcionado sem ciclos, otimizando a execução paralela das etapas.

📖

termos

Fault Tolerance

Capacidade de um sistema distribuído continuar funcionando corretamente em caso de falhas de componentes, geralmente por redundância, replicação e mecanismos de recuperação automática.

📖

termos

Consistency Model

Contrato que define as garantias de consistência de dados em um sistema distribuído, variando da consistência forte à consistência eventual de acordo com as necessidades da aplicação.

📖

termos

Combiner

Função de otimização do MapReduce executada localmente em cada mapper para reduzir o volume de dados transferidos durante o shuffle, aplicando uma pré-agregação antes da fase de redução.

Glossário IA

MapReduce

Lambda Architecture

Kappa Architecture

Batch Processing

Stream Processing

Distributed File System

HDFS

YARN

RDD

Data Locality

Speculative Execution

DAG

Fault Tolerance

Consistency Model

Combiner

Nenhum resultado encontrado