Apache Spark

📖

termos

Framework de código aberto para processamento distribuído em memória, projetado para acelerar análises de Big Data com execução paralela otimizada.

📖

termos

RDD (Resilient Distributed Dataset)

Estrutura de dados fundamental do Spark, imutável e particionada, permitindo tolerância a falhas através da reconstrução de dados perdidos.

📖

termos

DataFrame

Coleção de dados distribuídos organizada em colunas nomeadas, similar a uma tabela de banco de dados, otimizada para consultas estruturadas.

📖

termos

Spark SQL

Módulo do Spark que integra consultas SQL e operações DataFrame com otimização automática através do Catalyst Optimizer.

📖

termos

Spark Streaming

Extensão do Spark que permite o processamento de fluxos de dados em tempo real com micro-lotes para latência quase real.

📖

termos

MLlib

Biblioteca de aprendizado de máquina distribuída do Spark, fornecendo algoritmos de classificação, regressão, clustering e recomendação.

📖

termos

GraphX

API do Spark para processamento distribuído de grafos, combinando as vantagens dos grafos com o desempenho dos RDDs.

📖

termos

DAG (Directed Acyclic Graph)

Representação do plano de execução das transformações do Spark, otimizada para eliminar redundâncias e paralelizar o processamento.

📖

termos

Spark Driver

Processo principal que coordena a execução de tarefas Spark, criando o SparkContext e dividindo operações em estágios.

📖

termos

Spark Executor

Processo worker que executa as tarefas atribuídas pelo Driver em cada nó do cluster, gerenciando memória e dados particionados.

📖

termos

Spark Context

Ponto de entrada principal da aplicação Spark, gerenciando conexões com o cluster e coordenando o acesso a recursos distribuídos.

📖

termos

Partition

Unidade lógica de distribuição de dados no Spark, permitindo paralelismo ao dividir RDDs/DataFrames em fragmentos independentes.

📖

termos

Shuffle

Operação custosa de redistribuição de dados entre partições, necessária durante agregações, junções ou agrupamentos no Spark.

📖

termos

Catalyst Optimizer

Motor de otimização de consultas Spark que transforma e reorganiza planos de execução para melhorar o desempenho.

📖

termos

Tungsten

Backend de execução Spark que otimiza memória e CPU através do gerenciamento binário de dados e geração de código bytecode.

📖

termos

Cache/Persist

Mecanismo de persistência de RDDs/DataFrames em memória ou disco para reutilização rápida e evitar recálculos custosos.

📖

termos

Broadcast Variable

Variável somente leitura distribuída eficientemente para todos os executores para minimizar transferências de rede durante junções.

📖

termos

Accumulator

Variável compartilhada aditiva usada para agregar informações das tarefas paralelas de forma thread-safe.

📖

termos

Transformation

Operação preguiçosa criando um novo RDD/DataFrame sem execução imediata, adiada até uma ação acionadora.

📖

termos

Action

Operação que aciona a execução do plano DAG para produzir um resultado, forçando o cálculo de todas as transformações anteriores.

Glossário IA

Apache Spark

RDD (Resilient Distributed Dataset)

DataFrame

Spark SQL

Spark Streaming

MLlib

GraphX

DAG (Directed Acyclic Graph)

Spark Driver

Spark Executor

Spark Context

Partition

Shuffle

Catalyst Optimizer

Tungsten

Cache/Persist

Broadcast Variable

Accumulator

Transformation

Action

Nenhum resultado encontrado