Glossário IA
O dicionário completo da Inteligência Artificial
Apache Spark
Framework de código aberto para processamento distribuído em memória, projetado para acelerar análises de Big Data com execução paralela otimizada.
RDD (Resilient Distributed Dataset)
Estrutura de dados fundamental do Spark, imutável e particionada, permitindo tolerância a falhas através da reconstrução de dados perdidos.
DataFrame
Coleção de dados distribuídos organizada em colunas nomeadas, similar a uma tabela de banco de dados, otimizada para consultas estruturadas.
Spark SQL
Módulo do Spark que integra consultas SQL e operações DataFrame com otimização automática através do Catalyst Optimizer.
Spark Streaming
Extensão do Spark que permite o processamento de fluxos de dados em tempo real com micro-lotes para latência quase real.
MLlib
Biblioteca de aprendizado de máquina distribuída do Spark, fornecendo algoritmos de classificação, regressão, clustering e recomendação.
GraphX
API do Spark para processamento distribuído de grafos, combinando as vantagens dos grafos com o desempenho dos RDDs.
DAG (Directed Acyclic Graph)
Representação do plano de execução das transformações do Spark, otimizada para eliminar redundâncias e paralelizar o processamento.
Spark Driver
Processo principal que coordena a execução de tarefas Spark, criando o SparkContext e dividindo operações em estágios.
Spark Executor
Processo worker que executa as tarefas atribuídas pelo Driver em cada nó do cluster, gerenciando memória e dados particionados.
Spark Context
Ponto de entrada principal da aplicação Spark, gerenciando conexões com o cluster e coordenando o acesso a recursos distribuídos.
Partition
Unidade lógica de distribuição de dados no Spark, permitindo paralelismo ao dividir RDDs/DataFrames em fragmentos independentes.
Shuffle
Operação custosa de redistribuição de dados entre partições, necessária durante agregações, junções ou agrupamentos no Spark.
Catalyst Optimizer
Motor de otimização de consultas Spark que transforma e reorganiza planos de execução para melhorar o desempenho.
Tungsten
Backend de execução Spark que otimiza memória e CPU através do gerenciamento binário de dados e geração de código bytecode.
Cache/Persist
Mecanismo de persistência de RDDs/DataFrames em memória ou disco para reutilização rápida e evitar recálculos custosos.
Broadcast Variable
Variável somente leitura distribuída eficientemente para todos os executores para minimizar transferências de rede durante junções.
Accumulator
Variável compartilhada aditiva usada para agregar informações das tarefas paralelas de forma thread-safe.
Transformation
Operação preguiçosa criando um novo RDD/DataFrame sem execução imediata, adiada até uma ação acionadora.
Action
Operação que aciona a execução do plano DAG para produzir um resultado, forçando o cálculo de todas as transformações anteriores.