Processamento em Lotes - Glossário IA

📖

termos

Apache Hadoop MapReduce

Modelo de programação e implementação distribuída para o processamento de grandes conjuntos de dados em clusters, dividindo os processamentos em fases Map e Reduce. MapReduce é um dos primeiros frameworks populares para processamento em lote em larga escala.

📖

termos

ETL (Extract, Transform, Load)

Processo de integração de dados que consiste em extrair dados de fontes heterogêneas, transformá-los de acordo com as regras de negócio definidas e, em seguida, carregá-los em um sistema de destino. Os pipelines ETL são geralmente executados em lote para sincronizar os dados.

📖

termos

Job Scheduling

Mecanismo de agendamento automático de tarefas de processamento em lote de acordo com cronogramas predefinidos, dependências ou gatilhos de eventos. Os agendadores modernos gerenciam a paralelização, as novas tentativas e o monitoramento das execuções.

📖

termos

Shuffling

Operação custosa de redistribuição de dados entre os nós do cluster durante as fases de agrupamento ou agregação em processamentos distribuídos. O shuffling frequentemente representa o principal gargalo em jobs MapReduce e Spark.

📖

termos

HDFS

Sistema de arquivos distribuído projetado para armazenar arquivos volumosos em máquinas padrão com tolerância a falhas por replicação. HDFS fornece acesso sequencial de alto desempenho adequado para processamentos em lote por MapReduce.

📖

termos

YARN

Orquestrador de recursos para o ecossistema Hadoop, responsável pela alocação de CPU, memória e armazenamento para aplicações distribuídas. YARN permite a execução concorrente de múltiplos frameworks de processamento em um mesmo cluster Hadoop.

📖

termos

Apache Sqoop

Ferramenta de transferência de dados bidirecional entre Hadoop e bancos de dados relacionais, otimizada para importações/exportações massivas em paralelo. Sqoop gera automaticamente o código MapReduce necessário para mover dados de forma eficiente.

📖

termos

Apache Hive

Infraestrutura de data warehousing construída sobre Hadoop, fornecendo uma interface SQL-like (HQL) para a consulta de grandes volumes de dados armazenados no HDFS. Hive traduz as consultas em jobs MapReduce para execução em lote.

Glossário IA

Apache Hadoop MapReduce

ETL (Extract, Transform, Load)

Job Scheduling

Shuffling

HDFS

YARN

Apache Sqoop

Apache Hive

Nenhum resultado encontrado