Glossário IA
O dicionário completo da Inteligência Artificial
Apache Hadoop MapReduce
Modelo de programação e implementação distribuída para o processamento de grandes conjuntos de dados em clusters, dividindo os processamentos em fases Map e Reduce. MapReduce é um dos primeiros frameworks populares para processamento em lote em larga escala.
ETL (Extract, Transform, Load)
Processo de integração de dados que consiste em extrair dados de fontes heterogêneas, transformá-los de acordo com as regras de negócio definidas e, em seguida, carregá-los em um sistema de destino. Os pipelines ETL são geralmente executados em lote para sincronizar os dados.
Job Scheduling
Mecanismo de agendamento automático de tarefas de processamento em lote de acordo com cronogramas predefinidos, dependências ou gatilhos de eventos. Os agendadores modernos gerenciam a paralelização, as novas tentativas e o monitoramento das execuções.
Shuffling
Operação custosa de redistribuição de dados entre os nós do cluster durante as fases de agrupamento ou agregação em processamentos distribuídos. O shuffling frequentemente representa o principal gargalo em jobs MapReduce e Spark.
HDFS
Sistema de arquivos distribuído projetado para armazenar arquivos volumosos em máquinas padrão com tolerância a falhas por replicação. HDFS fornece acesso sequencial de alto desempenho adequado para processamentos em lote por MapReduce.
YARN
Orquestrador de recursos para o ecossistema Hadoop, responsável pela alocação de CPU, memória e armazenamento para aplicações distribuídas. YARN permite a execução concorrente de múltiplos frameworks de processamento em um mesmo cluster Hadoop.
Apache Sqoop
Ferramenta de transferência de dados bidirecional entre Hadoop e bancos de dados relacionais, otimizada para importações/exportações massivas em paralelo. Sqoop gera automaticamente o código MapReduce necessário para mover dados de forma eficiente.
Apache Hive
Infraestrutura de data warehousing construída sobre Hadoop, fornecendo uma interface SQL-like (HQL) para a consulta de grandes volumes de dados armazenados no HDFS. Hive traduz as consultas em jobs MapReduce para execução em lote.