Hadoop Ecosystem - Glossário IA

📖

termos

HDFS

Sistema de arquivos distribuído principal do Hadoop projetado para armazenar petabytes de dados em clusters de máquinas padrão com replicação automática e tolerância a falhas.

📖

termos

MapReduce

Paradigma de programação e implementação para processamento distribuído de grandes conjuntos de dados em clusters, dividindo tarefas em fases de mapeamento e redução.

📖

termos

YARN

Gerenciador de recursos do Hadoop que orquestra a alocação de recursos de CPU e memória para aplicações enquanto gerencia o ciclo de vida das tarefas no cluster.

📖

termos

HBase

Banco de dados NoSQL distribuído, orientado a colunas e não relacional construído sobre HDFS, oferecendo acesso em tempo real a dados massivos com forte consistência.

📖

termos

Hive

Infraestrutura de data warehouse no Hadoop permitindo a consulta de grandes conjuntos de dados com uma linguagem similar ao SQL (HiveQL) enquanto utiliza MapReduce para execução.

📖

termos

Pig

Plataforma de análise de dados de alto nível usando a linguagem Pig Latin para expressar programas complexos de transformação de dados executados no Hadoop.

📖

termos

Spark

Motor de processamento unificado ultrarrápido para Big Data, oferecendo APIs em Scala, Java, Python e R com suporte para SQL, streaming, machine learning e processamento de grafos.

📖

termos

ZooKeeper

Serviço de coordenação distribuído centralizado para manter informações de configuração, nomenclatura, sincronização distribuída e gerenciamento de grupos de serviços.

📖

termos

Flume

Serviço distribuído, confiável e disponível para coletar, agregar e mover grandes quantidades de dados de streaming para HDFS com arquitetura baseada em agentes.

📖

termos

Sqoop

Ferramenta projetada para transferir dados em massa de forma eficiente entre Hadoop e bancos de dados estruturados como bancos de dados relacionais.

📖

termos

Oozie

Sistema de workflow e coordenador para gerenciar e executar pipelines complexos de processamento de dados Hadoop com dependências temporais e condicionais.

📖

termos

Mahout

Biblioteca de algoritmos de machine learning e mineração de dados distribuídos implementados no Hadoop MapReduce para processamento de grandes conjuntos de dados.

📖

termos

Ambari

Plataforma de gerenciamento e monitoramento de clusters Hadoop oferecendo uma interface web para provisionar, gerenciar e monitorar todo o ecossistema Hadoop.

📖

termos

HCatalog

Serviço de gerenciamento de metadados e tabelas para o ecossistema Hadoop, fornecendo uma visão unificada dos dados para ferramentas como Pig, Hive e MapReduce.

📖

termos

Avro

Sistema de serialização de dados com esquema evolutivo, fornecendo formatos de dados compactos e rápidos para trocas entre serviços Hadoop.

📖

termos

Parquet

Formato de arquivo columnar otimizado para desempenho de consultas analíticas no Hadoop, com compressão eficiente e suporte a tipos complexos.

📖

termos

Impala

Motor de consulta SQL massivamente paralelo para Hadoop, oferecendo desempenho de consultas interativas de baixa latência em dados armazenados no HDFS e HBase.

📖

termos

Tez

Framework de execução de dados acíclico generalizado para Hadoop YARN, otimizando o desempenho de processamentos complexos ao eliminar fases MapReduce desnecessárias.

📖

termos

Storm

Sistema distribuído de processamento de fluxo em tempo real para Hadoop, capaz de processar volumes massivos de dados com latências da ordem de milissegundos.

📖

termos

Kafka

Plataforma de mensagens distribuída de alto desempenho e alta disponibilidade para coleta e processamento de fluxos de dados em tempo real no ecossistema Hadoop.

Glossário IA

HDFS

MapReduce

YARN

HBase

Hive

Pig

Spark

ZooKeeper

Flume

Sqoop

Oozie

Mahout

Ambari

HCatalog

Avro

Parquet

Impala

Tez

Storm

Kafka

Nenhum resultado encontrado