Glossário IA
O dicionário completo da Inteligência Artificial
HDFS
Sistema de arquivos distribuído principal do Hadoop projetado para armazenar petabytes de dados em clusters de máquinas padrão com replicação automática e tolerância a falhas.
MapReduce
Paradigma de programação e implementação para processamento distribuído de grandes conjuntos de dados em clusters, dividindo tarefas em fases de mapeamento e redução.
YARN
Gerenciador de recursos do Hadoop que orquestra a alocação de recursos de CPU e memória para aplicações enquanto gerencia o ciclo de vida das tarefas no cluster.
HBase
Banco de dados NoSQL distribuído, orientado a colunas e não relacional construído sobre HDFS, oferecendo acesso em tempo real a dados massivos com forte consistência.
Hive
Infraestrutura de data warehouse no Hadoop permitindo a consulta de grandes conjuntos de dados com uma linguagem similar ao SQL (HiveQL) enquanto utiliza MapReduce para execução.
Pig
Plataforma de análise de dados de alto nível usando a linguagem Pig Latin para expressar programas complexos de transformação de dados executados no Hadoop.
Spark
Motor de processamento unificado ultrarrápido para Big Data, oferecendo APIs em Scala, Java, Python e R com suporte para SQL, streaming, machine learning e processamento de grafos.
ZooKeeper
Serviço de coordenação distribuído centralizado para manter informações de configuração, nomenclatura, sincronização distribuída e gerenciamento de grupos de serviços.
Flume
Serviço distribuído, confiável e disponível para coletar, agregar e mover grandes quantidades de dados de streaming para HDFS com arquitetura baseada em agentes.
Sqoop
Ferramenta projetada para transferir dados em massa de forma eficiente entre Hadoop e bancos de dados estruturados como bancos de dados relacionais.
Oozie
Sistema de workflow e coordenador para gerenciar e executar pipelines complexos de processamento de dados Hadoop com dependências temporais e condicionais.
Mahout
Biblioteca de algoritmos de machine learning e mineração de dados distribuídos implementados no Hadoop MapReduce para processamento de grandes conjuntos de dados.
Ambari
Plataforma de gerenciamento e monitoramento de clusters Hadoop oferecendo uma interface web para provisionar, gerenciar e monitorar todo o ecossistema Hadoop.
HCatalog
Serviço de gerenciamento de metadados e tabelas para o ecossistema Hadoop, fornecendo uma visão unificada dos dados para ferramentas como Pig, Hive e MapReduce.
Avro
Sistema de serialização de dados com esquema evolutivo, fornecendo formatos de dados compactos e rápidos para trocas entre serviços Hadoop.
Parquet
Formato de arquivo columnar otimizado para desempenho de consultas analíticas no Hadoop, com compressão eficiente e suporte a tipos complexos.
Impala
Motor de consulta SQL massivamente paralelo para Hadoop, oferecendo desempenho de consultas interativas de baixa latência em dados armazenados no HDFS e HBase.
Tez
Framework de execução de dados acíclico generalizado para Hadoop YARN, otimizando o desempenho de processamentos complexos ao eliminar fases MapReduce desnecessárias.
Storm
Sistema distribuído de processamento de fluxo em tempo real para Hadoop, capaz de processar volumes massivos de dados com latências da ordem de milissegundos.
Kafka
Plataforma de mensagens distribuída de alto desempenho e alta disponibilidade para coleta e processamento de fluxos de dados em tempo real no ecossistema Hadoop.