Ecosistema Hadoop - Glosario IA

📖

términos

HDFS

Sistema de archivos distribuido principal de Hadoop diseñado para almacenar petabytes de datos en clústeres de máquinas estándar con replicación automática y tolerancia a fallos.

📖

términos

MapReduce

Paradigma de programación e implementación para el procesamiento distribuido de grandes conjuntos de datos en clústeres, dividiendo las tareas en fases de mapeo y reducción.

📖

términos

YARN

Gestor de recursos de Hadoop que orquesta la asignación de recursos de CPU y memoria a las aplicaciones mientras gestiona el ciclo de vida de las tareas en el clúster.

📖

términos

HBase

Base de datos NoSQL distribuida, orientada a columnas y no relacional construida sobre HDFS, ofreciendo acceso en tiempo real a datos masivos con fuerte consistencia.

📖

términos

Hive

Infraestructura de almacén de datos en Hadoop que permite consultar grandes conjuntos de datos con un lenguaje similar a SQL (HiveQL) mientras utiliza MapReduce para la ejecución.

📖

términos

Pig

Plataforma de análisis de datos de alto nivel que utiliza el lenguaje Pig Latin para expresar programas complejos de transformación de datos ejecutados en Hadoop.

📖

términos

Spark

Motor de procesamiento unificado ultrarrápido para Big Data, ofreciendo APIs en Scala, Java, Python y R con soporte para SQL, streaming, machine learning y procesamiento de grafos.

📖

términos

ZooKeeper

Servicio de coordinación distribuido centralizado para mantener información de configuración, nomenclatura, sincronización distribuida y gestión de grupos de servicios.

📖

términos

Flume

Servicio distribuido, confiable y disponible para recolectar, agregar y mover grandes cantidades de datos de streaming hacia HDFS con arquitectura basada en agentes.

📖

términos

Sqoop

Herramienta diseñada para transferir eficientemente datos en masa entre Hadoop y bases de datos estructuradas como bases de datos relacionales.

📖

términos

Oozie

Sistema de flujo de trabajo y coordinador para gestionar y ejecutar pipelines de procesamiento de datos Hadoop complejos con dependencias temporales y condicionales.

📖

términos

Mahout

Biblioteca de algoritmos de aprendizaje automático y minería de datos distribuidos implementados en Hadoop MapReduce para el procesamiento de grandes conjuntos de datos.

📖

términos

Ambari

Plataforma de gestión y monitoreo de clústeres Hadoop que ofrece una interfaz web para aprovisionar, gestionar y monitorear el ecosistema Hadoop completo.

📖

términos

HCatalog

Servicio de gestión de metadatos y tablas para el ecosistema Hadoop, proporcionando una vista unificada de los datos para herramientas como Pig, Hive y MapReduce.

📖

términos

Avro

Sistema de serialización de datos con esquema evolutivo, proporcionando formatos de datos compactos y rápidos para intercambios entre servicios Hadoop.

📖

términos

Parquet

Formato de archivo columnar optimizado para el rendimiento de consultas analíticas en Hadoop, con compresión eficiente y soporte para tipos complejos.

📖

términos

Impala

Motor de consultas SQL masivamente paralelo para Hadoop que ofrece consultas interactivas de baja latencia sobre datos almacenados en HDFS y HBase.

📖

términos

Tez

Framework de ejecución de datos acíclico generalizado para Hadoop YARN, que optimiza el rendimiento de procesamientos complejos eliminando fases MapReduce innecesarias.

📖

términos

Storm

Sistema distribuido de procesamiento de flujos en tiempo real para Hadoop, capaz de procesar volúmenes masivos de datos con latencias del orden del milisegundo.

📖

términos

Kafka

Plataforma de mensajería distribuida de alto rendimiento y alta disponibilidad para la recolección y procesamiento de flujos de datos en tiempo real en el ecosistema Hadoop.

Glosario IA

HDFS

MapReduce

YARN

HBase

Hive

Pig

Spark

ZooKeeper

Flume

Sqoop

Oozie

Mahout

Ambari

HCatalog

Avro

Parquet

Impala

Tez

Storm

Kafka

No se encontraron resultados