Procesamiento por Lotes

📖

términos

Apache Hadoop MapReduce

Modelo de programación e implementación distribuida para el procesamiento de grandes conjuntos de datos en clústeres, dividiendo los tratamientos en fases Map y Reduce. MapReduce es uno de los primeros frameworks populares para el procesamiento por lotes a gran escala.

📖

términos

ETL (Extract, Transform, Load)

Proceso de integración de datos que consiste en extraer datos de fuentes heterogéneas, transformarlos según las reglas de negocio definidas y luego cargarlos en un sistema objetivo. Los pipelines ETL generalmente se ejecutan por lotes para sincronizar los datos.

📖

términos

Job Scheduling

Mecanismo de programación automática de tareas de procesamiento por lotes según calendarios predefinidos, dependencias o desencadenadores de eventos. Los programadores modernos gestionan la paralelización, los reintentos y la supervisión de las ejecuciones.

📖

términos

Shuffling

Operación costosa de redistribución de datos entre los nodos del clúster durante las fases de agrupamiento o agregación en los tratamientos distribuidos. El shuffling representa a menudo el principal cuello de botella en los trabajos MapReduce y Spark.

📖

términos

HDFS

Sistema de archivos distribuido diseñado para almacenar archivos voluminosos en máquinas estándar con tolerancia a fallos mediante replicación. HDFS proporciona acceso secuencial de alto rendimiento adaptado a los tratamientos por lotes mediante MapReduce.

📖

términos

YARN

Orquestador de recursos para el ecosistema Hadoop, responsable de la asignación de CPU, memoria y almacenamiento a las aplicaciones distribuidas. YARN permite la ejecución concurrente de múltiples frameworks de procesamiento en un mismo clúster Hadoop.

📖

términos

Apache Sqoop

Herramienta de transferencia de datos bidireccional entre Hadoop y bases de datos relacionales, optimizada para importaciones/exportaciones masivas en paralelo. Sqoop genera automáticamente el código MapReduce necesario para mover eficientemente los datos.

📖

términos

Apache Hive

Infraestructura de almacenamiento de datos construida sobre Hadoop que proporciona una interfaz similar a SQL (HQL) para la consulta de grandes volúmenes de datos almacenados en HDFS. Hive traduce las consultas en trabajos MapReduce para la ejecución por lotes.

Glosario IA

Apache Hadoop MapReduce

ETL (Extract, Transform, Load)

Job Scheduling

Shuffling

HDFS

YARN

Apache Sqoop

Apache Hive

No se encontraron resultados