Glosario IA
El diccionario completo de la Inteligencia Artificial
Apache Hadoop MapReduce
Modelo de programación e implementación distribuida para el procesamiento de grandes conjuntos de datos en clústeres, dividiendo los tratamientos en fases Map y Reduce. MapReduce es uno de los primeros frameworks populares para el procesamiento por lotes a gran escala.
ETL (Extract, Transform, Load)
Proceso de integración de datos que consiste en extraer datos de fuentes heterogéneas, transformarlos según las reglas de negocio definidas y luego cargarlos en un sistema objetivo. Los pipelines ETL generalmente se ejecutan por lotes para sincronizar los datos.
Job Scheduling
Mecanismo de programación automática de tareas de procesamiento por lotes según calendarios predefinidos, dependencias o desencadenadores de eventos. Los programadores modernos gestionan la paralelización, los reintentos y la supervisión de las ejecuciones.
Shuffling
Operación costosa de redistribución de datos entre los nodos del clúster durante las fases de agrupamiento o agregación en los tratamientos distribuidos. El shuffling representa a menudo el principal cuello de botella en los trabajos MapReduce y Spark.
HDFS
Sistema de archivos distribuido diseñado para almacenar archivos voluminosos en máquinas estándar con tolerancia a fallos mediante replicación. HDFS proporciona acceso secuencial de alto rendimiento adaptado a los tratamientos por lotes mediante MapReduce.
YARN
Orquestador de recursos para el ecosistema Hadoop, responsable de la asignación de CPU, memoria y almacenamiento a las aplicaciones distribuidas. YARN permite la ejecución concurrente de múltiples frameworks de procesamiento en un mismo clúster Hadoop.
Apache Sqoop
Herramienta de transferencia de datos bidireccional entre Hadoop y bases de datos relacionales, optimizada para importaciones/exportaciones masivas en paralelo. Sqoop genera automáticamente el código MapReduce necesario para mover eficientemente los datos.
Apache Hive
Infraestructura de almacenamiento de datos construida sobre Hadoop que proporciona una interfaz similar a SQL (HQL) para la consulta de grandes volúmenes de datos almacenados en HDFS. Hive traduce las consultas en trabajos MapReduce para la ejecución por lotes.