Glosario IA
El diccionario completo de la Inteligencia Artificial
Evaluación Perezosa
Estrategia donde las transformaciones solo se ejecutan cuando se activa una acción, permitiendo optimizaciones globales del plan de ejecución.
Variables de Broadcast
Variables de solo lectura distribuidas eficientemente a todos los nodos para evitar transferencias repetitivas de datos durante las operaciones distribuidas.
Acumuladores
Variables compartidas que solo pueden ser agregadas por operaciones asociativas y conmutativas, utilizadas para la agregación paralela de información.
Etapa
Conjunto de transformaciones que pueden ejecutarse sin shuffle, representando una fase de ejecución en el DAG de los trabajos de Spark.
Driver
Proceso principal que coordina la ejecución de las tareas distribuidas, creando el DAG y orquestando los ejecutores en las aplicaciones de Spark.
Executor
Proceso worker que ejecuta las tareas en los nodos del clúster, gestionando las particiones de datos y las operaciones de cálculo asignadas por el driver.
Serialización
Proceso de conversión de objetos a formato binario para almacenamiento o transferencia de red, crítico para el rendimiento de los sistemas distribuidos.
Contenedor
Unidad de asignación de recursos YARN que encapsula CPU, memoria y otros recursos necesarios para la ejecución de una tarea específica.
Pipeline
Cadena de tratamientos conectados donde la salida de una etapa alimenta directamente la entrada de la siguiente, optimizando el flujo de datos en Spark Streaming.