Glosario IA
El diccionario completo de la Inteligencia Artificial
Apache Spark
Framework de código abierto para procesamiento distribuido en memoria diseñado para acelerar el análisis de Big Data con ejecución paralela optimizada.
RDD (Resilient Distributed Dataset)
Estructura de datos fundamental de Spark, inmutable y particionada, que permite la tolerancia a fallos mediante la reconstrucción de datos perdidos.
DataFrame
Colección de datos distribuidos organizada en columnas nombradas, similar a una tabla de base de datos, optimizada para consultas estructuradas.
Spark SQL
Módulo de Spark que integra consultas SQL y operaciones DataFrame con optimización automática a través del Catalyst Optimizer.
Spark Streaming
Extensión de Spark que permite el procesamiento de flujos de datos en tiempo real con micro-lotes para una latencia casi en tiempo real.
MLlib
Biblioteca de aprendizaje automático distribuido de Spark que proporciona algoritmos de clasificación, regresión, clustering y recomendación.
GraphX
API de Spark para el procesamiento distribuido de grafos, combinando las ventajas de los grafos con el rendimiento de los RDD.
DAG (Directed Acyclic Graph)
Representación del plan de ejecución de las transformaciones de Spark, optimizado para eliminar redundancias y paralelizar el procesamiento.
Spark Driver
Proceso principal que coordina la ejecución de tareas Spark, crea el SparkContext y divide las operaciones en etapas.
Spark Executor
Proceso trabajador que ejecuta las tareas asignadas por el Driver en cada nodo del clúster, gestionando la memoria y los datos particionados.
Spark Context
Punto de entrada principal de la aplicación Spark, gestiona las conexiones al clúster y coordina el acceso a los recursos distribuidos.
Partición
Unidad lógica de distribución de datos en Spark, que permite el paralelismo al dividir los RDD/DataFrames en fragmentos independientes.
Shuffle
Operación costosa de redistribución de datos entre particiones, necesaria durante agregaciones, uniones o agrupaciones en Spark.
Catalyst Optimizer
Motor de optimización de consultas Spark que transforma y reorganiza los planes de ejecución para mejorar el rendimiento.
Tungsten
Backend de ejecución Spark que optimiza la memoria y la CPU mediante la gestión binaria de datos y la generación de código bytecode.
Cache/Persist
Mecanismo de persistencia de RDD/DataFrames en memoria o disco para reutilización rápida y evitar recálculos costosos.
Variable de Difusión
Variable de solo lectura distribuida eficientemente a todos los ejecutores para minimizar las transferencias de red durante las uniones.
Acumulador
Variable compartida aditiva utilizada para agregar información desde las tareas paralelas de manera segura para hilos.
Transformación
Operación perezosa que crea un nuevo RDD/DataFrame sin ejecución inmediata, diferida hasta una acción desencadenante.
Acción
Operación que desencadena la ejecución del plan DAG para producir un resultado, forzando el cálculo de todas las transformaciones previas.