Apache Spark

📖

términos

Framework de código abierto para procesamiento distribuido en memoria diseñado para acelerar el análisis de Big Data con ejecución paralela optimizada.

📖

términos

RDD (Resilient Distributed Dataset)

Estructura de datos fundamental de Spark, inmutable y particionada, que permite la tolerancia a fallos mediante la reconstrucción de datos perdidos.

📖

términos

DataFrame

Colección de datos distribuidos organizada en columnas nombradas, similar a una tabla de base de datos, optimizada para consultas estructuradas.

📖

términos

Spark SQL

Módulo de Spark que integra consultas SQL y operaciones DataFrame con optimización automática a través del Catalyst Optimizer.

📖

términos

Spark Streaming

Extensión de Spark que permite el procesamiento de flujos de datos en tiempo real con micro-lotes para una latencia casi en tiempo real.

📖

términos

MLlib

Biblioteca de aprendizaje automático distribuido de Spark que proporciona algoritmos de clasificación, regresión, clustering y recomendación.

📖

términos

GraphX

API de Spark para el procesamiento distribuido de grafos, combinando las ventajas de los grafos con el rendimiento de los RDD.

📖

términos

DAG (Directed Acyclic Graph)

Representación del plan de ejecución de las transformaciones de Spark, optimizado para eliminar redundancias y paralelizar el procesamiento.

📖

términos

Spark Driver

Proceso principal que coordina la ejecución de tareas Spark, crea el SparkContext y divide las operaciones en etapas.

📖

términos

Spark Executor

Proceso trabajador que ejecuta las tareas asignadas por el Driver en cada nodo del clúster, gestionando la memoria y los datos particionados.

📖

términos

Spark Context

Punto de entrada principal de la aplicación Spark, gestiona las conexiones al clúster y coordina el acceso a los recursos distribuidos.

📖

términos

Partición

Unidad lógica de distribución de datos en Spark, que permite el paralelismo al dividir los RDD/DataFrames en fragmentos independientes.

📖

términos

Shuffle

Operación costosa de redistribución de datos entre particiones, necesaria durante agregaciones, uniones o agrupaciones en Spark.

📖

términos

Catalyst Optimizer

Motor de optimización de consultas Spark que transforma y reorganiza los planes de ejecución para mejorar el rendimiento.

📖

términos

Tungsten

Backend de ejecución Spark que optimiza la memoria y la CPU mediante la gestión binaria de datos y la generación de código bytecode.

📖

términos

Cache/Persist

Mecanismo de persistencia de RDD/DataFrames en memoria o disco para reutilización rápida y evitar recálculos costosos.

📖

términos

Variable de Difusión

Variable de solo lectura distribuida eficientemente a todos los ejecutores para minimizar las transferencias de red durante las uniones.

📖

términos

Acumulador

Variable compartida aditiva utilizada para agregar información desde las tareas paralelas de manera segura para hilos.

📖

términos

Transformación

Operación perezosa que crea un nuevo RDD/DataFrame sin ejecución inmediata, diferida hasta una acción desencadenante.

📖

términos

Acción

Operación que desencadena la ejecución del plan DAG para producir un resultado, forzando el cálculo de todas las transformaciones previas.

Glosario IA

Apache Spark

RDD (Resilient Distributed Dataset)

DataFrame

Spark SQL

Spark Streaming

MLlib

GraphX

DAG (Directed Acyclic Graph)

Spark Driver

Spark Executor

Spark Context

Partición

Shuffle

Catalyst Optimizer

Tungsten

Cache/Persist

Variable de Difusión

Acumulador

Transformación

Acción

No se encontraron resultados