Apache Spark

📖

termes

Framework open-source de traitement distribué en mémoire conçu pour accélérer les analyses de Big Data avec une exécution parallèle optimisée.

📖

termes

RDD (Resilient Distributed Dataset)

Structure de données fondamentale de Spark, immuable et partitionnée, permettant la tolérance aux pannes par reconstruction des données perdues.

📖

termes

DataFrame

Collection de données distribuées organisée en colonnes nommées, similaire à une table de base de données, optimisée pour les requêtes structurées.

📖

termes

Spark SQL

Module Spark intégrant les requêtes SQL et les opérations DataFrame avec optimisation automatique via le Catalyst Optimizer.

📖

termes

Spark Streaming

Extension Spark permettant le traitement de flux de données en temps réel avec micro-batchs pour une latence quasi-réelle.

📖

termes

MLlib

Bibliothèque d'apprentissage automatique distribuée de Spark fournissant des algorithmes de classification, régression, clustering et recommandation.

📖

termes

GraphX

API Spark pour le traitement de graphes distribué, combinant les avantages des graphes avec les performances de RDD.

📖

termes

DAG (Directed Acyclic Graph)

Représentation du plan d'exécution des transformations Spark, optimisée pour éliminer les redondances et paralléliser le traitement.

📖

termes

Spark Driver

Processus principal coordinant l'exécution des tâches Spark, créant le SparkContext et divisant les opérations en stages.

📖

termes

Spark Executor

Processus worker exécutant les tâches assignées par le Driver sur chaque nœud du cluster, gérant la mémoire et les données partitionnées.

📖

termes

Spark Context

Point d'entrée principal de l'application Spark, gérant les connexions au cluster et coordonnant l'accès aux ressources distribuées.

📖

termes

Partition

Unité logique de distribution des données dans Spark, permettant le parallélisme en divisant les RDD/DataFrames en fragments indépendants.

📖

termes

Shuffle

Opération coûteuse de redistribution des données entre partitions, nécessaire lors des agrégations, jointures ou regroupements dans Spark.

📖

termes

Catalyst Optimizer

Moteur d'optimisation de requêtes Spark transformant et réorganisant les plans d'exécution pour améliorer les performances.

📖

termes

Tungsten

Backend d'exécution Spark optimisant la mémoire et le CPU grâce à la gestion binaire des données et la génération de code bytecode.

📖

termes

Cache/Persist

Mécanisme de persistance des RDD/DataFrames en mémoire ou sur disque pour réutilisation rapide et éviter les recalculs coûteux.

📖

termes

Broadcast Variable

Variable en lecture seule distribuée efficacement à tous les exécuteurs pour minimiser les transferts réseau lors des jointures.

📖

termes

Accumulator

Variable partagée additive utilisée pour agréger des informations depuis les tâches parallèles de manière thread-safe.

📖

termes

Transformation

Opération paresseuse créant un nouveau RDD/DataFrame sans exécution immédiate, différée jusqu'à une action déclencheuse.

📖

termes

Action

Opération déclenchant l'exécution du plan DAG pour produire un résultat, forçant le calcul de toutes les transformations précédentes.

Glossaire IA

Apache Spark

RDD (Resilient Distributed Dataset)

DataFrame

Spark SQL

Spark Streaming

MLlib

GraphX

DAG (Directed Acyclic Graph)

Spark Driver

Spark Executor

Spark Context

Partition

Shuffle

Catalyst Optimizer

Tungsten

Cache/Persist

Broadcast Variable

Accumulator

Transformation

Action

Aucun résultat trouvé