Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Apache Spark
Framework open-source de traitement distribué en mémoire conçu pour accélérer les analyses de Big Data avec une exécution parallèle optimisée.
RDD (Resilient Distributed Dataset)
Structure de données fondamentale de Spark, immuable et partitionnée, permettant la tolérance aux pannes par reconstruction des données perdues.
DataFrame
Collection de données distribuées organisée en colonnes nommées, similaire à une table de base de données, optimisée pour les requêtes structurées.
Spark SQL
Module Spark intégrant les requêtes SQL et les opérations DataFrame avec optimisation automatique via le Catalyst Optimizer.
Spark Streaming
Extension Spark permettant le traitement de flux de données en temps réel avec micro-batchs pour une latence quasi-réelle.
MLlib
Bibliothèque d'apprentissage automatique distribuée de Spark fournissant des algorithmes de classification, régression, clustering et recommandation.
GraphX
API Spark pour le traitement de graphes distribué, combinant les avantages des graphes avec les performances de RDD.
DAG (Directed Acyclic Graph)
Représentation du plan d'exécution des transformations Spark, optimisée pour éliminer les redondances et paralléliser le traitement.
Spark Driver
Processus principal coordinant l'exécution des tâches Spark, créant le SparkContext et divisant les opérations en stages.
Spark Executor
Processus worker exécutant les tâches assignées par le Driver sur chaque nœud du cluster, gérant la mémoire et les données partitionnées.
Spark Context
Point d'entrée principal de l'application Spark, gérant les connexions au cluster et coordonnant l'accès aux ressources distribuées.
Partition
Unité logique de distribution des données dans Spark, permettant le parallélisme en divisant les RDD/DataFrames en fragments indépendants.
Shuffle
Opération coûteuse de redistribution des données entre partitions, nécessaire lors des agrégations, jointures ou regroupements dans Spark.
Catalyst Optimizer
Moteur d'optimisation de requêtes Spark transformant et réorganisant les plans d'exécution pour améliorer les performances.
Tungsten
Backend d'exécution Spark optimisant la mémoire et le CPU grâce à la gestion binaire des données et la génération de code bytecode.
Cache/Persist
Mécanisme de persistance des RDD/DataFrames en mémoire ou sur disque pour réutilisation rapide et éviter les recalculs coûteux.
Broadcast Variable
Variable en lecture seule distribuée efficacement à tous les exécuteurs pour minimiser les transferts réseau lors des jointures.
Accumulator
Variable partagée additive utilisée pour agréger des informations depuis les tâches parallèles de manière thread-safe.
Transformation
Opération paresseuse créant un nouveau RDD/DataFrame sans exécution immédiate, différée jusqu'à une action déclencheuse.
Action
Opération déclenchant l'exécution du plan DAG pour produire un résultat, forçant le calcul de toutes les transformations précédentes.