Distributed Computing Models

📖

termes

MapReduce

Modèle de programmation parallèle pour le traitement de grands ensembles de données sur des clusters, divisant le traitement en deux phases principales : Map pour filtrer et transformer, et Reduce pour agréger les résultats.

📖

termes

Lambda Architecture

Architecture de traitement des données combinant un chemin batch pour l'analyse complète et un chemin speed pour les résultats en temps réel, avec une couche de service unifiée pour fusionner les deux vues.

📖

termes

Kappa Architecture

Simplification de l'architecture Lambda utilisant uniquement un pipeline de traitement par flux, où les données sont traitées en temps réel et les requêtes historiques sont satisfaites en rejouant les événements.

📖

termes

Batch Processing

Mode de traitement où les données sont collectées et traitées par lots à des intervalles prédéfinis, optimisé pour le débit plutôt que la latence, typique des analyses ETL traditionnelles.

📖

termes

Stream Processing

Traitement continu de données en mouvement au fur et à mesure de leur génération, permettant des analyses en temps réel avec une latence minimale entre la capture et le traitement.

📖

termes

Distributed File System

Système de fichiers stockant des données sur plusieurs serveurs tout en apparaissant comme un système unique aux utilisateurs, assurant la réplication et la tolérance aux pannes pour la fiabilité.

📖

termes

HDFS

Hadoop Distributed File System, système de fichiers distribué conçu pour stocker des pétaoctets de données sur du matériel standard avec une haute tolérance aux pannes via la réplication des blocs.

📖

termes

YARN

Yet Another Resource Negotiator, gestionnaire de ressources Hadoop séparant le traitement des données de la gestion des ressources, permettant l'exécution de multiples frameworks sur le même cluster.

📖

termes

RDD

Resilient Distributed Dataset, structure de données fondamentale de Spark représentant une collection immuable et partitionnée d'objets pouvant être calculée en parallèle avec une tolérance aux pannes automatique.

📖

termes

Data Locality

Principe de calcul distribué où les tâches sont exécutées sur les nœuds contenant les données nécessaires, minimisant le transfert réseau et améliorant significativement les performances.

📖

termes

Speculative Execution

Mécanisme de tolérance aux paires lançant des copies de tâches lentes sur d'autres nœuds, utilisant le premier résultat complété pour réduire l'impact des nœuds défectueux ou surchargés.

📖

termes

DAG

Directed Acyclic Graph, représentation du flux de travail Spark où les transformations sont organisées en graphe orienté sans cycles, optimisant l'exécution parallèle des étapes.

📖

termes

Fault Tolerance

Capacité d'un système distribué à continuer de fonctionner correctement en cas de défaillances de composants, généralement par redondance, réplication et mécanismes de récupération automatique.

📖

termes

Consistency Model

Contrat définissant les garanties de cohérence des données dans un système distribué, allant de la cohérence forte à la cohérence éventuelle selon les besoins applicatifs.

📖

termes

Combiner

Fonction d'optimisation MapReduce s'exécutant localement sur chaque mappeur pour réduire le volume de données transférées pendant le shuffle, appliquant une pré-agrégation avant la phase de réduction.

Glossaire IA

MapReduce

Lambda Architecture

Kappa Architecture

Batch Processing

Stream Processing

Distributed File System

HDFS

YARN

RDD

Data Locality

Speculative Execution

DAG

Fault Tolerance

Consistency Model

Combiner

Aucun résultat trouvé