Traitement par Lots - Glossaire IA

📖

termes

Apache Hadoop MapReduce

Modèle de programmation et implémentation distribuée pour le traitement de grands ensembles de données sur des clusters, divisant les traitements en phases Map et Reduce. MapReduce est l'un des premiers frameworks populaires pour le traitement batch à grande échelle.

📖

termes

ETL (Extract, Transform, Load)

Processus d'intégration de données consistant à extraire des données de sources hétérogènes, les transformer selon les règles métier définies, puis les charger dans un système cible. Les pipelines ETL sont généralement exécutés en batch pour synchroniser les données.

📖

termes

Job Scheduling

Mécanisme d'ordonnancement automatique des tâches de traitement par lots selon des calendriers prédéfinis, des dépendances ou des déclencheurs événementiels. Les ordonnanceurs modernes gèrent la parallélisation, les retentatives et la surveillance des exécutions.

📖

termes

Shuffling

Opération coûteuse de redistribution des données entre les nœuds du cluster lors des phases de regroupement ou d'agrégation dans les traitements distribués. Le shuffling représente souvent le goulot d'étranglement principal dans les jobs MapReduce et Spark.

📖

termes

HDFS

Système de fichiers distribué conçu pour stocker des fichiers volumineux sur des machines standards avec tolérance aux pannes par réplication. HDFS fournit un accès séquentiel haute performance adapté aux traitements batch par MapReduce.

📖

termes

YARN

Orchestrateur de ressources pour l'écosystème Hadoop, responsable de l'allocation de CPU, mémoire et stockage aux applications distribuées. YARN permet l'exécution concurrente de multiples frameworks de traitement sur un même cluster Hadoop.

📖

termes

Apache Sqoop

Outil de transfert de données bidirectionnel entre Hadoop et bases de données relationnelles, optimisé pour les imports/exports massifs en parallèle. Sqoop génère automatiquement le code MapReduce nécessaire pour déplacer efficacement les données.

📖

termes

Apache Hive

Infrastructure d'entreposage de données construite sur Hadoop fournissant une interface SQL-like (HQL) pour l'interrogation de grandes volumes de données stockées dans HDFS. Hive traduit les requêtes en jobs MapReduce pour l'exécution batch.

Glossaire IA

Apache Hadoop MapReduce

ETL (Extract, Transform, Load)

Job Scheduling

Shuffling

HDFS

YARN

Apache Sqoop

Apache Hive

Aucun résultat trouvé