Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
MapReduce
Modèle de programmation parallèle pour le traitement de grands ensembles de données sur des clusters, divisant le traitement en deux phases principales : Map pour filtrer et transformer, et Reduce pour agréger les résultats.
Lambda Architecture
Architecture de traitement des données combinant un chemin batch pour l'analyse complète et un chemin speed pour les résultats en temps réel, avec une couche de service unifiée pour fusionner les deux vues.
Kappa Architecture
Simplification de l'architecture Lambda utilisant uniquement un pipeline de traitement par flux, où les données sont traitées en temps réel et les requêtes historiques sont satisfaites en rejouant les événements.
Batch Processing
Mode de traitement où les données sont collectées et traitées par lots à des intervalles prédéfinis, optimisé pour le débit plutôt que la latence, typique des analyses ETL traditionnelles.
Stream Processing
Traitement continu de données en mouvement au fur et à mesure de leur génération, permettant des analyses en temps réel avec une latence minimale entre la capture et le traitement.
Distributed File System
Système de fichiers stockant des données sur plusieurs serveurs tout en apparaissant comme un système unique aux utilisateurs, assurant la réplication et la tolérance aux pannes pour la fiabilité.
HDFS
Hadoop Distributed File System, système de fichiers distribué conçu pour stocker des pétaoctets de données sur du matériel standard avec une haute tolérance aux pannes via la réplication des blocs.
YARN
Yet Another Resource Negotiator, gestionnaire de ressources Hadoop séparant le traitement des données de la gestion des ressources, permettant l'exécution de multiples frameworks sur le même cluster.
RDD
Resilient Distributed Dataset, structure de données fondamentale de Spark représentant une collection immuable et partitionnée d'objets pouvant être calculée en parallèle avec une tolérance aux pannes automatique.
Data Locality
Principe de calcul distribué où les tâches sont exécutées sur les nœuds contenant les données nécessaires, minimisant le transfert réseau et améliorant significativement les performances.
Speculative Execution
Mécanisme de tolérance aux paires lançant des copies de tâches lentes sur d'autres nœuds, utilisant le premier résultat complété pour réduire l'impact des nœuds défectueux ou surchargés.
DAG
Directed Acyclic Graph, représentation du flux de travail Spark où les transformations sont organisées en graphe orienté sans cycles, optimisant l'exécution parallèle des étapes.
Fault Tolerance
Capacité d'un système distribué à continuer de fonctionner correctement en cas de défaillances de composants, généralement par redondance, réplication et mécanismes de récupération automatique.
Consistency Model
Contrat définissant les garanties de cohérence des données dans un système distribué, allant de la cohérence forte à la cohérence éventuelle selon les besoins applicatifs.
Combiner
Fonction d'optimisation MapReduce s'exécutant localement sur chaque mappeur pour réduire le volume de données transférées pendant le shuffle, appliquant une pré-agrégation avant la phase de réduction.