Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Apache Kafka
Plateforme de streaming distribuée open-source conçue pour gérer des flux de données en temps réel avec haute throughput et faible latence, utilisée comme broker de messages et système de stockage de logs.
Apache Flink
Framework de traitement de flux et par lots distribué qui offre des capacités de traitement d'événements complexes avec gestion d'état et sémantique exactly-once pour applications temps réel.
Windowing
Technique fondamentale du stream processing qui divise le flux de données continu en fenêtres temporelles ou basées sur le comptage pour effectuer des agrégations et analyses sur des sous-ensembles de données.
Backpressure
Mécanisme de contrôle de flux qui permet aux systèmes de traitement de réguler la vitesse des producteurs de données lorsque les consommateurs ne peuvent pas suivre le rythme, prévenant ainsi la saturation du système.
Watermark
Marqueur temporel intégré dans le flux de données qui permet de suivre la progression du temps événementiel et de gérer les données tardives dans les systèmes de traitement de flux.
Stateful Processing
Paradigme de traitement où les opérations maintiennent un état persistant entre les événements, essentiel pour les agrégations, jointures et détections de patterns complexes dans les flux de données.
Exactly-Once Semantics
Garantie de traitement qui assure que chaque événement du flux est traité précisément une seule fois, même en cas de pannes, combinant at-least-once delivery avec déduplication côté consommateur.
CEP (Complex Event Processing)
Technologie de traitement d'événements qui identifie des patterns significatifs et corrélations complexes à partir de multiples flux d'événements en temps réel pour déclencher des actions immédiates.
Micro-batching
Approche hybride qui traite les flux de données en collectant des micro-lots d'événements sur de courts intervalles, combinant les avantages du traitement par lots et du traitement événementiel pur.
Event Sourcing
Pattern architectural où toutes les modifications d'état sont enregistrées comme séquence immuable d'événements, permettant la reconstruction des états passés et l'audit complet du système.
Apache Storm
Système de traitement de flux distribué en temps réel conçu pour des latences extrêmement faibles, utilisant une topologie de spouts et bolts pour transformer et analyser les flux de données.
Change Data Capture (CDC)
Technique qui capture et propage les modifications de données des bases de données transactionnelles vers des systèmes de streaming en temps réel, enabling la synchronisation et l'analyse continue.
Event Time vs Processing Time
Deux concepts temporels fondamentaux où le temps événementiel correspond au moment où l'événement s'est produit, tandis que le temps de traitement est le moment où il est traité par le système.
Stream Analytics
Discipline qui applique des techniques analytiques avancées sur des flux de données continus pour extraire des insights, détecter des anomalies et prendre des décisions en temps réel.
Data Pipeline Streaming
Architecture de pipeline de données conçue spécifiquement pour le traitement continu où les données transitent à travers plusieurs étapes de transformation et enrichissement sans stockage intermédiaire.
Message Queue
Composant middleware qui assure la communication asynchrone entre producteurs et consommateurs de messages, garantissant la livraison fiable des événements dans les architectures distribuées.
Real-time ETL
Processus d'extraction, transformation et chargement de données qui s'exécute continuellement sur des flux en temps réel, contrairement à l'ETL traditionnel par lots qui s'exécute périodiquement.
Apache Beam
Framework unifié de traitement de données par lots et en flux qui fournit un modèle de programmation abstrait pouvant s'exécuter sur multiples runners comme Flink, Spark ou Dataflow.