Data Lakes - Glossaire IA

📖

termes

Data Lake

Référentiel de stockage centralisé conçu pour contenir de grandes quantités de données brutes dans leur format natif. Il permet le stockage de données structurées, semi-structurées et non structurées à l'échelle du pétaoctet.

📖

termes

Data Swamp

Data Lake qui a perdu sa gouvernance et son organisation, rendant les données difficiles d'accès et d'utilisation. Il résulte d'un manque de gestion des métadonnées et de documentation appropriée.

📖

termes

Data Lakehouse

Architecture hybride combinant les avantages des Data Lakes et des data warehouses pour offrir une gestion unifiée des données. Elle permet l'analyse directe sur des données stockées dans un format ouvert et optimisé pour les performances.

📖

termes

Data Ingestion

Processus de collecte et de transfert de données depuis diverses sources vers un système de stockage centralisé comme un Data Lake. Elle peut être réalisée en temps réel, par batch ou par streaming selon les besoins métier.

📖

termes

Schema-on-Read

Approche où la structure des données est appliquée au moment de la lecture plutôt qu'à l'écriture. Elle offre une flexibilité maximale pour stocker des données hétérogènes sans définir de schéma à l'avance.

📖

termes

Schema-on-Write

Méthodologie traditionnelle où le schéma des données doit être défini avant leur écriture dans le système. Elle garantit la qualité et la cohérence des données mais réduit la flexibilité de stockage.

📖

termes

Data Catalog

Métadonnées organisées et indexées décrivant les données disponibles dans un Data Lake. Il facilite la découverte, la compréhension et la gouvernance des données à travers une interface centralisée.

📖

termes

Data Governance

Ensemble de politiques, procédures et standards définissant la gestion des données au sein de l'organisation. Elle assure la qualité, la sécurité, la conformité et l'utilisation appropriée des données du Data Lake.

📖

termes

Data Partitioning

Technique de division des données en segments plus petits basés sur des critères spécifiques comme la date ou la catégorie. Elle optimise les performances des requêtes en limitant la lecture aux partitions pertinentes.

📖

termes

Data Sharding

Partitionnement horizontal des données distribuées sur plusieurs serveurs pour améliorer l'évolutivité et les performances. Chaque shard contient un sous-ensemble unique des données totales.

📖

termes

Data Replication

Processus de copie de données d'un emplacement à un autre pour assurer la haute disponibilité et la tolérance aux pannes. Elle peut être synchrone ou asynchrone selon les exigences de cohérence.

📖

termes

Data Versioning

Mécanisme permettant de suivre et gérer les modifications des données au fil du temps dans un Data Lake. Il facilite l'audit, la reprise après erreur et l'analyse des tendances temporelles.

📖

termes

Data Lineage

Traçabilité complète du cycle de vie des données depuis leur source jusqu'à leur destination finale. Elle documente les transformations, les mouvements et les relations entre les différentes entités de données.

📖

termes

Data Mesh

Architecture décentralisée de gestion des données traitant les données comme des produits distribués. Elle élimine les goulots d'étranglement des équipes centrales en favorisant l'autonomie des domaines fonctionnels.

📖

termes

Delta Lake

Couche de stockage open-source apportant les transactions ACID aux Data Lakes construits sur des systèmes de fichiers distribués. Elle permet les mises à jour, suppressions et requêtes temporelles sur des données parquet.

📖

termes

Apache Iceberg

Format de table open-source pour des Data Lakes géants et analytiques, offrant des performances de requête optimales et une évolution de schéma sans rupture. Il sépare les opérations de planification de celles d'exécution.

📖

termes

Apache Hudi

Framework de streaming de données fournissant des capacités de traitement par lots et en temps réel sur les Data Lakes. Il permet les mises à jour et suppressions incrémentielles avec des garanties de cohérence.

📖

termes

Data Virtualization

Approche d'intégration de données permettant d'accéder et manipuler des données sans les déplacer physiquement de leurs sources. Elle crée une vue unifiée et abstraite des données distribuées.

📖

termes

Data Fabric

Architecture unifiée de gestion des données intégrée et intelligente facilitant l'accès aux données partout où elles résident. Elle combine l'intégration, la gouvernance et l'orchestration des données de manière transparente.

📖

termes

Zone Medallion

Architecture de Data Lake organisant les données en trois zones : Bronze (brutes), Silver (nettoyées) et Gold (agrégées). Elle structure progressivement les données pour l'analyse et la prise de décision.

Glossaire IA

Data Lake

Data Swamp

Data Lakehouse

Data Ingestion

Schema-on-Read

Schema-on-Write

Data Catalog

Data Governance

Data Partitioning

Data Sharding

Data Replication

Data Versioning

Data Lineage

Data Mesh

Delta Lake

Apache Iceberg

Apache Hudi

Data Virtualization

Data Fabric

Zone Medallion

Aucun résultat trouvé