Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Data Lake
Référentiel de stockage centralisé conçu pour contenir de grandes quantités de données brutes dans leur format natif. Il permet le stockage de données structurées, semi-structurées et non structurées à l'échelle du pétaoctet.
Data Swamp
Data Lake qui a perdu sa gouvernance et son organisation, rendant les données difficiles d'accès et d'utilisation. Il résulte d'un manque de gestion des métadonnées et de documentation appropriée.
Data Lakehouse
Architecture hybride combinant les avantages des Data Lakes et des data warehouses pour offrir une gestion unifiée des données. Elle permet l'analyse directe sur des données stockées dans un format ouvert et optimisé pour les performances.
Data Ingestion
Processus de collecte et de transfert de données depuis diverses sources vers un système de stockage centralisé comme un Data Lake. Elle peut être réalisée en temps réel, par batch ou par streaming selon les besoins métier.
Schema-on-Read
Approche où la structure des données est appliquée au moment de la lecture plutôt qu'à l'écriture. Elle offre une flexibilité maximale pour stocker des données hétérogènes sans définir de schéma à l'avance.
Schema-on-Write
Méthodologie traditionnelle où le schéma des données doit être défini avant leur écriture dans le système. Elle garantit la qualité et la cohérence des données mais réduit la flexibilité de stockage.
Data Catalog
Métadonnées organisées et indexées décrivant les données disponibles dans un Data Lake. Il facilite la découverte, la compréhension et la gouvernance des données à travers une interface centralisée.
Data Governance
Ensemble de politiques, procédures et standards définissant la gestion des données au sein de l'organisation. Elle assure la qualité, la sécurité, la conformité et l'utilisation appropriée des données du Data Lake.
Data Partitioning
Technique de division des données en segments plus petits basés sur des critères spécifiques comme la date ou la catégorie. Elle optimise les performances des requêtes en limitant la lecture aux partitions pertinentes.
Data Sharding
Partitionnement horizontal des données distribuées sur plusieurs serveurs pour améliorer l'évolutivité et les performances. Chaque shard contient un sous-ensemble unique des données totales.
Data Replication
Processus de copie de données d'un emplacement à un autre pour assurer la haute disponibilité et la tolérance aux pannes. Elle peut être synchrone ou asynchrone selon les exigences de cohérence.
Data Versioning
Mécanisme permettant de suivre et gérer les modifications des données au fil du temps dans un Data Lake. Il facilite l'audit, la reprise après erreur et l'analyse des tendances temporelles.
Data Lineage
Traçabilité complète du cycle de vie des données depuis leur source jusqu'à leur destination finale. Elle documente les transformations, les mouvements et les relations entre les différentes entités de données.
Data Mesh
Architecture décentralisée de gestion des données traitant les données comme des produits distribués. Elle élimine les goulots d'étranglement des équipes centrales en favorisant l'autonomie des domaines fonctionnels.
Delta Lake
Couche de stockage open-source apportant les transactions ACID aux Data Lakes construits sur des systèmes de fichiers distribués. Elle permet les mises à jour, suppressions et requêtes temporelles sur des données parquet.
Apache Iceberg
Format de table open-source pour des Data Lakes géants et analytiques, offrant des performances de requête optimales et une évolution de schéma sans rupture. Il sépare les opérations de planification de celles d'exécution.
Apache Hudi
Framework de streaming de données fournissant des capacités de traitement par lots et en temps réel sur les Data Lakes. Il permet les mises à jour et suppressions incrémentielles avec des garanties de cohérence.
Data Virtualization
Approche d'intégration de données permettant d'accéder et manipuler des données sans les déplacer physiquement de leurs sources. Elle crée une vue unifiée et abstraite des données distribuées.
Data Fabric
Architecture unifiée de gestion des données intégrée et intelligente facilitant l'accès aux données partout où elles résident. Elle combine l'intégration, la gouvernance et l'orchestration des données de manière transparente.
Zone Medallion
Architecture de Data Lake organisant les données en trois zones : Bronze (brutes), Silver (nettoyées) et Gold (agrégées). Elle structure progressivement les données pour l'analyse et la prise de décision.