Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Data Warehouse
Entrepôt de données centralisé optimisé pour l'analyse et la prise de décision, collectant des données opérationnelles et historiques de multiples sources. Conçu pour supporter des requêtes analytiques complexes sur des volumes massifs de données structurées.
Data Mart
Sous-ensemble d'un data warehouse focalisé sur un domaine métier spécifique ou un département particulier. Facilite l'accès aux données pertinentes pour des analyses ciblées tout en réduisant la complexité des requêtes.
ETL (Extract, Transform, Load)
Processus d'intégration de données extrayant l'information des sources hétérogènes, la transformant selon les règles métier, puis la chargeant dans le data warehouse. Garantit la qualité et la cohérence des données avant leur analyse.
ELT (Extract, Load, Transform)
Approche moderne d'intégration où les données brutes sont d'abord chargées dans le système cible puis transformées in-situ. Optimise les performances sur les plateformes cloud et les architectures distribuées.
OLAP (Online Analytical Processing)
Technologie d'analyse multidimensionnelle permettant des requêtes complexes sur de grands volumes de données historiques. Supporte les opérations de drill-down, roll-up, slice et dice pour l'exploration de données.
OLTP (Online Transaction Processing)
Système de gestion de transactions en temps réel optimisé pour les opérations CRUD (Create, Read, Update, Delete). Conçu pour traiter un grand nombre de transactions courtes et atomiques avec une haute concurrence.
Star Schema
Modélisation de données pour data warehouse avec une table de faits centrale entourée de tables de dimension dénormalisées. Optimise les performances des requêtes analytiques en minimisant les jointures.
Snowflake Schema
Variante du star schema où les tables de dimension sont normalisées en hiérarchies de tables multiples. Réduit la redondance des données mais augmente la complexité des requêtes analytiques.
Fact Table
Table centrale d'un schéma dimensionnel contenant les mesures numériques et les clés étrangères vers les dimensions. Stocke les faits métier quantitatifs comme les ventes, les transactions ou les indicateurs de performance.
Dimension Table
Table décrivant le contexte des mesures dans la table de faits, contenant des attributs descriptifs qualitatifs. Permet l'analyse des données selon différents axes comme le temps, la géographie ou les produits.
Data Vault
Méthodologie de modélisation hybride combinant les avantages du 3NF et du star schema pour les entrepôts de données évolutifs. Sépare les hubs, les liens et les satellites pour garantir l'auditabilité et l'évolutivité.
Columnar Database
Base de données stockant les données par colonnes plutôt que par lignes, optimisant les requêtes analytiques sur des sous-ensembles de colonnes. Réduit considérablement les temps de réponse et l'espace de stockage pour les workloads BI.
In-Memory Database
Système de base de données stockant principalement les données en RAM pour des performances d'accès quasi-instantanées. Accélère drastiquement les analyses complexes et les rapports interactifs sur les données du data warehouse.
Distributed Query Processing
Technique exécutant des requêtes sur plusieurs nœuds de calcul en parallèle pour traiter des volumes de données massifs. Divise le traitement en tâches distribuées pour optimiser l'utilisation des ressources et réduire les temps de réponse.
Data Federation
Approche d'intégration virtuelle présentant une vue unifiée de données provenant de sources hétérogènes sans duplication physique. Permet l'analyse en temps réel sur des systèmes distribués tout en conservant les données sources.
Aggregate Table
Table précalculée contenant des données résumées à différents niveaux de granularité pour accélérer les requêtes récurrentes. Stratégie d'optimisation essentielle pour les performances des rapports BI sur des volumes importants.
Slowly Changing Dimension (SCD)
Technique de gestion des modifications dans les tables de dimension pour suivre l'évolution historique des attributs. Implémente différentes stratégies (Type 1, 2, 3) selon les besoins de traçabilité temporelle des données.
Data Pipeline
Enchaînement de processus automatisés capturant, transformant et livrant les données depuis la source jusqu'à leur destination finale. Orchestre le flux continu de données pour alimenter les systèmes analytiques et les applications BI.