Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Amazon S3
Service de stockage d'objets cloud hautement scalable d'AWS offrant une durabilité de 99.999999999% et utilisé comme référentiel principal pour les données Big Data avec des classes de stockage adaptées aux différents patterns d'accès.
Amazon EMR
Service managé AWS pour exécuter des frameworks Big Data comme Apache Spark, Hadoop et Presto sur des clusters dynamiques, permettant le traitement distribué à grande échelle avec une gestion simplifiée de l'infrastructure.
Amazon Redshift
Entrepôt de données cloud entièrement managé d'AWS utilisant une architecture massivement parallèle (MPP) pour analyser des pétaoctets de données avec des performances optimisées pour les requêtes analytiques complexes.
Amazon Athena
Service de requête interactif serverless d'AWS permettant d'analyser directement des données dans S3 utilisant SQL standard, sans nécessiter de gestion d'infrastructure ni de chargement de données préalable.
AWS Glue
Service ETL serverless d'AWS qui automatise la découverte, la préparation et le chargement des données avec un catalogue de données centralisé et des capacités de transformation intégrées basées sur Apache Spark.
Azure Data Lake Storage
Référentiel de données massivement scalable et sécurisé d'Azure optimisé pour les charges de travail analytiques Big Data, combinant la capacité de stockage d'un lac de données avec la performance d'un système de fichiers.
Azure Synapse Analytics
Plateforme d'analyse hybride unifiée d'Azure intégrant l'entrepôt de données, l'intégration de données et l'analyse Big Data avec des capacités de traitement SQL et Spark dans un même environnement.
Azure Databricks
Service d'analyse unifiée basé sur Apache Spark dans Azure, offrant un environnement collaboratif pour le traitement Big Data, le machine learning et l'analyse en temps réel avec des clusters optimisés.
Google Cloud Storage
Service de stockage d'objets unifié de Google Cloud offrant une haute disponibilité, durabilité et performance pour les données Big Data avec différentes classes de stockage optimisées selon les fréquences d'accès.
Google BigQuery
Entrepôt de données serverless de Google Cloud permettant d'analyser des pétaoctets en temps réel avec des requêtes SQL interactives et une architecture sans serveur évoluant automatiquement selon les besoins.
Google Dataproc
Service managé de Google Cloud pour exécuter Apache Spark et Hadoop avec des clusters rapides à provisionner, offrant une intégration native avec l'écosystème GCP et des coûts optimisés pour le traitement Big Data.
Google Dataflow
Service serverless de traitement de flux et par lots de Google Cloud basé sur Apache Beam, permettant d'exécuter des pipelines de données distribués avec une autoscaling automatique et une gestion simplifiée.
Snowflake
Plateforme de Data Cloud multi-cloud offrant un entrepôt de données entièrement managé avec une architecture de calcul séparée du stockage, permettant un scaling indépendant et un partage sécurisé des données.
ELT Pipeline
Pattern d'intégration de données moderne où les données sont d'abord chargées brutes dans un entrepôt cloud puis transformées en utilisant les capacités de calcul de celui-ci, optimisant les performances pour les volumes massifs.
Auto-scaling Cluster
Capacité des plateformes Big Data cloud d'ajuster dynamiquement le nombre de nœuds de calcul en fonction de la charge de travail, optimisant les coûts et les performances sans intervention manuelle.
Serverless Analytics
Paradigme d'analyse de données où l'infrastructure sous-jacente est entièrement gérée par le fournisseur cloud, permettant aux utilisateurs de se concentrer sur la logique analytique sans gérer les serveurs ou les clusters.