Glosario IA
El diccionario completo de la Inteligencia Artificial
Amazon S3
Service de stockage d'objets cloud hautement scalable d'AWS offrant une durabilité de 99.999999999% et utilisé comme référentiel principal pour les données Big Data avec des classes de stockage adaptées aux différents patterns d'accès.
Amazon EMR
Service managé AWS pour exécuter des frameworks Big Data comme Apache Spark, Hadoop et Presto sur des clusters dynamiques, permettant le traitement distribué à grande échelle avec une gestion simplifiée de l'infrastructure.
Amazon Redshift
Entrepôt de données cloud entièrement managé d'AWS utilisant une architecture massivement parallèle (MPP) pour analyser des pétaoctets de données avec des performances optimisées pour les requêtes analytiques complexes.
Amazon Athena
Service de requête interactif serverless d'AWS permettant d'analyser directement des données dans S3 utilisant SQL standard, sans nécessiter de gestion d'infrastructure ni de chargement de données préalable.
AWS Glue
Service ETL serverless d'AWS qui automatise la découverte, la préparation et le chargement des données avec un catalogue de données centralisé et des capacités de transformation intégrées basées sur Apache Spark.
Azure Data Lake Storage
Référentiel de données massivement scalable et sécurisé d'Azure optimisé pour les charges de travail analytiques Big Data, combinant la capacité de stockage d'un lac de données avec la performance d'un système de fichiers.
Azure Synapse Analytics
Plateforme d'analyse hybride unifiée d'Azure intégrant l'entrepôt de données, l'intégration de données et l'analyse Big Data avec des capacités de traitement SQL et Spark dans un même environnement.
Azure Databricks
Service d'analyse unifiée basé sur Apache Spark dans Azure, offrant un environnement collaboratif pour le traitement Big Data, le machine learning et l'analyse en temps réel avec des clusters optimisés.
Google Cloud Storage
Servicio de almacenamiento de objetos unificado de Google Cloud que ofrece alta disponibilidad, durabilidad y rendimiento para datos Big Data con diferentes clases de almacenamiento optimizadas según las frecuencias de acceso.
Google BigQuery
Almacén de datos sin servidor de Google Cloud que permite analizar petabytes en tiempo real con consultas SQL interactivas y una arquitectura sin servidor que escala automáticamente según las necesidades.
Google Dataproc
Servicio gestionado de Google Cloud para ejecutar Apache Spark y Hadoop con clústeres de rápido aprovisionamiento, ofreciendo integración nativa con el ecosistema GCP y costos optimizados para el procesamiento Big Data.
Google Dataflow
Servicio sin servidor de procesamiento de flujo y por lotes de Google Cloud basado en Apache Beam, que permite ejecutar pipelines de datos distribuidos con escalado automático y gestión simplificada.
Snowflake
Plataforma de Data Cloud multi-nube que ofrece un almacén de datos completamente gestionado con arquitectura de cálculo separada del almacenamiento, permitiendo escalado independiente y compartición segura de datos.
Pipeline ELT
Patrón de integración de datos moderno donde los datos se cargan primero en bruto en un almacén cloud y luego se transforman utilizando las capacidades de cálculo del mismo, optimizando el rendimiento para volúmenes masivos.
Clúster de Auto-escalado
Capacidad de las plataformas Big Data cloud de ajustar dinámicamente el número de nodos de cálculo según la carga de trabajo, optimizando costos y rendimiento sin intervención manual.
Analítica Sin Servidor
Paradigma de análisis de datos donde la infraestructura subyacente está completamente gestionada por el proveedor cloud, permitiendo a los usuarios concentrarse en la lógica analítica sin gestionar servidores o clústeres.