Glossário IA
O dicionário completo da Inteligência Artificial
Amazon S3
Serviço de armazenamento de objetos em nuvem altamente escalável da AWS oferecendo durabilidade de 99.999999999% e usado como repositório principal para dados Big Data com classes de armazenamento adaptadas aos diferentes padrões de acesso.
Amazon EMR
Serviço gerenciado da AWS para executar frameworks Big Data como Apache Spark, Hadoop e Presto em clusters dinâmicos, permitindo o processamento distribuído em larga escala com gerenciamento simplificado da infraestrutura.
Amazon Redshift
Data warehouse em nuvem totalmente gerenciado da AWS usando uma arquitetura massivamente paralela (MPP) para analisar petabytes de dados com desempenho otimizado para consultas analíticas complexas.
Amazon Athena
Serviço de consulta interativa serverless da AWS permitindo analisar dados diretamente no S3 usando SQL padrão, sem necessidade de gerenciamento de infraestrutura nem carregamento prévio de dados.
AWS Glue
Serviço ETL serverless da AWS que automatiza a descoberta, preparação e carregamento de dados com um catálogo de dados centralizado e capacidades de transformação integradas baseadas no Apache Spark.
Azure Data Lake Storage
Repositório de dados massivamente escalável e seguro do Azure otimizado para cargas de trabalho analíticas Big Data, combinando a capacidade de armazenamento de um data lake com o desempenho de um sistema de arquivos.
Azure Synapse Analytics
Plataforma de análise híbrida unificada do Azure integrando data warehouse, integração de dados e análise Big Data com capacidades de processamento SQL e Spark no mesmo ambiente.
Azure Databricks
Serviço de análise unificado baseado no Apache Spark no Azure, oferecendo um ambiente colaborativo para processamento Big Data, machine learning e análise em tempo real com clusters otimizados.
Google Cloud Storage
Serviço de armazenamento de objetos unificado do Google Cloud oferecendo alta disponibilidade, durabilidade e desempenho para dados Big Data com diferentes classes de armazenamento otimizadas de acordo com as frequências de acesso.
Google BigQuery
Data warehouse serverless do Google Cloud permitindo analisar petabytes em tempo real com consultas SQL interativas e uma arquitetura serverless que escala automaticamente de acordo com as necessidades.
Google Dataproc
Serviço gerenciado do Google Cloud para executar Apache Spark e Hadoop com clusters rápidos de provisionar, oferecendo integração nativa com o ecossistema GCP e custos otimizados para processamento Big Data.
Google Dataflow
Serviço serverless de processamento de fluxo e em lote do Google Cloud baseado no Apache Beam, permitindo executar pipelines de dados distribuídos com auto-scaling automático e gerenciamento simplificado.
Snowflake
Plataforma Data Cloud multi-nuvem oferecendo um data warehouse totalmente gerenciado com arquitetura de computação separada do armazenamento, permitindo scaling independente e compartilhamento seguro de dados.
Pipeline ELT
Padrão de integração de dados moderno onde os dados são primeiro carregados brutos em um data warehouse na nuvem e depois transformados usando as capacidades de computação deste, otimizando o desempenho para volumes massivos.
Cluster Auto-scaling
Capacidade das plataformas Big Data em nuvem de ajustar dinamicamente o número de nós de computação de acordo com a carga de trabalho, otimizando custos e desempenho sem intervenção manual.
Analytics Serverless
Paradigma de análise de dados onde a infraestrutura subjacente é totalmente gerenciada pelo provedor de nuvem, permitindo que os usuários se concentrem na lógica analítica sem gerenciar servidores ou clusters.