AI 词汇表
人工智能完整词典
Amazon S3
AWS 高度可扩展的云对象存储服务,提供 99.999999999% 的持久性,作为大数据的主要数据存储库,具有适用于不同访问模式的存储类别。
Amazon EMR
AWS 托管服务,用于在动态集群上运行 Apache Spark、Hadoop 和 Presto 等大数据框架,实现大规模分布式处理,并简化基础设施管理。
Amazon Redshift
AWS 完全托管的云数据仓库,采用大规模并行处理 (MPP) 架构,用于分析 PB 级数据,针对复杂分析查询优化性能。
Amazon Athena
AWS 无服务器交互式查询服务,允许使用标准 SQL 直接分析 S3 中的数据,无需管理基础设施或预先加载数据。
AWS Glue
AWS 无服务器 ETL 服务,通过集中式数据目录和基于 Apache Spark 的内置转换功能,自动化数据发现、准备和加载。
Azure Data Lake Storage
Azure 大规模可扩展且安全的数据存储库,针对大数据分析工作负载优化,结合了数据湖的存储容量和文件系统的性能。
Azure Synapse Analytics
Azure 统一混合分析平台,将数据仓库、数据集成和大数据分析集成在同一环境中,具备 SQL 和 Spark 处理能力。
Azure Databricks
基于 Apache Spark 的 Azure 统一分析服务,为大数据处理、机器学习和实时分析提供协作环境,配备优化集群。
Google Cloud Storage
谷歌云的统一对象存储服务,为大数据提供高可用性、持久性和性能,根据访问频率优化不同的存储类别。
Google BigQuery
谷歌云的无服务器数据仓库,支持使用交互式SQL查询实时分析PB级数据,采用无服务器架构可根据需求自动扩展。
Google Dataproc
谷歌云的托管服务,用于运行Apache Spark和Hadoop,提供快速配置的集群,与GCP生态系统原生集成,并为大数据处理优化成本。
Google Dataflow
基于Apache Beam的谷歌云无服务器流处理和批处理服务,允许运行分布式数据管道,具有自动扩展和简化管理功能。
Snowflake
多云数据云平台,提供完全托管的数据仓库,采用计算与存储分离的架构,支持独立扩展和安全的数据共享。
ELT Pipeline
现代数据集成模式,先将原始数据加载到云数据仓库中,然后利用其计算能力进行转换,为海量数据优化性能。
Auto-scaling Cluster
云大数据平台根据工作负载动态调整计算节点数量的能力,无需手动干预即可优化成本和性能。
Serverless Analytics
数据分析范式,底层基础设施完全由云提供商管理,让用户专注于分析逻辑而无需管理服务器或集群。