云计算平台 - AI 术语表

📖

个术语

Amazon S3

AWS 高度可扩展的云对象存储服务，提供 99.999999999% 的持久性，作为大数据的主要数据存储库，具有适用于不同访问模式的存储类别。

📖

个术语

Amazon EMR

AWS 托管服务，用于在动态集群上运行 Apache Spark、Hadoop 和 Presto 等大数据框架，实现大规模分布式处理，并简化基础设施管理。

📖

个术语

Amazon Redshift

AWS 完全托管的云数据仓库，采用大规模并行处理 (MPP) 架构，用于分析 PB 级数据，针对复杂分析查询优化性能。

📖

个术语

Amazon Athena

AWS 无服务器交互式查询服务，允许使用标准 SQL 直接分析 S3 中的数据，无需管理基础设施或预先加载数据。

📖

个术语

AWS Glue

AWS 无服务器 ETL 服务，通过集中式数据目录和基于 Apache Spark 的内置转换功能，自动化数据发现、准备和加载。

📖

个术语

Azure Data Lake Storage

Azure 大规模可扩展且安全的数据存储库，针对大数据分析工作负载优化，结合了数据湖的存储容量和文件系统的性能。

📖

个术语

Azure Synapse Analytics

Azure 统一混合分析平台，将数据仓库、数据集成和大数据分析集成在同一环境中，具备 SQL 和 Spark 处理能力。

📖

个术语

Azure Databricks

基于 Apache Spark 的 Azure 统一分析服务，为大数据处理、机器学习和实时分析提供协作环境，配备优化集群。

📖

个术语

Google Cloud Storage

谷歌云的统一对象存储服务，为大数据提供高可用性、持久性和性能，根据访问频率优化不同的存储类别。

📖

个术语

Google BigQuery

谷歌云的无服务器数据仓库，支持使用交互式SQL查询实时分析PB级数据，采用无服务器架构可根据需求自动扩展。

📖

个术语

Google Dataproc

谷歌云的托管服务，用于运行Apache Spark和Hadoop，提供快速配置的集群，与GCP生态系统原生集成，并为大数据处理优化成本。

📖

个术语

Google Dataflow

基于Apache Beam的谷歌云无服务器流处理和批处理服务，允许运行分布式数据管道，具有自动扩展和简化管理功能。

📖

个术语

Snowflake

多云数据云平台，提供完全托管的数据仓库，采用计算与存储分离的架构，支持独立扩展和安全的数据共享。

📖

个术语

ELT Pipeline

现代数据集成模式，先将原始数据加载到云数据仓库中，然后利用其计算能力进行转换，为海量数据优化性能。

📖

个术语

Auto-scaling Cluster

云大数据平台根据工作负载动态调整计算节点数量的能力，无需手动干预即可优化成本和性能。

📖

个术语

Serverless Analytics

数据分析范式，底层基础设施完全由云提供商管理，让用户专注于分析逻辑而无需管理服务器或集群。

AI 词汇表