Глоссарий ИИ
Полный словарь искусственного интеллекта
Amazon S3
Высокомасштабируемый облачный сервис хранения объектов от AWS, предлагающий долговечность 99.999999999% и используемый в качестве основного хранилища для данных Big Data с классами хранения, адаптированными к различным шаблонам доступа.
Amazon EMR
Управляемый сервис AWS для запуска фреймворков Big Data, таких как Apache Spark, Hadoop и Presto, на динамических кластерах, позволяющий распределенную обработку в больших масштабах с упрощенным управлением инфраструктурой.
Amazon Redshift
Полностью управляемое облачное хранилище данных от AWS, использующее массово-параллельную архитектуру (MPP) для анализа петабайтов данных с производительностью, оптимизированной для сложных аналитических запросов.
Amazon Athena
Бессерверный интерактивный сервис запросов от AWS, позволяющий анализировать данные непосредственно в S3 с использованием стандартного SQL, без необходимости управления инфраструктурой или предварительной загрузки данных.
AWS Glue
Бессерверный ETL-сервис от AWS, который автоматизирует обнаружение, подготовку и загрузку данных с централизованным каталогом данных и встроенными возможностями преобразования на основе Apache Spark.
Azure Data Lake Storage
Высокомасштабируемое и безопасное хранилище данных от Azure, оптимизированное для аналитических рабочих нагрузок Big Data, сочетающее возможности хранения озера данных с производительностью файловой системы.
Azure Synapse Analytics
Унифицированная гибридная аналитическая платформа от Azure, объединяющая хранилище данных, интеграцию данных и анализ Big Data с возможностями обработки SQL и Spark в одной среде.
Azure Databricks
Унифицированный аналитический сервис на основе Apache Spark в Azure, предлагающий совместную среду для обработки Big Data, машинного обучения и анализа в реальном времени с оптимизированными кластерами.
Google Cloud Storage
Унифицированный сервис объектного хранения Google Cloud, обеспечивающий высокую доступность, долговечность и производительность для данных Big Data с различными классами хранения, оптимизированными в зависимости от частоты доступа.
Google BigQuery
Бессерверное хранилище данных Google Cloud, позволяющее анализировать петабайты данных в реальном времени с помощью интерактивных SQL-запросов и бессерверной архитектуры, автоматически масштабируемой в соответствии с потребностями.
Google Dataproc
Управляемый сервис Google Cloud для запуска Apache Spark и Hadoop с быстрым развертыванием кластеров, предлагающий нативную интеграцию с экосистемой GCP и оптимизированные затраты для обработки Big Data.
Google Dataflow
Бессерверный сервис Google Cloud для потоковой и пакетной обработки на основе Apache Beam, позволяющий выполнять распределенные конвейеры данных с автоматическим масштабированием и упрощенным управлением.
Snowflake
Мультиоблачная платформа Data Cloud, предоставляющая полностью управляемое хранилище данных с архитектурой, разделяющей вычисления и хранение, что позволяет независимое масштабирование и безопасный обмен данными.
ELT Pipeline
Современный паттерн интеграции данных, при котором данные сначала загружаются в сыром виде в облачное хранилище, а затем преобразуются с использованием вычислительных возможностей хранилища, оптимизируя производительность для больших объемов.
Auto-scaling Cluster
Возможность облачных платформ Big Data динамически регулировать количество вычислительных узлов в зависимости от рабочей нагрузки, оптимизируя затраты и производительность без ручного вмешательства.
Serverless Analytics
Парадигма анализа данных, при которой базовая инфраструктура полностью управляется облачным провайдером, позволяя пользователям сосредоточиться на аналитической логике без управления серверами или кластерами.