Экосистема Hadoop - Глоссарий ИИ

📖

термины

HDFS

Основная распределенная файловая система Hadoop, предназначенная для хранения петабайтов данных на кластерах стандартных машин с автоматической репликацией и отказоустойчивостью.

📖

термины

MapReduce

Парадигма программирования и реализация для распределенной обработки больших наборов данных в кластерах, разделяющая задачи на фазы маппинга и редукции.

📖

термины

YARN

Менеджер ресурсов Hadoop, который оркестрирует распределение ресурсов CPU и памяти для приложений, одновременно управляя жизненным циклом задач в кластере.

📖

термины

HBase

Распределенная NoSQL база данных, ориентированная на столбцы и нереляционная, построенная на HDFS, обеспечивающая доступ в реальном времени к большим данным с сильной согласованностью.

📖

термины

Hive

Инфраструктура хранилища данных на Hadoop, позволяющая выполнять запросы к большим наборам данных с использованием языка, подобного SQL (HiveQL), при этом используя MapReduce для выполнения.

📖

термины

Pig

Платформа анализа данных высокого уровня, использующая язык Pig Latin для выражения сложных программ преобразования данных, выполняемых на Hadoop.

📖

термины

Spark

Сверхбыстрый унифицированный механизм обработки для Big Data, предлагающий API на Scala, Java, Python и R с поддержкой SQL, потоковой обработки, машинного обучения и обработки графов.

📖

термины

ZooKeeper

Централизованный распределенный сервис координации для поддержания информации о конфигурации, именования, распределенной синхронизации и управления группами сервисов.

📖

термины

Flume

Распределенный, надежный и доступный сервис для сбора, агрегации и перемещения больших объемов потоковых данных в HDFS с архитектурой на основе агентов.

📖

термины

Sqoop

Инструмент, предназначенный для эффективной массовой передачи данных между Hadoop и структурированными базами данных, такими как реляционные базы данных.

📖

термины

Oozie

Система рабочих процессов и координатор для управления и выполнения сложных конвейеров обработки данных Hadoop с временными и условными зависимостями.

📖

термины

Mahout

Библиотека распределенных алгоритмов машинного обучения и интеллектуального анализа данных, реализованных на Hadoop MapReduce для обработки больших наборов данных.

📖

термины

Ambari

Платформа управления и мониторинга кластеров Hadoop, предоставляющая веб-интерфейс для предоставления, управления и мониторинга всей экосистемы Hadoop.

📖

термины

HCatalog

Сервис управления метаданными и таблицами для экосистемы Hadoop, предоставляющий единое представление данных для таких инструментов, как Pig, Hive и MapReduce.

📖

термины

Avro

Система сериализации данных с эволюционирующей схемой, предоставляющая компактные и быстрые форматы данных для обмена между сервисами Hadoop.

📖

термины

Parquet

Колоночный формат файлов, оптимизированный для производительности аналитических запросов в Hadoop, с эффективным сжатием и поддержкой сложных типов.

📖

термины

Impala

Массово параллельный механизм SQL-запросов для Hadoop, обеспечивающий интерактивные запросы с низкой задержкой на данных, хранящихся в HDFS и HBase.

📖

термины

Tez

Обобщенная ациклическая среда выполнения данных для Hadoop YARN, оптимизирующая производительность сложных обработок путем устранения ненужных фаз MapReduce.

📖

термины

Storm

Распределенная система обработки потоков в реальном времени для Hadoop, способная обрабатывать огромные объемы данных с задержками порядка миллисекунд.

📖

термины

Kafka

Высокопроизводительная и высокодоступная распределенная платформа обмена сообщениями для сбора и обработки потоков данных в реальном времени в экосистеме Hadoop.

Глоссарий ИИ

HDFS

MapReduce

YARN

HBase

Hive

Pig

Spark

ZooKeeper

Flume

Sqoop

Oozie

Mahout

Ambari

HCatalog

Avro

Parquet

Impala

Tez

Storm

Kafka

Результаты не найдены