Глоссарий ИИ
Полный словарь искусственного интеллекта
HDFS
Основная распределенная файловая система Hadoop, предназначенная для хранения петабайтов данных на кластерах стандартных машин с автоматической репликацией и отказоустойчивостью.
MapReduce
Парадигма программирования и реализация для распределенной обработки больших наборов данных в кластерах, разделяющая задачи на фазы маппинга и редукции.
YARN
Менеджер ресурсов Hadoop, который оркестрирует распределение ресурсов CPU и памяти для приложений, одновременно управляя жизненным циклом задач в кластере.
HBase
Распределенная NoSQL база данных, ориентированная на столбцы и нереляционная, построенная на HDFS, обеспечивающая доступ в реальном времени к большим данным с сильной согласованностью.
Hive
Инфраструктура хранилища данных на Hadoop, позволяющая выполнять запросы к большим наборам данных с использованием языка, подобного SQL (HiveQL), при этом используя MapReduce для выполнения.
Pig
Платформа анализа данных высокого уровня, использующая язык Pig Latin для выражения сложных программ преобразования данных, выполняемых на Hadoop.
Spark
Сверхбыстрый унифицированный механизм обработки для Big Data, предлагающий API на Scala, Java, Python и R с поддержкой SQL, потоковой обработки, машинного обучения и обработки графов.
ZooKeeper
Централизованный распределенный сервис координации для поддержания информации о конфигурации, именования, распределенной синхронизации и управления группами сервисов.
Flume
Распределенный, надежный и доступный сервис для сбора, агрегации и перемещения больших объемов потоковых данных в HDFS с архитектурой на основе агентов.
Sqoop
Инструмент, предназначенный для эффективной массовой передачи данных между Hadoop и структурированными базами данных, такими как реляционные базы данных.
Oozie
Система рабочих процессов и координатор для управления и выполнения сложных конвейеров обработки данных Hadoop с временными и условными зависимостями.
Mahout
Библиотека распределенных алгоритмов машинного обучения и интеллектуального анализа данных, реализованных на Hadoop MapReduce для обработки больших наборов данных.
Ambari
Платформа управления и мониторинга кластеров Hadoop, предоставляющая веб-интерфейс для предоставления, управления и мониторинга всей экосистемы Hadoop.
HCatalog
Сервис управления метаданными и таблицами для экосистемы Hadoop, предоставляющий единое представление данных для таких инструментов, как Pig, Hive и MapReduce.
Avro
Система сериализации данных с эволюционирующей схемой, предоставляющая компактные и быстрые форматы данных для обмена между сервисами Hadoop.
Parquet
Колоночный формат файлов, оптимизированный для производительности аналитических запросов в Hadoop, с эффективным сжатием и поддержкой сложных типов.
Impala
Массово параллельный механизм SQL-запросов для Hadoop, обеспечивающий интерактивные запросы с низкой задержкой на данных, хранящихся в HDFS и HBase.
Tez
Обобщенная ациклическая среда выполнения данных для Hadoop YARN, оптимизирующая производительность сложных обработок путем устранения ненужных фаз MapReduce.
Storm
Распределенная система обработки потоков в реальном времени для Hadoop, способная обрабатывать огромные объемы данных с задержками порядка миллисекунд.
Kafka
Высокопроизводительная и высокодоступная распределенная платформа обмена сообщениями для сбора и обработки потоков данных в реальном времени в экосистеме Hadoop.