Модели распределенных вычислений

📖

термины

MapReduce

Модель параллельного программирования для обработки больших наборов данных в кластерах, разделяющая обработку на две основные фазы: Map для фильтрации и преобразования, и Reduce для агрегации результатов.

📖

термины

Lambda Architecture

Архитектура обработки данных, объединяющая пакетный путь для полного анализа и скоростной путь для результатов в реальном времени, с унифицированным сервисным слоем для объединения обоих представлений.

📖

термины

Kappa Architecture

Упрощение архитектуры Lambda с использованием только конвейера потоковой обработки, где данные обрабатываются в реальном времени, а исторические запросы выполняются путем воспроизведения событий.

📖

термины

Batch Processing

Режим обработки, при котором данные собираются и обрабатываются пакетами через заданные интервалы, оптимизированный для пропускной способности, а не задержки, характерный для традиционного ETL-анализа.

📖

термины

Stream Processing

Непрерывная обработка данных в движении по мере их генерации, позволяющая проводить анализ в реальном времени с минимальной задержкой между захватом и обработкой.

📖

термины

Distributed File System

Файловая система, хранящая данные на нескольких серверах, но представляющаяся пользователям как единая система, обеспечивающая репликацию и отказоустойчивость для надежности.

📖

термины

HDFS

Hadoop Distributed File System, распределенная файловая система, предназначенная для хранения петабайтов данных на стандартном оборудовании с высокой отказоустойчивостью через репликацию блоков.

📖

термины

YARN

Yet Another Resource Negotiator, менеджер ресурсов Hadoop, разделяющий обработку данных и управление ресурсами, позволяющий выполнять несколько фреймворков на одном кластере.

📖

термины

RDD

Устойчивый распределенный набор данных, фундаментальная структура данных Spark, представляющая неизменяемую и разделенную коллекцию объектов, которая может быть вычислена параллельно с автоматической отказоустойчивостью.

📖

термины

Data Locality

Принцип распределенных вычислений, при котором задачи выполняются на узлах, содержащих необходимые данные, минимизируя сетевой трафик и значительно повышая производительность.

📖

термины

Speculative Execution

Механизм отказоустойчивости, запускающий копии медленных задач на других узлах и использующий первый завершенный результат для снижения влияния неисправных или перегруженных узлов.

📖

термины

DAG

Ориентированный ациклический граф, представление рабочего потока Spark, где преобразования организованы в ориентированный граф без циклов, оптимизируя параллельное выполнение этапов.

📖

термины

Fault Tolerance

Способность распределенной системы продолжать корректно функционировать при сбоях компонентов, обычно обеспечиваемая избыточностью, репликацией и механизмами автоматического восстановления.

📖

термины

Consistency Model

Контракт, определяющий гарантии согласованности данных в распределенной системе, варьирующийся от строгой согласованности до eventual consistency в зависимости от потребностей приложения.

📖

термины

Combiner

Функция оптимизации MapReduce, выполняемая локально на каждом маппере для уменьшения объема передаваемых данных во время shuffle, применяя предварительную агрегацию перед фазой редукции.

Глоссарий ИИ

MapReduce

Lambda Architecture

Kappa Architecture

Batch Processing

Stream Processing

Distributed File System

HDFS

YARN

RDD

Data Locality

Speculative Execution

DAG

Fault Tolerance

Consistency Model

Combiner

Результаты не найдены