Глоссарий ИИ
Полный словарь искусственного интеллекта
MapReduce
Модель параллельного программирования для обработки больших наборов данных в кластерах, разделяющая обработку на две основные фазы: Map для фильтрации и преобразования, и Reduce для агрегации результатов.
Lambda Architecture
Архитектура обработки данных, объединяющая пакетный путь для полного анализа и скоростной путь для результатов в реальном времени, с унифицированным сервисным слоем для объединения обоих представлений.
Kappa Architecture
Упрощение архитектуры Lambda с использованием только конвейера потоковой обработки, где данные обрабатываются в реальном времени, а исторические запросы выполняются путем воспроизведения событий.
Batch Processing
Режим обработки, при котором данные собираются и обрабатываются пакетами через заданные интервалы, оптимизированный для пропускной способности, а не задержки, характерный для традиционного ETL-анализа.
Stream Processing
Непрерывная обработка данных в движении по мере их генерации, позволяющая проводить анализ в реальном времени с минимальной задержкой между захватом и обработкой.
Distributed File System
Файловая система, хранящая данные на нескольких серверах, но представляющаяся пользователям как единая система, обеспечивающая репликацию и отказоустойчивость для надежности.
HDFS
Hadoop Distributed File System, распределенная файловая система, предназначенная для хранения петабайтов данных на стандартном оборудовании с высокой отказоустойчивостью через репликацию блоков.
YARN
Yet Another Resource Negotiator, менеджер ресурсов Hadoop, разделяющий обработку данных и управление ресурсами, позволяющий выполнять несколько фреймворков на одном кластере.
RDD
Устойчивый распределенный набор данных, фундаментальная структура данных Spark, представляющая неизменяемую и разделенную коллекцию объектов, которая может быть вычислена параллельно с автоматической отказоустойчивостью.
Data Locality
Принцип распределенных вычислений, при котором задачи выполняются на узлах, содержащих необходимые данные, минимизируя сетевой трафик и значительно повышая производительность.
Speculative Execution
Механизм отказоустойчивости, запускающий копии медленных задач на других узлах и использующий первый завершенный результат для снижения влияния неисправных или перегруженных узлов.
DAG
Ориентированный ациклический граф, представление рабочего потока Spark, где преобразования организованы в ориентированный граф без циклов, оптимизируя параллельное выполнение этапов.
Fault Tolerance
Способность распределенной системы продолжать корректно функционировать при сбоях компонентов, обычно обеспечиваемая избыточностью, репликацией и механизмами автоматического восстановления.
Consistency Model
Контракт, определяющий гарантии согласованности данных в распределенной системе, варьирующийся от строгой согласованности до eventual consistency в зависимости от потребностей приложения.
Combiner
Функция оптимизации MapReduce, выполняемая локально на каждом маппере для уменьшения объема передаваемых данных во время shuffle, применяя предварительную агрегацию перед фазой редукции.