Глоссарий ИИ
Полный словарь искусственного интеллекта
Lazy Evaluation
Стратегия, при которой преобразования выполняются только при вызове действия, что позволяет проводить глобальную оптимизацию плана выполнения.
Broadcast Variables
Переменные только для чтения, эффективно распределяемые по всем узлам для избежания повторной передачи данных при распределённых операциях.
Accumulators
Разделяемые переменные, которые можно изменять только с помощью ассоциативных и коммутативных операций, используемые для параллельного агрегирования информации.
Stage
Набор преобразований, которые могут быть выполнены без перемешивания данных (shuffle), представляющий фазу выполнения в DAG-графе заданий Spark.
Driver
Основной процесс, координирующий выполнение распределённых задач, создающий DAG и управляющий исполнителями в приложениях Spark.
Executor
Рабочий процесс, выполняющий задачи на узлах кластера, управляющий разделами данных и вычислительными операциями, назначенными драйвером.
Serialization
Процесс преобразования объектов в двоичный формат для хранения или передачи по сети, критически важный для производительности распределённых систем.
Container
Единица выделения ресурсов в YARN, инкапсулирующая ЦП, память и другие ресурсы, необходимые для выполнения конкретной задачи.
Pipeline
Цепочка соединенных обработок, где выход одного этапа напрямую подается на вход следующего, оптимизируя поток данных в Spark Streaming.