Apache Spark

📖

термины

Открытый фреймворк для распределенной обработки в памяти, предназначенный для ускорения анализа больших данных с оптимизированным параллельным выполнением.

📖

термины

RDD (Resilient Distributed Dataset)

Фундаментальная структура данных Spark, неизменяемая и разделенная на части, обеспечивающая отказоустойчивость за счет восстановления потерянных данных.

📖

термины

DataFrame

Распределенная коллекция данных, организованная в именованные столбцы, аналогичная таблице базы данных, оптимизированная для структурированных запросов.

📖

термины

Spark SQL

Модуль Spark, интегрирующий SQL-запросы и операции с DataFrame с автоматической оптимизацией через Catalyst Optimizer.

📖

термины

Spark Streaming

Расширение Spark для обработки потоков данных в реальном времени с использованием микропакетов для почти реальной задержки.

📖

термины

MLlib

Распределенная библиотека машинного обучения Spark, предоставляющая алгоритмы классификации, регрессии, кластеризации и рекомендаций.

📖

термины

GraphX

API Spark для распределенной обработки графов, сочетающий преимущества графов с производительностью RDD.

📖

термины

DAG (Directed Acyclic Graph)

Представление плана выполнения преобразований Spark, оптимизированное для устранения избыточности и параллелизации обработки.

📖

термины

Spark Driver

Главный процесс, координирующий выполнение задач Spark, создающий SparkContext и разделяющий операции на стадии.

📖

термины

Spark Executor

Рабочий процесс, выполняющий задачи, назначенные Driver, на каждом узле кластера, управляющий памятью и разделенными данными.

📖

термины

Spark Context

Основная точка входа приложения Spark, управляющая подключениями к кластеру и координирующая доступ к распределенным ресурсам.

📖

термины

Partition

Логическая единица распределения данных в Spark, обеспечивающая параллелизм путем разделения RDD/DataFrames на независимые фрагменты.

📖

термины

Shuffle

Затратная операция перераспределения данных между разделами, необходимая при агрегациях, соединениях или группировках в Spark.

📖

термины

Catalyst Optimizer

Движок оптимизации запросов Spark, преобразующий и реорганизующий планы выполнения для улучшения производительности.

📖

термины

Tungsten

Бэкенд выполнения Spark, оптимизирующий память и CPU благодаря бинарному управлению данными и генерации байткода.

📖

термины

Cache/Persist

Механизм сохранения RDD/DataFrames в памяти или на диске для быстрого повторного использования и избежания затратных пересчетов.

📖

термины

Broadcast Variable

Переменная только для чтения, эффективно распределенная по всем исполнителям для минимизации сетевых передач при соединениях.

📖

термины

Accumulator

Аддитивная общая переменная, используемая для агрегации информации из параллельных задач потокобезопасным способом.

📖

термины

Transformation

Ленивая операция, создающая новый RDD/DataFrame без немедленного выполнения, отложенная до запускающего действия.

📖

термины

Action

Операция, запускающая выполнение плана DAG для получения результата, принудительно вычисляющая все предыдущие преобразования.

Глоссарий ИИ

Apache Spark

RDD (Resilient Distributed Dataset)

DataFrame

Spark SQL

Spark Streaming

MLlib

GraphX

DAG (Directed Acyclic Graph)

Spark Driver

Spark Executor

Spark Context

Partition

Shuffle

Catalyst Optimizer

Tungsten

Cache/Persist

Broadcast Variable

Accumulator

Transformation

Action

Результаты не найдены