Глоссарий ИИ
Полный словарь искусственного интеллекта
Apache Spark
Открытый фреймворк для распределенной обработки в памяти, предназначенный для ускорения анализа больших данных с оптимизированным параллельным выполнением.
RDD (Resilient Distributed Dataset)
Фундаментальная структура данных Spark, неизменяемая и разделенная на части, обеспечивающая отказоустойчивость за счет восстановления потерянных данных.
DataFrame
Распределенная коллекция данных, организованная в именованные столбцы, аналогичная таблице базы данных, оптимизированная для структурированных запросов.
Spark SQL
Модуль Spark, интегрирующий SQL-запросы и операции с DataFrame с автоматической оптимизацией через Catalyst Optimizer.
Spark Streaming
Расширение Spark для обработки потоков данных в реальном времени с использованием микропакетов для почти реальной задержки.
MLlib
Распределенная библиотека машинного обучения Spark, предоставляющая алгоритмы классификации, регрессии, кластеризации и рекомендаций.
GraphX
API Spark для распределенной обработки графов, сочетающий преимущества графов с производительностью RDD.
DAG (Directed Acyclic Graph)
Представление плана выполнения преобразований Spark, оптимизированное для устранения избыточности и параллелизации обработки.
Spark Driver
Главный процесс, координирующий выполнение задач Spark, создающий SparkContext и разделяющий операции на стадии.
Spark Executor
Рабочий процесс, выполняющий задачи, назначенные Driver, на каждом узле кластера, управляющий памятью и разделенными данными.
Spark Context
Основная точка входа приложения Spark, управляющая подключениями к кластеру и координирующая доступ к распределенным ресурсам.
Partition
Логическая единица распределения данных в Spark, обеспечивающая параллелизм путем разделения RDD/DataFrames на независимые фрагменты.
Shuffle
Затратная операция перераспределения данных между разделами, необходимая при агрегациях, соединениях или группировках в Spark.
Catalyst Optimizer
Движок оптимизации запросов Spark, преобразующий и реорганизующий планы выполнения для улучшения производительности.
Tungsten
Бэкенд выполнения Spark, оптимизирующий память и CPU благодаря бинарному управлению данными и генерации байткода.
Cache/Persist
Механизм сохранения RDD/DataFrames в памяти или на диске для быстрого повторного использования и избежания затратных пересчетов.
Broadcast Variable
Переменная только для чтения, эффективно распределенная по всем исполнителям для минимизации сетевых передач при соединениях.
Accumulator
Аддитивная общая переменная, используемая для агрегации информации из параллельных задач потокобезопасным способом.
Transformation
Ленивая операция, создающая новый RDD/DataFrame без немедленного выполнения, отложенная до запускающего действия.
Action
Операция, запускающая выполнение плана DAG для получения результата, принудительно вычисляющая все предыдущие преобразования.