🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Apache Spark

Открытый фреймворк для распределенной обработки в памяти, предназначенный для ускорения анализа больших данных с оптимизированным параллельным выполнением.

📖
термины

RDD (Resilient Distributed Dataset)

Фундаментальная структура данных Spark, неизменяемая и разделенная на части, обеспечивающая отказоустойчивость за счет восстановления потерянных данных.

📖
термины

DataFrame

Распределенная коллекция данных, организованная в именованные столбцы, аналогичная таблице базы данных, оптимизированная для структурированных запросов.

📖
термины

Spark SQL

Модуль Spark, интегрирующий SQL-запросы и операции с DataFrame с автоматической оптимизацией через Catalyst Optimizer.

📖
термины

Spark Streaming

Расширение Spark для обработки потоков данных в реальном времени с использованием микропакетов для почти реальной задержки.

📖
термины

MLlib

Распределенная библиотека машинного обучения Spark, предоставляющая алгоритмы классификации, регрессии, кластеризации и рекомендаций.

📖
термины

GraphX

API Spark для распределенной обработки графов, сочетающий преимущества графов с производительностью RDD.

📖
термины

DAG (Directed Acyclic Graph)

Представление плана выполнения преобразований Spark, оптимизированное для устранения избыточности и параллелизации обработки.

📖
термины

Spark Driver

Главный процесс, координирующий выполнение задач Spark, создающий SparkContext и разделяющий операции на стадии.

📖
термины

Spark Executor

Рабочий процесс, выполняющий задачи, назначенные Driver, на каждом узле кластера, управляющий памятью и разделенными данными.

📖
термины

Spark Context

Основная точка входа приложения Spark, управляющая подключениями к кластеру и координирующая доступ к распределенным ресурсам.

📖
термины

Partition

Логическая единица распределения данных в Spark, обеспечивающая параллелизм путем разделения RDD/DataFrames на независимые фрагменты.

📖
термины

Shuffle

Затратная операция перераспределения данных между разделами, необходимая при агрегациях, соединениях или группировках в Spark.

📖
термины

Catalyst Optimizer

Движок оптимизации запросов Spark, преобразующий и реорганизующий планы выполнения для улучшения производительности.

📖
термины

Tungsten

Бэкенд выполнения Spark, оптимизирующий память и CPU благодаря бинарному управлению данными и генерации байткода.

📖
термины

Cache/Persist

Механизм сохранения RDD/DataFrames в памяти или на диске для быстрого повторного использования и избежания затратных пересчетов.

📖
термины

Broadcast Variable

Переменная только для чтения, эффективно распределенная по всем исполнителям для минимизации сетевых передач при соединениях.

📖
термины

Accumulator

Аддитивная общая переменная, используемая для агрегации информации из параллельных задач потокобезопасным способом.

📖
термины

Transformation

Ленивая операция, создающая новый RDD/DataFrame без немедленного выполнения, отложенная до запускающего действия.

📖
термины

Action

Операция, запускающая выполнение плана DAG для получения результата, принудительно вычисляющая все предыдущие преобразования.

🔍

Результаты не найдены