Распределенная матричная факторизация

📖

термины

Распределенная матричная факторизация

Набор алгоритмических методов, предназначенных для разложения матрицы очень большого размера на произведение меньших матриц путем распределения вычислений и данных по кластеру машин, что позволяет преодолеть ограничения по памяти и вычислительной мощности одного узла.

📖

термины

Распределенный метод чередующихся наименьших квадратов (ALS)

Параллелизованный алгоритм матричной факторизации, который поочередно решает задачу наименьших квадратов для одного из матричных множителей, удерживая другой фиксированным. Он естественным образом адаптируется к распределенным средам, таким как Spark MLlib, благодаря независимости вычислений для каждой строки или столбца.

📖

термины

Распределенный стохастический градиентный спуск (SGD)

Параллельный вариант стохастического градиентного спуска, при котором обновление параметров факторизации выполняется асинхронно или синхронно на нескольких секциях данных. Для обеспечения правильной сходимости в распределенной среде требуются механизмы управления согласованностью.

📖

термины

MapReduce для факторизации

Парадигма программирования, разбивающая алгоритмы матричной факторизации на два основных этапа: этап 'Map' для локальных вычислений на фрагментах данных и этап 'Reduce' для агрегирования частичных результатов и обновления матричных множителей. Используется, в частности, в реализациях на Hadoop.

📖

термины

Spark MLlib ALS

Оптимизированная распределенная реализация алгоритма Alternating Least Squares в библиотеке машинного обучения Spark, предназначенная для факторизации крупномасштабных матриц. Она использует модель программирования RDD или DataFrame для обеспечения максимальной эффективности при работе с итеративными данными.

📖

термины

Разбиение матрицы (Matrix Partitioning)

Стратегия разделения огромной матрицы на подблоки (по строкам, по столбцам или по квадратным блокам), распределенные по узлам кластера. Это критически важный выбор, который напрямую влияет на рабочую нагрузку, межузловую коммуникацию и общую производительность алгоритмов факторизации.

📖

термины

Модель согласованности (Consistency Model)

Правила, определяющие видимость обновлений матричных множителей на узлах кластера. Они варьируются от строгой согласованности (модель BSP — Bulk Synchronous Parallel), гарантирующей сходимость ценой задержки, до слабой согласованности (асинхронная модель), которая ускоряет итерации, но может поставить под угрозу стабильность.

📖

термины

Онлайн-матричная факторизация (Online Matrix Factorization)

Распределенный подход, адаптированный для непрерывных потоков данных, при котором модель факторизации обновляется инкрементально по мере поступления новых наблюдений без необходимости полного переобучения на исторических данных. Часто реализуется с использованием распределенных вариантов SGD.

📖

термины

Параметрическое распределенное матричное разложение

Продвинутый метод, при котором факторы матрицы не обучаются напрямую, а генерируются с помощью общих и распределенных параметрических функций (например, нейронных сетей), что позволяет сократить объем данных, передаваемых между узлами, и улучшить способность к обобщению.

📖

термины

Отстающие узлы (Stragglers)

Явление в распределенных системах, при котором некоторые машины выполняют свои вычислительные задачи гораздо медленнее других, что замедляет весь процесс синхронного разложения; такие методы, как спекулятивное выполнение или алгоритмы, устойчивые к задержкам, разработаны для смягчения их влияния.

📖

термины

Распределенное неотрицательное матричное разложение (NMF)

Распределенное расширение неотрицательного матричного разложения, при котором ограничения неотрицательности факторов накладываются с помощью правил обновления (мультипликативных или проекционных), адаптированных для параллельного выполнения, часто используется для кластеризации текстов в больших масштабах.

📖

термины

Контрольные точки в итерационных алгоритмах (Checkpointing)

Техника периодического сохранения состояния факторов матрицы на надежном носителе (например, HDFS) в ходе итераций распределенного алгоритма, позволяющая возобновить вычисления с промежуточной точки в случае отказа узла и избежать перезапуска всего процесса с самого начала.

📖

термины

Распределенное разложение тензоров

Обобщение матричного разложения на тензоры (многомерные массивы) в распределенном контексте, используемое для моделирования данных более чем с двумя модами (например, пользователи, товары, время) и требующее применения специальных параллельных алгоритмов, таких как распределенный PARAFAC или Tucker.

📖

термины

Распределенная функция потерь

Вычисление ошибки восстановления факторизованной матрицы, выполняемое секционированным образом, при котором каждый узел оценивает потери на своем подмножестве данных перед тем, как этап глобального сокращения вычислит общие потери для управления обновлениями модели централизованно или децентрализованно.

📖

термины

Распределенная регуляризация

Применение штрафов (например, L2-нормы) к факторам матрицы для предотвращения переобучения, при котором член регуляризации вычисляется локально на каждом узле и агрегируется при глобальном обновлении параметров, обеспечивая согласованную регуляризацию в масштабах кластера.

📖

термины

Spark GraphX для факторизации

Использование API обработки графов Spark, GraphX, для моделирования матрицы в виде двудольного графа (пользователи-товары) и выполнения алгоритмов факторизации, основанных на передаче сообщений между узлами графа, что предоставляет альтернативу реализациям на основе DataFrame.

Глоссарий ИИ