Машинное обучение в масштабе

📖

термины

Распределенное машинное обучение

Парадигма обучения моделей машинного обучения, при которой вычисления распределяются по нескольким машинам для обработки массивных наборов данных и сокращения времени обучения.

📖

термины

Сервер параметров

Распределенная архитектура, централизующая параметры модели на выделенных серверах, позволяющая рабочим узлам асинхронно обновлять и синхронизировать градиенты.

📖

термины

AllReduce

Коллективный алгоритм коммуникации, позволяющий осуществлять синхронную редукцию и распространение градиентов между всеми узлами в распределенной среде обучения.

📖

термины

Параллелизм данных

Стратегия параллелизации, при которой данные распределяются по нескольким машинам, каждая из которых обучает идентичную копию модели на разных батчах.

📖

термины

Spark MLlib

Масштабируемая библиотека машинного обучения, построенная на Apache Spark, предоставляющая распределенные реализации классических алгоритмов ML.

📖

термины

TensorFlow Distributed

Распределенный фреймворк обучения TensorFlow, использующий стратегии вроде MirroredStrategy и MultiWorkerMirroredStrategy для масштабирования обучения.

📖

термины

Horovod

Опенсорсный фреймворк, разработанный Uber, использующий алгоритм AllReduce через MPI для эффективного распределенного обучения моделей глубокого обучения.

📖

термины

Ray

Фреймворк распределенных вычислений, оптимизированный для машинного обучения и ИИ, предоставляющий примитивы для параллельного выполнения и управления состоянием в больших масштабах.

📖

термины

Petastorm

Библиотека, обеспечивающая эффективный доступ к большим наборам данных, хранящимся в Apache Parquet, для распределенного обучения моделей глубокого обучения.

📖

термины

Dask-ML

Расширение Dask, интегрирующее масштабируемые алгоритмы машинного обучения и инструменты параллелизации для ML-воркфлоуов в кластерах.

📖

термины

Kubeflow

Платформа с открытым исходным кодом на основе Kubernetes для развертывания и управления сложными ML-конвейерами в крупном масштабе с контейнерной оркестрацией.

📖

термины

MLflow

Платформа с открытым исходным кодом для управления полным жизненным циклом ML-проектов, включая отслеживание, управление моделями и воспроизводимость в масштабе.

📖

термины

Feast

Функциональное хранилище с открытым исходным кодом, предоставляющее уровень абстракции для управления, версионирования и обслуживания признаков в крупном масштабе.

📖

термины

Vertex AI

Унифицированная платформа Google Cloud для обучения, развертывания и управления ML-моделями в масштабе со встроенными AutoML и MLOps.

📖

термины

SageMaker

Полностью управляемый сервис AWS для распределенного обучения, развертывания и мониторинга ML-моделей с автоматической оптимизацией ресурсов.

📖

термины

Sharding

Горизонтальное разделение данных или модели на несколько узлов для обеспечения параллельной обработки и снижения нагрузки на каждую машину.

📖

термины

Эластичное обучение

Способность динамически адаптировать количество рабочих процессов во время обучения для оптимизации использования ресурсов и снижения затрат.

Глоссарий ИИ

Распределенное машинное обучение

Сервер параметров

AllReduce

Параллелизм данных

Spark MLlib

TensorFlow Distributed

Horovod

Ray

Petastorm

Dask-ML

Kubeflow

MLflow

Feast

Vertex AI

SageMaker

Sharding

Эластичное обучение

Результаты не найдены