Глоссарий ИИ
Полный словарь искусственного интеллекта
Распределенное машинное обучение
Парадигма обучения моделей машинного обучения, при которой вычисления распределяются по нескольким машинам для обработки массивных наборов данных и сокращения времени обучения.
Сервер параметров
Распределенная архитектура, централизующая параметры модели на выделенных серверах, позволяющая рабочим узлам асинхронно обновлять и синхронизировать градиенты.
AllReduce
Коллективный алгоритм коммуникации, позволяющий осуществлять синхронную редукцию и распространение градиентов между всеми узлами в распределенной среде обучения.
Параллелизм данных
Стратегия параллелизации, при которой данные распределяются по нескольким машинам, каждая из которых обучает идентичную копию модели на разных батчах.
Spark MLlib
Масштабируемая библиотека машинного обучения, построенная на Apache Spark, предоставляющая распределенные реализации классических алгоритмов ML.
TensorFlow Distributed
Распределенный фреймворк обучения TensorFlow, использующий стратегии вроде MirroredStrategy и MultiWorkerMirroredStrategy для масштабирования обучения.
Horovod
Опенсорсный фреймворк, разработанный Uber, использующий алгоритм AllReduce через MPI для эффективного распределенного обучения моделей глубокого обучения.
Ray
Фреймворк распределенных вычислений, оптимизированный для машинного обучения и ИИ, предоставляющий примитивы для параллельного выполнения и управления состоянием в больших масштабах.
Petastorm
Библиотека, обеспечивающая эффективный доступ к большим наборам данных, хранящимся в Apache Parquet, для распределенного обучения моделей глубокого обучения.
Dask-ML
Расширение Dask, интегрирующее масштабируемые алгоритмы машинного обучения и инструменты параллелизации для ML-воркфлоуов в кластерах.
Kubeflow
Платформа с открытым исходным кодом на основе Kubernetes для развертывания и управления сложными ML-конвейерами в крупном масштабе с контейнерной оркестрацией.
MLflow
Платформа с открытым исходным кодом для управления полным жизненным циклом ML-проектов, включая отслеживание, управление моделями и воспроизводимость в масштабе.
Feast
Функциональное хранилище с открытым исходным кодом, предоставляющее уровень абстракции для управления, версионирования и обслуживания признаков в крупном масштабе.
Vertex AI
Унифицированная платформа Google Cloud для обучения, развертывания и управления ML-моделями в масштабе со встроенными AutoML и MLOps.
SageMaker
Полностью управляемый сервис AWS для распределенного обучения, развертывания и мониторинга ML-моделей с автоматической оптимизацией ресурсов.
Sharding
Горизонтальное разделение данных или модели на несколько узлов для обеспечения параллельной обработки и снижения нагрузки на каждую машину.
Эластичное обучение
Способность динамически адаптировать количество рабочих процессов во время обучения для оптимизации использования ресурсов и снижения затрат.