Glosario IA
El diccionario completo de la Inteligencia Artificial
Aprendizaje Automático Distribuido
Paradigma de entrenamiento de modelos de ML donde los cálculos se distribuyen en múltiples máquinas para procesar conjuntos de datos masivos y reducir el tiempo de entrenamiento.
Servidor de Parámetros
Arquitectura distribuida que centraliza los parámetros del modelo en servidores dedicados, permitiendo a los trabajadores actualizar y sincronizar los gradientes de manera asíncrona.
AllReduce
Algoritmo de comunicación colectiva que permite la reducción y difusión sincronizada de gradientes entre todos los nodos en un entorno de entrenamiento distribuido.
Paralelismo de Datos
Estrategia de paralelización donde los datos se particionan en múltiples máquinas, cada una entrenando una copia idéntica del modelo con lotes diferentes.
Spark MLlib
Biblioteca de aprendizaje automático escalable construida sobre Apache Spark, que ofrece implementaciones distribuidas de algoritmos ML clásicos.
TensorFlow Distribuido
Framework de entrenamiento distribuido de TensorFlow que utiliza estrategias como MirroredStrategy y MultiWorkerMirroredStrategy para escalar el entrenamiento.
Horovod
Framework de código abierto desarrollado por Uber que utiliza el algoritmo AllReduce a través de MPI para el entrenamiento distribuido eficiente de modelos de aprendizaje profundo.
Ray
Framework de cálculo distribuido optimizado para el aprendizaje automático y la IA, que proporciona primitivas para la ejecución paralela y la gestión de estado a gran escala.
Petastorm
Biblioteca que permite el acceso eficiente a conjuntos de datos de gran tamaño almacenados en Apache Parquet para el entrenamiento distribuido de modelos de aprendizaje profundo.
Dask-ML
Extensión de Dask que integra algoritmos de aprendizaje automático escalables y herramientas de paralelización para flujos de trabajo de ML en clústeres.
Kubeflow
Plataforma de código abierto basada en Kubernetes para desplegar y gestionar pipelines complejos de ML a gran escala con orquestación contenerizada.
MLflow
Plataforma de código abierto para gestionar el ciclo de vida completo de proyectos de ML, incluyendo seguimiento, gestión de modelos y reproducibilidad a escala.
Feast
Feature store de código abierto que proporciona una capa de abstracción para la gestión, versionado y servicio de features a gran escala.
Vertex AI
Plataforma unificada de Google Cloud para el entrenamiento, despliegue y gestión de modelos de ML a escala con AutoML y MLOps integrados.
SageMaker
Servicio de AWS completamente gestionado para el entrenamiento distribuido, despliegue y monitoreo de modelos de ML con optimización automática de recursos.
Sharding
Particionamiento horizontal de datos o del modelo en múltiples nodos para permitir el procesamiento paralelo y reducir la carga por máquina.
Entrenamiento Elástico
Capacidad de adaptar dinámicamente el número de trabajadores durante el entrenamiento para optimizar el uso de recursos y reducir costos.