Infraestructura ML - Glosario IA

📖

términos

GPU (Unidad de Procesamiento Gráfico)

Procesador diseñado inicialmente para el renderizado gráfico, pero cuya arquitectura paralela lo hace extremadamente eficiente para acelerar los cálculos matriciales de los algoritmos de aprendizaje profundo.

📖

términos

TPU (Unidad de Procesamiento de Tensores)

Circuito integrado específico (ASIC) desarrollado por Google, optimizado para acelerar las operaciones de multiplicación de matrices y las activaciones de las redes neuronales, especialmente con el framework TensorFlow.

📖

términos

Spot Instances

Instancias de computación en la nube de bajo costo, disponibles a precios variables y que pueden ser interrumpidas por el proveedor, a menudo utilizadas para tareas de entrenamiento ML tolerantes a interrupciones.

📖

términos

Auto-scaling

Capacidad de una infraestructura para ajustar dinámicamente el número de recursos de computación (servidores, pods) según la carga de trabajo, para optimizar los costos y el rendimiento de los servicios de inferencia.

📖

términos

Model Serving Framework

Herramienta especializada (ej: TensorFlow Serving, TorchServe, Triton Inference Server) diseñada para desplegar, servir y gestionar eficientemente modelos de ML en producción, gestionando el versionado y la carga dinámica.

📖

términos

Hybrid Cloud

Arquitectura que combina recursos de computación en la nube públicos y privados (on-premise), permitiendo a las empresas flexibilizar sus workloads ML según los requisitos de seguridad, costo y rendimiento.

📖

términos

ML Pipeline Orchestrator

Sistema (ej: Kubeflow Pipelines, Airflow, Prefect) que define, ejecuta, monitorea y orquesta flujos de trabajo de ML complejos, desde la preparación de datos hasta el entrenamiento y despliegue.

📖

términos

Resource Quotas

Mecanismo de gestión de recursos en la nube/on-premise que limita la cantidad de CPU, GPU, memoria o almacenamiento que un usuario, proyecto o namespace puede consumir, esencial para la gestión de costos y la equidad.

📖

términos

Cold Start

Latencia inicial observada durante la primera solicitud a un servicio de inferencia serverless o a un modelo recién cargado, debido al tiempo de aprovisionamiento de recursos y carga del modelo en memoria.

Glosario IA

GPU (Unidad de Procesamiento Gráfico)

TPU (Unidad de Procesamiento de Tensores)

Spot Instances

Auto-scaling

Model Serving Framework

Hybrid Cloud

ML Pipeline Orchestrator

Resource Quotas

Cold Start

No se encontraron resultados