Glosario IA
El diccionario completo de la Inteligencia Artificial
GPU (Unidad de Procesamiento Gráfico)
Procesador diseñado inicialmente para el renderizado gráfico, pero cuya arquitectura paralela lo hace extremadamente eficiente para acelerar los cálculos matriciales de los algoritmos de aprendizaje profundo.
TPU (Unidad de Procesamiento de Tensores)
Circuito integrado específico (ASIC) desarrollado por Google, optimizado para acelerar las operaciones de multiplicación de matrices y las activaciones de las redes neuronales, especialmente con el framework TensorFlow.
Spot Instances
Instancias de computación en la nube de bajo costo, disponibles a precios variables y que pueden ser interrumpidas por el proveedor, a menudo utilizadas para tareas de entrenamiento ML tolerantes a interrupciones.
Auto-scaling
Capacidad de una infraestructura para ajustar dinámicamente el número de recursos de computación (servidores, pods) según la carga de trabajo, para optimizar los costos y el rendimiento de los servicios de inferencia.
Model Serving Framework
Herramienta especializada (ej: TensorFlow Serving, TorchServe, Triton Inference Server) diseñada para desplegar, servir y gestionar eficientemente modelos de ML en producción, gestionando el versionado y la carga dinámica.
Hybrid Cloud
Arquitectura que combina recursos de computación en la nube públicos y privados (on-premise), permitiendo a las empresas flexibilizar sus workloads ML según los requisitos de seguridad, costo y rendimiento.
ML Pipeline Orchestrator
Sistema (ej: Kubeflow Pipelines, Airflow, Prefect) que define, ejecuta, monitorea y orquesta flujos de trabajo de ML complejos, desde la preparación de datos hasta el entrenamiento y despliegue.
Resource Quotas
Mecanismo de gestión de recursos en la nube/on-premise que limita la cantidad de CPU, GPU, memoria o almacenamiento que un usuario, proyecto o namespace puede consumir, esencial para la gestión de costos y la equidad.
Cold Start
Latencia inicial observada durante la primera solicitud a un servicio de inferencia serverless o a un modelo recién cargado, debido al tiempo de aprovisionamiento de recursos y carga del modelo en memoria.