Glosario IA
El diccionario completo de la Inteligencia Artificial
CUDA
Arquitectura de computación paralela e interfaz de programación creada por NVIDIA, que permite a los desarrolladores utilizar las GPU para cálculos generales mediante extensiones al lenguaje C/C++.
Tensor Core
Unidades de cálculo especializadas integradas en las GPU NVIDIA modernas, diseñadas para acelerar exponencialmente las operaciones de multiplicación y suma de matrices, fundamentales para las redes neuronales profundas.
ROCm
Plataforma de computación de código abierto para las GPU AMD, que ofrece un ecosistema completo de lenguajes de programación (HIP), bibliotecas (MIOpen) y herramientas para computación de alto rendimiento e IA.
OpenCL
Estándar abierto para escribir programas que se ejecutan en plataformas heterogéneas, incluyendo CPU, GPU y otros procesadores, definiendo un lenguaje basado en C99 y APIs para la gestión de dispositivos.
cuDNN
Biblioteca GPU acelerada de primitivas para redes neuronales profundas, desarrollada por NVIDIA, que proporciona implementaciones altamente optimizadas para rutinas de convolución, pooling y normalización.
Memory Bandwidth
Ancho de banda máximo de datos entre la GPU y su memoria de video (VRAM), medido en GB/s, constituyendo un factor crítico para el rendimiento de cálculos intensivos y el entrenamiento de grandes modelos de IA.
Kernel
Función principal ejecutada en la GPU en un programa de computación paralela, lanzada en una cuadrícula de hilos y diseñada para procesar una porción específica de datos de manera simultánea.
Warp
Grupo de 32 hilos ejecutados en modo SIMT (Single Instruction, Multiple Thread) en las GPU NVIDIA, que comparten el mismo flujo de instrucciones y constituyen la unidad básica de planificación para la ejecución paralela.
Stream Multiprocessor (SM)
Unidad de cálculo básica en una GPU NVIDIA, que contiene núcleos, unidades de memoria compartida y planificadores, capaz de ejecutar simultáneamente múltiples bloques de hilos y gestionar su ejecución.
Shared Memory
Espacio de memoria rápido y de baja latencia, compartido entre los hilos de un mismo bloque en una GPU, permitiendo la colaboración y reduciendo los accesos a la memoria global, que es mucho más lenta.
Unified Memory
Tecnología de gestión de memoria que crea un espacio de direccionamiento único entre la CPU y la GPU, eliminando la necesidad de copias explícitas de datos y simplificando el desarrollo de aplicaciones heterogéneas.
NVLink
Tecnología de interconexión de alto ancho de banda desarrollada por NVIDIA, que permite una comunicación directa y rápida entre múltiples GPU, superando las limitaciones del bus PCIe para cálculos distribuidos.
FP16 (Half-Precision)
Formato de número de coma flotante de 16 bits, utilizado para acelerar los cálculos y reducir la huella de memoria en las redes neuronales, a costa de una ligera pérdida de precisión que a menudo es aceptable.
CUDA Graphs
Tecnología que permite capturar una secuencia completa de operaciones CUDA en un grafo, y luego reejecutarla con una sobrecarga mínima, reduciendo los costos de lanzamiento de núcleos para cargas de trabajo repetitivas.
HIP
API de programación y lenguaje de compilación desarrollado por AMD, diseñado como una alternativa portable a CUDA, permitiendo migrar más fácilmente el código CUDA a las GPU AMD.
MIOpen
Biblioteca de optimización para redes neuronales profundas en la plataforma ROCm de AMD, que proporciona implementaciones de alto rendimiento para capas de convolución, pooling y normalización.
Capacidad de Computación
Número de versión que describe las características y funcionalidades de una GPU NVIDIA, incluyendo el número de núcleos, la arquitectura, las instrucciones soportadas y las capacidades de cálculo, esencial para la compatibilidad del software.
Acceso a Memoria Consolidado
Optimización de acceso a memoria donde los hilos adyacentes en un warp acceden a ubicaciones de memoria contiguas, permitiendo combinar estas solicitudes en una única transacción de memoria amplia y eficiente.