Computación con GPU para IA

📖

términos

CUDA

Arquitectura de computación paralela e interfaz de programación creada por NVIDIA, que permite a los desarrolladores utilizar las GPU para cálculos generales mediante extensiones al lenguaje C/C++.

📖

términos

Unidades de cálculo especializadas integradas en las GPU NVIDIA modernas, diseñadas para acelerar exponencialmente las operaciones de multiplicación y suma de matrices, fundamentales para las redes neuronales profundas.

📖

términos

ROCm

Plataforma de computación de código abierto para las GPU AMD, que ofrece un ecosistema completo de lenguajes de programación (HIP), bibliotecas (MIOpen) y herramientas para computación de alto rendimiento e IA.

📖

términos

OpenCL

Estándar abierto para escribir programas que se ejecutan en plataformas heterogéneas, incluyendo CPU, GPU y otros procesadores, definiendo un lenguaje basado en C99 y APIs para la gestión de dispositivos.

📖

términos

cuDNN

Biblioteca GPU acelerada de primitivas para redes neuronales profundas, desarrollada por NVIDIA, que proporciona implementaciones altamente optimizadas para rutinas de convolución, pooling y normalización.

📖

términos

Memory Bandwidth

Ancho de banda máximo de datos entre la GPU y su memoria de video (VRAM), medido en GB/s, constituyendo un factor crítico para el rendimiento de cálculos intensivos y el entrenamiento de grandes modelos de IA.

📖

términos

Kernel

Función principal ejecutada en la GPU en un programa de computación paralela, lanzada en una cuadrícula de hilos y diseñada para procesar una porción específica de datos de manera simultánea.

📖

términos

Warp

Grupo de 32 hilos ejecutados en modo SIMT (Single Instruction, Multiple Thread) en las GPU NVIDIA, que comparten el mismo flujo de instrucciones y constituyen la unidad básica de planificación para la ejecución paralela.

📖

términos

Stream Multiprocessor (SM)

Unidad de cálculo básica en una GPU NVIDIA, que contiene núcleos, unidades de memoria compartida y planificadores, capaz de ejecutar simultáneamente múltiples bloques de hilos y gestionar su ejecución.

📖

términos

Shared Memory

Espacio de memoria rápido y de baja latencia, compartido entre los hilos de un mismo bloque en una GPU, permitiendo la colaboración y reduciendo los accesos a la memoria global, que es mucho más lenta.

📖

términos

Unified Memory

Tecnología de gestión de memoria que crea un espacio de direccionamiento único entre la CPU y la GPU, eliminando la necesidad de copias explícitas de datos y simplificando el desarrollo de aplicaciones heterogéneas.

📖

términos

NVLink

Tecnología de interconexión de alto ancho de banda desarrollada por NVIDIA, que permite una comunicación directa y rápida entre múltiples GPU, superando las limitaciones del bus PCIe para cálculos distribuidos.

📖

términos

FP16 (Half-Precision)

Formato de número de coma flotante de 16 bits, utilizado para acelerar los cálculos y reducir la huella de memoria en las redes neuronales, a costa de una ligera pérdida de precisión que a menudo es aceptable.

📖

términos

CUDA Graphs

Tecnología que permite capturar una secuencia completa de operaciones CUDA en un grafo, y luego reejecutarla con una sobrecarga mínima, reduciendo los costos de lanzamiento de núcleos para cargas de trabajo repetitivas.

📖

términos

HIP

API de programación y lenguaje de compilación desarrollado por AMD, diseñado como una alternativa portable a CUDA, permitiendo migrar más fácilmente el código CUDA a las GPU AMD.

📖

términos

MIOpen

Biblioteca de optimización para redes neuronales profundas en la plataforma ROCm de AMD, que proporciona implementaciones de alto rendimiento para capas de convolución, pooling y normalización.

📖

términos

Capacidad de Computación

Número de versión que describe las características y funcionalidades de una GPU NVIDIA, incluyendo el número de núcleos, la arquitectura, las instrucciones soportadas y las capacidades de cálculo, esencial para la compatibilidad del software.

📖

términos

Acceso a Memoria Consolidado

Optimización de acceso a memoria donde los hilos adyacentes en un warp acceden a ubicaciones de memoria contiguas, permitiendo combinar estas solicitudes en una única transacción de memoria amplia y eficiente.

Glosario IA

CUDA

Tensor Core

ROCm

OpenCL

cuDNN

Memory Bandwidth

Kernel

Warp

Stream Multiprocessor (SM)

Shared Memory

Unified Memory

NVLink

FP16 (Half-Precision)

CUDA Graphs

HIP

MIOpen

Capacidad de Computación

Acceso a Memoria Consolidado

No se encontraron resultados