Glosario IA
El diccionario completo de la Inteligencia Artificial
Cuantificación Consciente de la Cuantificación (QAT)
Método de optimización donde la simulación de la cuantificación de baja precisión se integra durante el entrenamiento, permitiendo que el modelo adapte sus pesos para minimizar la pérdida de rendimiento inducida por la cuantificación.
Materialización de Bajo Rango (LoRA)
Método de adaptación eficiente que congela los pesos de un modelo pre-entrenado e inyecta pequeñas matrices de bajo rango descomponibles, reduciendo drásticamente el número de parámetros entrenables para el fine-tuning mientras preserva el rendimiento.
Representación de 8 bits Flotante (FP8)
Formato de datos numéricos de muy baja precisión que utiliza 8 bits para representar números de punto flotante, permitiendo aceleraciones significativas en las GPU modernas mientras mantiene la estabilidad del entrenamiento de grandes modelos.
Cuantificación de 4 bits Entera (INT4)
Técnica de compresión extrema que representa los pesos del modelo en 4 bits, requiriendo algoritmos de cuantificación avanzados y a menudo un re-entrenamiento parcial para compensar la pérdida significativa de información.
Compensación de Sesgo de Cuantificación (Q-Bias)
Técnica de ajuste post-cuantificación que analiza y corrige sistemáticamente los sesgos introducidos por la reducción de precisión, a menudo modificando las capas de normalización o los sesgos de las capas lineales.
Optimización por Búsqueda en Cuadrícula de Cuantificación
Método de exploración sistemática de diferentes configuraciones de cuantificación (por capa, por grupo, mixta) para identificar el esquema óptimo que ofrece el mejor equilibrio entre tamaño del modelo, velocidad y precisión para una arquitectura dada.
Inferencia Especulativa (Speculative Inference)
Técnica de aceleración de la inferencia generativa donde un pequeño modelo 'borrador' propone rápidamente varios tokens, que luego son validados en paralelo por el gran modelo objetivo, reduciendo el número total de pasos de cálculo costosos.
Descomposición en Valores Singulares Truncada (Truncated SVD)
Aplicación de la descomposición SVD seguida de una truncación de los valores singulares más pequeños para aproximar una matriz de pesos mediante una suma de rango inferior, reduciendo así los parámetros y el cálculo con un error controlado.
Cuantificación por Bloques (Block-wise Quantization)
Estrategia de cuantificación que divide los tensores de pesos en bloques más pequeños y aplica una cuantificación independiente a cada bloque, preservando mejor la distribución de los valores y reduciendo el error global en comparación con la cuantificación global.
Pesos Estructurados y Dispersos (Structured Sparsity)
Forma de poda que impone patrones de regularidad (por fila, columna o bloque) sobre los pesos eliminados, permitiendo explotar eficientemente las aceleraciones de hardware en las CPU/GPU a diferencia de la dispersión no estructurada aleatoria.