Cuantificación y Optimización

📖

términos

Cuantificación Consciente de la Cuantificación (QAT)

Método de optimización donde la simulación de la cuantificación de baja precisión se integra durante el entrenamiento, permitiendo que el modelo adapte sus pesos para minimizar la pérdida de rendimiento inducida por la cuantificación.

📖

términos

Materialización de Bajo Rango (LoRA)

Método de adaptación eficiente que congela los pesos de un modelo pre-entrenado e inyecta pequeñas matrices de bajo rango descomponibles, reduciendo drásticamente el número de parámetros entrenables para el fine-tuning mientras preserva el rendimiento.

📖

términos

Representación de 8 bits Flotante (FP8)

Formato de datos numéricos de muy baja precisión que utiliza 8 bits para representar números de punto flotante, permitiendo aceleraciones significativas en las GPU modernas mientras mantiene la estabilidad del entrenamiento de grandes modelos.

📖

términos

Cuantificación de 4 bits Entera (INT4)

Técnica de compresión extrema que representa los pesos del modelo en 4 bits, requiriendo algoritmos de cuantificación avanzados y a menudo un re-entrenamiento parcial para compensar la pérdida significativa de información.

📖

términos

Compensación de Sesgo de Cuantificación (Q-Bias)

Técnica de ajuste post-cuantificación que analiza y corrige sistemáticamente los sesgos introducidos por la reducción de precisión, a menudo modificando las capas de normalización o los sesgos de las capas lineales.

📖

términos

Optimización por Búsqueda en Cuadrícula de Cuantificación

Método de exploración sistemática de diferentes configuraciones de cuantificación (por capa, por grupo, mixta) para identificar el esquema óptimo que ofrece el mejor equilibrio entre tamaño del modelo, velocidad y precisión para una arquitectura dada.

📖

términos

Inferencia Especulativa (Speculative Inference)

Técnica de aceleración de la inferencia generativa donde un pequeño modelo 'borrador' propone rápidamente varios tokens, que luego son validados en paralelo por el gran modelo objetivo, reduciendo el número total de pasos de cálculo costosos.

📖

términos

Descomposición en Valores Singulares Truncada (Truncated SVD)

Aplicación de la descomposición SVD seguida de una truncación de los valores singulares más pequeños para aproximar una matriz de pesos mediante una suma de rango inferior, reduciendo así los parámetros y el cálculo con un error controlado.

📖

términos

Cuantificación por Bloques (Block-wise Quantization)

Estrategia de cuantificación que divide los tensores de pesos en bloques más pequeños y aplica una cuantificación independiente a cada bloque, preservando mejor la distribución de los valores y reduciendo el error global en comparación con la cuantificación global.

📖

términos

Pesos Estructurados y Dispersos (Structured Sparsity)

Forma de poda que impone patrones de regularidad (por fila, columna o bloque) sobre los pesos eliminados, permitiendo explotar eficientemente las aceleraciones de hardware en las CPU/GPU a diferencia de la dispersión no estructurada aleatoria.

Glosario IA

Cuantificación Consciente de la Cuantificación (QAT)

Materialización de Bajo Rango (LoRA)

Representación de 8 bits Flotante (FP8)

Cuantificación de 4 bits Entera (INT4)

Compensación de Sesgo de Cuantificación (Q-Bias)

Optimización por Búsqueda en Cuadrícula de Cuantificación

Inferencia Especulativa (Speculative Inference)

Descomposición en Valores Singulares Truncada (Truncated SVD)

Cuantificación por Bloques (Block-wise Quantization)

Pesos Estructurados y Dispersos (Structured Sparsity)

No se encontraron resultados