Cuantización Mixta

📖

términos

Técnica de optimización que aplica diferentes precisiones de bits a las capas de una red neuronal para equilibrar el rendimiento y el tamaño del modelo. Este enfoque estratégico permite mantener una alta precisión en las capas críticas mientras se reduce la memoria global.

📖

términos

Cuantización Consciente

Metodología que integra operaciones de pseudo-cuantización durante el entrenamiento para simular el efecto de la cuantización de baja precisión. Esta técnica permite que el modelo se adapte a los errores de redondeo antes de la conversión final.

📖

términos

Sensibilidad de las Capas

Medida del impacto de la cuantización en el rendimiento de cada capa individual de la red neuronal. Las capas sensibles requieren una mayor precisión para mantener la calidad global del modelo.

📖

términos

Cuantización Heterogénea

Enfoque de cuantización que asigna dinámicamente diferentes anchos de bits según las características computacionales y la importancia de cada capa. Esta estrategia optimiza el equilibrio entre la aceleración por hardware y la degradación de la precisión.

📖

términos

Perfilado de Modelo

Análisis exhaustivo de las características de un modelo entrenado para identificar las capas candidatas a diferentes estrategias de cuantización. El perfilado evalúa las distribuciones estadísticas, los rangos dinámicos y el impacto en la precisión.

📖

términos

Cuantización por Tensor

Método que aplica un único conjunto de parámetros de cuantización a todo un tensor, garantizando una coherencia de escala para todos los valores. Este enfoque simplifica la implementación por hardware pero puede reducir la precisión para distribuciones amplias.

📖

términos

Cuantización por Canal

Técnica de cuantización que utiliza parámetros distintos para cada canal o grupo de canales en una capa de convolución. Este método preserva mejor la precisión al adaptar la escala a las características específicas de cada filtro.

📖

términos

Escala de Cuantización

Parámetro multiplicativo que convierte los valores de punto flotante en enteros cuantizados según la fórmula Q = round(R/S + Z). La escala determina la precisión y el rango de representación de los valores cuantizados.

📖

términos

Punto Cero de Cuantización

Valor entero que corresponde al valor cero en coma flotante en el sistema cuantizado, esencial para preservar los ceros estructurales de las redes neuronales. Este parámetro permite una alineación precisa entre los dominios cuantizado y real.

📖

términos

Ruido de Cuantización

Error introducido durante la conversión de números de alta precisión a una representación de bits reducidos, que se manifiesta como una pérdida de información. El análisis del ruido de cuantización guía la selección de las capas a preservar en alta precisión.

📖

términos

Recuantización

Proceso de conversión entre diferentes precisiones de cuantización dentro de un mismo modelo, necesario durante operaciones entre capas de diferentes bits. La recuantización mantiene la coherencia numérica optimizando al mismo tiempo el uso de recursos.

📖

términos

Estrategia de Bits Variables

Enfoque algorítmico que determina la distribución óptima de los anchos de bits a través de la red para minimizar el tamaño del modelo bajo restricción de precisión. Esta estrategia resuelve un problema complejo de optimización combinatoria.

📖

términos

Cuantización Jerárquica

Método que organiza las capas en jerarquías basadas en su importancia y sensibilidad a la cuantización. La cuantización jerárquica aplica políticas de bits diferentes según el nivel jerárquico de cada grupo de capas.

Glosario IA